玩酷网

吊打阿里EMO？让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈

智能机器能不能 2024-06-27 09:50:40

机器之能报道

编辑：杨文

以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。

因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。

我们也欢迎读者投稿亲自实践的创新型用例。

最近，AI 圈刮起一股「让照片开口唱歌」的风潮。

例如，让霉霉唱碧昂丝《Halo》的 Hallo、斯坦福创业团队的 Proteus、以及之前阿里出品的 EMO。

就在昨天，又有一家名为 Hedra 的公司前来踢馆，推出了基础模型 —— Character-1 。

关键是，人人免费可用。

网友们已经玩疯了。

让女版马斯克唱安妮・海瑟薇写给狗仔队的 Rap：

视频链接：https://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247520147&idx=1&sn=c7b068ab9ef114196775a67cfe2c5a44&chksm=fa772d98cd00a48e63e0114772305a105a9cb3de21c88c5c0e30de8c4f96f84df3d217ca73f9&token=1042724614&lang=zh_CN#rd

让垃圾桶、土豆人开口说话：

视频链接：https://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247520147&idx=1&sn=c7b068ab9ef114196775a67cfe2c5a44&chksm=fa772d98cd00a48e63e0114772305a105a9cb3de21c88c5c0e30de8c4f96f84df3d217ca73f9&token=1042724614&lang=zh_CN#rd

也有网友开始制作动画片：

视频链接：https://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247520147&idx=1&sn=c7b068ab9ef114196775a67cfe2c5a44&chksm=fa772d98cd00a48e63e0114772305a105a9cb3de21c88c5c0e30de8c4f96f84df3d217ca73f9&token=1042724614&lang=zh_CN#rd

AI 电影制作人 @Uncanny_Harry 则用它制作了卡通角色 Dave，送上一份迟到的父亲节礼物，并称「这是我所见过的 AI 生成视频中最接近真实表演的作品」。

视频链接：https://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247520147&idx=1&sn=c7b068ab9ef114196775a67cfe2c5a44&chksm=fa772d98cd00a48e63e0114772305a105a9cb3de21c88c5c0e30de8c4f96f84df3d217ca73f9&token=1042724614&lang=zh_CN#rd

据他本人介绍，他先用 Midjourney 生成一张图片，然后使用 ElevenLabs 的声音转换技术，以及 Hedra，最终创造了 Dave 这一角色。

由于效果相当惊艳，不少网友直呼：爱惨它了，口型同步令人惊叹。

-1-

傻瓜级玩法

据官方介绍，与其他竞品相比，Hedra 主要有三大优势：

免费体验，不过公测期间每条视频最长不超过30秒；生成速度快，每分钟可生成 90 秒内容，前提是他们 H100 供应充足；角色表情丰富，能够流畅地进行对话、歌唱、说唱。

其玩法也很简单。用户只需上传一张图片，再生成一段音频，就能让它开口说话或唱歌。

Hedra 链接：https://www.hedra.com/

打开上述链接，使用谷歌邮箱等注册登录。

进入操作界面后，我们生成或上传一段音频。

值得一提的是，目前该应用主要支持中文和英文，而且中文效果会更好。

我们上传一段搞笑段子音频。

接着就是上传或者生成一张图片。官方还贴心地给出提示词指南。

为了生成效果最佳，提示词中尽量包括风格、角色特征、相机视角、背景场景以及光线效果等内容。

例如，90s sitcom character，shoulders-up，in living room，soft lighting（90 年代情景喜剧角色，肩膀以上，客厅中，柔和光线）

Anime woman，2d，close-up on face，forest at night，cinematic lighting（动漫女性，2D 风格，面部特写，夜晚森林背景，电影级照明）

Woman, cyberpunk, matte blackarmor, dirty face, close-up, citynight, no people（女性，赛博朋克风格，哑光黑色盔甲，脏污的脸庞，特写镜头，城市夜景，无人）

我们图省事，只输入：a beautiful girl，虽然提示词简单，但生成效果还不错。

最后点击「Generate video」，稍等片刻即可生成一段视频。效果如下：

视频链接：https://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247520147&idx=1&sn=c7b068ab9ef114196775a67cfe2c5a44&chksm=fa772d98cd00a48e63e0114772305a105a9cb3de21c88c5c0e30de8c4f96f84df3d217ca73f9&token=1042724614&lang=zh_CN#rd

我们还让奥特曼说了一段脱口秀：

视频链接：https://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247520147&idx=1&sn=c7b068ab9ef114196775a67cfe2c5a44&chksm=fa772d98cd00a48e63e0114772305a105a9cb3de21c88c5c0e30de8c4f96f84df3d217ca73f9&token=1042724614&lang=zh_CN#rd

妖娆的「马斯克」唱英文歌：

视频链接：https://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247520147&idx=1&sn=c7b068ab9ef114196775a67cfe2c5a44&chksm=fa772d98cd00a48e63e0114772305a105a9cb3de21c88c5c0e30de8c4f96f84df3d217ca73f9&token=1042724614&lang=zh_CN#rd

-2-

挑战阿里 EMO

实际上，让照片开口说话、唱歌早不是什么新鲜事，去年爆火的类似产品就有 D-ID、Heygen ，还有两个月前上线的阿里 EMO。

打开通义千问 APP，在顶端的「频道」栏目中，找到「全民舞台 - 玩法升级」。

如果想让照片跳舞，就选择「全民舞王」，若是想让其唱歌，则选择「全民唱演」。

「全面唱演」可以让照片生成老师语录、爆款热歌、网络热梗以及表情包等。

我们从众多模板中选择一款，然后上传图片即可。

我们看一下效果：

视频链接：https://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247520147&idx=1&sn=c7b068ab9ef114196775a67cfe2c5a44&chksm=fa772d98cd00a48e63e0114772305a105a9cb3de21c88c5c0e30de8c4f96f84df3d217ca73f9&token=1042724614&lang=zh_CN#rd

明明模仿的是皇后娘娘痛哭流涕的片段，但这生成的人物笑靥如花是怎么回事。

两相比较，Hedra 的表现似乎更胜一筹。

首先，Hedra 给足了用户自由。用户既可用它生成音频和图片，也能够上传现有的音频和图片，而阿里的 EMO 目前无法自定义音频，而且有时还无法上传图片，只能使用系统给定的模板。

其次，Hedra 生成速度极快，不到一分钟即可生成一段 30 秒的视频，而阿里的 EMO 生成一段 9 秒视频需要耗费 12 分钟。

最后，从画面上来看，Hedra 的口型基本能对上，还能根据语调生成对应的表情，就是脸部有时会变形。

以后我们会通过新专栏带来更多 AIGC 案例演示，也欢迎大家进群交流。

0 阅读：0

智能机器能不能

简介：感谢大家的关注

作者最新文章

科技TOP

科技最新文章