吊打阿里EMO?让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈

智能机器能不能 2024-06-27 09:50:40

机器之能报道

编辑:杨文

以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。

因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。

我们也欢迎读者投稿亲自实践的创新型用例。

最近,AI 圈刮起一股「让照片开口唱歌」的风潮。

例如,让霉霉唱碧昂丝《Halo》的 Hallo、斯坦福创业团队的 Proteus、以及之前阿里出品的 EMO。

就在昨天,又有一家名为 Hedra 的公司前来踢馆,推出了基础模型 —— Character-1 。

关键是,人人免费可用。

网友们已经玩疯了。

让女版马斯克唱安妮・海瑟薇写给狗仔队的 Rap:

视频链接:https://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247520147&idx=1&sn=c7b068ab9ef114196775a67cfe2c5a44&chksm=fa772d98cd00a48e63e0114772305a105a9cb3de21c88c5c0e30de8c4f96f84df3d217ca73f9&token=1042724614&lang=zh_CN#rd

让垃圾桶、土豆人开口说话:

视频链接:https://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247520147&idx=1&sn=c7b068ab9ef114196775a67cfe2c5a44&chksm=fa772d98cd00a48e63e0114772305a105a9cb3de21c88c5c0e30de8c4f96f84df3d217ca73f9&token=1042724614&lang=zh_CN#rd

也有网友开始制作动画片:

视频链接:https://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247520147&idx=1&sn=c7b068ab9ef114196775a67cfe2c5a44&chksm=fa772d98cd00a48e63e0114772305a105a9cb3de21c88c5c0e30de8c4f96f84df3d217ca73f9&token=1042724614&lang=zh_CN#rd

AI 电影制作人 @Uncanny_Harry 则用它制作了卡通角色 Dave,送上一份迟到的父亲节礼物,并称「这是我所见过的 AI 生成视频中最接近真实表演的作品」。

视频链接:https://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247520147&idx=1&sn=c7b068ab9ef114196775a67cfe2c5a44&chksm=fa772d98cd00a48e63e0114772305a105a9cb3de21c88c5c0e30de8c4f96f84df3d217ca73f9&token=1042724614&lang=zh_CN#rd

据他本人介绍,他先用 Midjourney 生成一张图片,然后使用 ElevenLabs 的声音转换技术,以及 Hedra,最终创造了 Dave 这一角色。

由于效果相当惊艳,不少网友直呼:爱惨它了,口型同步令人惊叹。

-1-

傻瓜级玩法

据官方介绍,与其他竞品相比,Hedra 主要有三大优势:

免费体验,不过公测期间每条视频最长不超过30秒;生成速度快,每分钟可生成 90 秒内容,前提是他们 H100 供应充足;角色表情丰富,能够流畅地进行对话、歌唱、说唱。

其玩法也很简单。用户只需上传一张图片,再生成一段音频,就能让它开口说话或唱歌。

Hedra 链接:https://www.hedra.com/

打开上述链接,使用谷歌邮箱等注册登录。

进入操作界面后,我们生成或上传一段音频。

值得一提的是,目前该应用主要支持中文和英文,而且中文效果会更好。

我们上传一段搞笑段子音频。

接着就是上传或者生成一张图片。官方还贴心地给出提示词指南。

为了生成效果最佳,提示词中尽量包括风格、角色特征、相机视角、背景场景以及光线效果等内容。

例如,90s sitcom character,shoulders-up,in living room,soft lighting(90 年代情景喜剧角色,肩膀以上,客厅中,柔和光线)

Anime woman,2d,close-up on face,forest at night,cinematic lighting(动漫女性,2D 风格,面部特写,夜晚森林背景,电影级照明)

Woman, cyberpunk, matte blackarmor, dirty face, close-up, citynight, no people(女性,赛博朋克风格,哑光黑色盔甲,脏污的脸庞,特写镜头,城市夜景,无人)

我们图省事,只输入:a beautiful girl,虽然提示词简单,但生成效果还不错。

最后点击「Generate video」,稍等片刻即可生成一段视频。效果如下:

视频链接:https://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247520147&idx=1&sn=c7b068ab9ef114196775a67cfe2c5a44&chksm=fa772d98cd00a48e63e0114772305a105a9cb3de21c88c5c0e30de8c4f96f84df3d217ca73f9&token=1042724614&lang=zh_CN#rd

我们还让奥特曼说了一段脱口秀:

视频链接:https://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247520147&idx=1&sn=c7b068ab9ef114196775a67cfe2c5a44&chksm=fa772d98cd00a48e63e0114772305a105a9cb3de21c88c5c0e30de8c4f96f84df3d217ca73f9&token=1042724614&lang=zh_CN#rd

妖娆的「马斯克」唱英文歌:

视频链接:https://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247520147&idx=1&sn=c7b068ab9ef114196775a67cfe2c5a44&chksm=fa772d98cd00a48e63e0114772305a105a9cb3de21c88c5c0e30de8c4f96f84df3d217ca73f9&token=1042724614&lang=zh_CN#rd

-2-

挑战阿里 EMO

实际上,让照片开口说话、唱歌早不是什么新鲜事,去年爆火的类似产品就有 D-ID、Heygen ,还有两个月前上线的阿里 EMO。

打开通义千问 APP,在顶端的「频道」栏目中,找到「全民舞台 - 玩法升级」。

如果想让照片跳舞,就选择「全民舞王」,若是想让其唱歌,则选择「全民唱演」。

「全面唱演」可以让照片生成老师语录、爆款热歌、网络热梗以及表情包等。

我们从众多模板中选择一款,然后上传图片即可。

我们看一下效果:

视频链接:https://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247520147&idx=1&sn=c7b068ab9ef114196775a67cfe2c5a44&chksm=fa772d98cd00a48e63e0114772305a105a9cb3de21c88c5c0e30de8c4f96f84df3d217ca73f9&token=1042724614&lang=zh_CN#rd

明明模仿的是皇后娘娘痛哭流涕的片段,但这生成的人物笑靥如花是怎么回事。

两相比较,Hedra 的表现似乎更胜一筹。

首先,Hedra 给足了用户自由。用户既可用它生成音频和图片,也能够上传现有的音频和图片,而阿里的 EMO 目前无法自定义音频,而且有时还无法上传图片,只能使用系统给定的模板。

其次,Hedra 生成速度极快,不到一分钟即可生成一段 30 秒的视频,而阿里的 EMO 生成一段 9 秒视频需要耗费 12 分钟。

最后,从画面上来看,Hedra 的口型基本能对上,还能根据语调生成对应的表情,就是脸部有时会变形。

以后我们会通过新专栏带来更多 AIGC 案例演示,也欢迎大家进群交流。

0 阅读:0

智能机器能不能

简介:感谢大家的关注