VASA-1：实时生成逼真的音频驱动会说话的面孔

原文：https://www.microsoft.com/en-us/research/project/vasa-1/

单张人像照片 + 语音音频 = 超逼真的说话人脸视频，具有精确的口音同步、逼真的面部行为和自然的头部运动，实时生成。

我们介绍了 VASA，这是一个框架，用于在给定单个静态图像和语音音频剪辑的情况下生成具有吸引人的视觉情感技能（VAS）的虚拟角色的逼真说话面孔。我们的首款型号 VASA-1 不仅能够产生与音频完美同步的嘴唇运动，而且还能够捕捉大量面部细微差别和自然的头部运动，从而有助于感知真实性和生动性。核心创新包括在面部潜在空间中工作的整体面部动力学和头部运动生成模型，以及使用视频开发这种富有表现力和解开的面部潜在空间。通过广泛的实验，包括对一组新指标的评估，我们表明，我们的方法在各个维度上都明显优于以前的方法。我们的方法不仅可以提供具有逼真的面部和头部动态的高视频质量，而且还支持以高达 40 FPS 的速度在线生成 512x512 视频，启动延迟可以忽略不计。它为与模拟人类对话行为的栩栩如生的化身进行实时互动铺平了道路。

（注：本页所有人像图片均为StyleGAN2或DALL·E-3（蒙娜丽莎除外）。我们正在探索虚拟、交互式角色的视觉情感技能生成，而不是冒充现实世界中的任何人。这只是一个研究演示，没有产品或 API 发布计划。另请参阅本页底部，了解我们负责任的 AI 注意事项。

真实感和生动性

我们的方法不仅能够产生珍贵的唇声同步，而且还能够产生大量富有表现力的面部细微差别和自然的头部运动。它可以处理任意长度的音频并稳定地输出无缝的谈话面部视频。

音频输入长度为一分钟的示例（更多示例见原文）

具有多种音频输入的更短示例

生成的可控性

我们的扩散模型接受可选信号作为条件，例如主眼注视方向和头部距离，以及情绪偏移。

不同主注视方向（分别为前方、左视、右视和向上）下的生成结果

不同头部距离尺度下的生成结果

在不同的情绪偏移（分别为中性、快乐、愤怒和惊讶）下生成结果

分布外泛化

我们的方法展示了处理训练分布之外的照片和音频输入的能力。例如，它可以处理艺术照片、歌唱音频和非英语语音。这些类型的数据在训练集中不存在。

解开纠缠的力量

我们的潜在表示可以解开外观、3D 头部姿势和面部动态，从而实现对生成内容的单独属性控制和编辑。

具有不同运动序列的相同输入照片（左两张），以及具有不同照片的相同运动序列（右三张）

姿势和表情编辑（原始生成结果、仅姿势结果、仅表情结果和带有旋转姿势的表情）

实时效率

我们的方法在离线批处理模式下以 45fps 的速度生成 512x512 大小的视频帧，在在线流媒体模式下可以支持高达 40fps 的视频帧，之前的延迟仅为 170 毫秒，在具有单个 NVIDIA RTX 4090 GPU 的台式 PC 上进行评估。

实时演示

风险和负责任的 AI 注意事项

我们的研究重点是为虚拟AI化身生成视觉情感技能，旨在实现积极的应用。它无意创建用于误导或欺骗的内容。但是，与其他相关的内容生成技术一样，它仍然可能被滥用于冒充人类。我们反对任何制造真人误导性或有害内容的行为，并有兴趣应用我们的技术来推进伪造检测。目前，该方法生成的视频仍存在可识别的伪影，数值分析表明，要达到真实视频的真实性还存在差距。在承认滥用可能性的同时，必须认识到我们技术的巨大积极潜力。这些好处——例如加强教育公平、改善有沟通障碍的个人的可及性、为有需要的人提供陪伴或治疗支持等——强调了我们的研究和其他相关探索的重要性。我们致力于负责任地开发人工智能，以促进人类福祉为目标。鉴于这种情况，我们没有计划发布在线演示、API、产品、其他实施细节或任何相关产品，直到我们确定该技术将按照适当的法规负责任地使用。

玩酷网

VASA-1：实时生成逼真的音频驱动会说话的面孔

架构即是人生