
近年来,生成式人工智能在图像生成领域取得了重大进展,催生了多种应用。然而,视频生成在可控性、视频长度、细节丰富度等各方面仍面临相当大的挑战,阻碍了该技术的应用和普及。在这项工作中,一种可控视频生成框架,称为 MimicMotion应运而生。

MimicMotion是腾讯开源的一个利用置信度感知姿势引导生成高质量人体运动视频的模型框架。它可以在任何运动指导下生成任意长度的高质量视频。

与以前的方法相比,此方法有几个亮点。
首先,通过置信感知姿势指导,可以实现时间平滑性,从而可以通过大规模训练数据增强模型的鲁棒性。其次,基于姿态置信度的区域损失显著减轻了图像的失真。最后,为了生成流畅的长视频,提出了一种渐进式潜在融合策略。通过这种方式,可以生成任意长度的视频。通过大量的实验和用户研究,MimicMotion 在多个方面比以前的方法有了显著的改进。
MimicMotion不仅可以模仿视频动作,还可以模仿人类面部表情。MimicMotion 将图像到视频的扩散模型与新颖的置信感知姿势引导相结合。该模型的可训练组件包括时空 U-Net模型 和 PoseNet姿态模型,用于引入姿势序列作为输入条件。

置信感知姿势引导的主要特点包括:
1) 姿势序列附有关键点置信度分数,使模型能够根据分数自适应地调整姿势引导的影响。
2) 置信度高的区域在损失函数中被赋予更大的权重,从而放大它们在训练中的影响。

MimicMotion可以生成较高质量的手部姿势,很多文生图,文生视频的大模型,生成手部的视频或者图片都遇到了挑战,而MimicMotion可以生成较高质量的手部图片。

在相同的参考图像和姿势指导下,通过手部增强训练可以持续减少手部扭曲并增强手部渲染的效果。

自行感知姿势引导,这种设计增强了对错误引导姿势(姿势 1 和 2)的生成鲁棒性,并提供了可靠性提示来解决姿势模糊性(姿势 3)

渐进式潜在融合可实现平滑过渡并避免跨视频片段边界的突然变化,从而增强长视频生成的整体视觉时间连贯性。

MimicMotion是一个开源模型,可以直接在 GitHub 上面找到开源的代码与模型文件,当然也提供了在线使用。只需要上传自己的图片与一段视频,模型会自动识别视频中的对象,并进行姿态感知,并利用上传的图片进行新视频的渲染操作。

当然这里需要注意的是,上传的图片最好是全身图片,与视频中的视频对象最好一致,避免生产的视频有问题。

当然官方提供了不仅在线使用demo,喜欢代码的同学可以使用 API 或者 Python 代码进行实现,具体操作可以参考官方教程。


代码中的motion_video只需要上传自己的视频即可,而appearance_image需要替换成自己的图片,这样,模型会自动提取视频中的人物姿态,然后根据图片生成当前图片,当前场景下的动态视频。
https://replicate.com/zsxkib/mimic-motionhttps://github.com/Tencent/MimicMotion?tab=readme-ov-file