北京大学人工智能研究所的一个团队推出了“MotionCutMix”,这是一种简单而有效的训练方法,可以教人工智能根据文本输入编辑3D人体动作。
能够真实而准确地重现人体动作在几个领域都非常有用,因为它可以帮助开发人员在视频游戏和动画中创造更逼真的角色,增强虚拟现实(VR)的沉浸式体验,并提高医疗保健、体育和应急响应等领域的培训视频的质量。
为了实现这一目标,北京大学人工智能研究所和通用人工智能国家重点实验室的研究人员推出了新的人工智能模型,可以简化数字角色和虚拟形象的一系列人体动作。
用于逼真运动合成的AI模型
在今年的计算机视觉与模式识别大会(CVPR 2025)上,研究人员提出了一种生成人体运动的方法,该方法结合了一种名为MotionCutMix的数据增强技术和一种名为MotionReFit的扩散模型。
该论文的资深作者朱怡新表示,虽然运动生成已经取得了很大的进步,但编辑现有人体运动的能力仍然严重缺乏。在游戏开发、动画和数字艺术等创意领域,专业人士通常通过精炼和修改现有内容来工作,而不是从头开始创造一切。
因此,朱和他的团队着手建立一个能够使用简单的书面指令编辑任何人类动作的系统,而不需要特定任务的细节或身体部位的标签。该系统既能处理空间编辑(聚焦于特定身体部位),也能处理时间编辑(随时间调整运动)。
它还可以很好地泛化不同的场景,即使在使用有限的注释数据进行训练时也是如此。为了实现这一目标,研究人员引入了MotionCutMix,这是一种简单而有效的训练方法,可以教人工智能根据文本输入编辑3D人体动作。类似于厨师如何结合食材来创造各种菜肴,MotionCutMix通过混合来自不同运动序列的身体部位来生成不同的训练示例。
身体部分之间的平滑过渡逼真的动画
研究人员开发的学习方法允许从一个动作序列中选择特定的身体部位,如手臂、腿或躯干,并将它们与另一个动作序列中的部分混合在一起。
而不是创建运动之间的不和谐过渡,MotionCutMix逐渐平滑身体部位之间的界限,导致更自然,流畅的运动。对于每个混合运动,生成一个新的训练样例,由原始运动、编辑后的版本和描述变化的文本指令组成。
以前生成人体运动的方法通常使用固定的数据集,通常由以不同方式移动的人的注释视频组成。相比之下,MotionCutMix在飞行中生成新的训练样本,可以从大型运动数据库中学习,而无需手动注释。
这种方法特别有用,因为在线提供的许多内容没有注释,因此不能被其他方法利用。新的框架还允许编辑身体部位的具体运动和这些运动的风格。
因此,MotionCutMix需要更少的注释示例来获得强大的结果,从一小组标记示例中生成潜在的数百万个训练变量。通过训练身体部位和动作的不同组合,模型学会了处理更广泛的编辑请求。
研究人员指出,尽管训练示例的复杂性增加了,但这个过程仍然是有效的,柔软的掩蔽和身体部位的协调确保了更流畅、更自然的编辑动作,没有尴尬的过渡或不现实的动作。
这项研究发表在预印本档案arXiv上
如果朋友们喜欢,敬请关注“知新了了”!