腾讯混元发布3D建模“全能王”!草图速变3D、一键换皮贴骨,小白零门槛上手

智东西 2025-01-21 17:14:56

作者 | ZeR0

编辑 | 漠影

将3D资产一键生成、一键换皮肤、一键变动画,还有一键生成3D游戏视频,现在,腾讯混元3D创作引擎通通做到了!

智东西1月21日报道,今日,腾讯混元宣布开源3D生成大模型2.0版,并上线业界首个一站式、低门槛3D AI创作引擎「混元3D创作引擎」,为普通用户UGC和游戏等专业场景提供一款高效的3D内容生产工具。

混元3D创作引擎包含三层架构,设计目标是用AI覆盖3D管线多个环节,打造功能最全的3D AI创作平台:

(1)模型层:基于3D-DiT和3D-Paint基础模型;

(2)能力层:含3D功能矩阵+3D生成工作流+3D创作素材库;

(3)应用层:提供可低成本定制的业务场景解决方案。

混元3D基础模型同时支持文生3D和图生3D,几何结构精细度提升,纹理色彩丰富,支持纹理风格选择与PBR贴图。

3D功能矩阵瞄准3D创作管线,提供丰富的生成和编辑3D资产能力,包括草图生3D、3D风格化、3D纹理生成、3D人物生成、3D小游戏创作等。

灵感广场陈列了3D模型素材库,右上方可选不同场景类目(游戏道具、人物角色、商品、动植物等)。点击素材后,用户可以点击下载或创作同款3D模型。

用该平台生成的3D模型,支持通过链接形式分享给好友,并支持在PC端、移动端进行模型预览、交互及下载。

体验直通车:https://3d.hunyuan.tencent.com/

当前游戏制作、社交、电商广告、工业制造、具身智能、自动驾驶、AR/VR、三维打印等领域都积极应用AI能力辅助3D内容生成。混元3D生成大模型此前已开始应用于游戏、社交、腾讯地图、腾讯云、机器人等腾讯内部业务。

以游戏业务为例,AI生成3D模型对游戏研发增效作用明显,能够减少美术成本和时间成本。传统流程制作单角色模型需要花费6~100天,而AI生成单角色模型的时长仅分钟级。

腾讯混元3D模型已全面开放+开源:面向企业、个人开发者提供商用品质的3D开源模型,为机器人仿真、自动驾驶等领域提供数据燃料;降低3D资产的生成周期、成本,推动3D普及。

混元还为科研学者提供更大的3D基础模型,加速研究探索,并从企业界的新视角,帮研究者寻找有价值的研究方向。

混元3D模型2.0开源主页:https://3d-models.hunyuan.tencent.com/

代码仓库:https://github.com/Tencent/Hunyuan3D-2/

一、支持文/图生3D,能模拟逼真材质

混元3D创作引擎同时支持文生3D和图生3D。用户可以结合3D风格化、渲染打光、骨骼绑定&动作驱动等3D模型编辑工具能力,调整模型效果。

文生3D模式提供了预设prompt和prompt指南。输入提示词后能一次生成4个模型,可选择不同纹理风格(包括卡通、中国风、青花瓷、石雕、赛博朋克等)。

如果选择图生3D模式,则可以通过上传单图来生成3D模型。

据介绍,混元近期将推出通过多视图生成3D模型的功能,以实现更高的可控性。

两种模式均支持PBR贴图,可通过模拟物理特性,生成逼真的模型材质效果。

此外,创作引擎支持端到端低多边形模型生成。生成结果能够在低面片的基础上最大化体现模型细节,拓扑布线更加符合美术标准,更适用于游戏引擎模型渲染。

其首个支持端到端生成低多边形low-poly模型,可根据物体复杂程度,自适应生成几百至数千面的三角mesh,在面数更低的同时可保证模型细节效果。

二、花式应用玩法:简笔画秒变3D、白模一键换皮、自制Q版玩偶

创作引擎的“实验室”页面提供了3D动画生成、3D纹理生成、3D人物生成、草图生3D、3D小游戏创作等应用,作为3D模型应用的展示模块。

(1)草图生3D:上传线稿草图或选择草图素材,输入纹理、颜色等特性的文本描述,即可一键将二维草图转换成高质量的3D模型。

(2)3D纹理生成:上传3D模型或选择预置白模,输入文字指令或图片,该功能就能“一键换皮肤”,生成与上传模型或白模几何一致的高清纹理贴图,还能选择生成PBR材质贴图。

(3)3D动画生成:上传模型或选择预置模型,AI就会对生成3D角色模型实现自动绑骨蒙皮。用户可以选择不同的动作模版,让3D模型动起来。

(4)3D人物生成:上传人物图像,选择角色模版,该功能就能生成符合个性化的3D人物角色,实现个人UGC 3D形象定制。

(5)3D小游戏创作:上传一张头像,选择角色模版,一键生成个人专属IP角色的游戏动画视频,并支持分享转发。

还有一个混元3D特色功能——面向专业用户的3D生成工作流,通过模块化节点设计,实现单点功能串联,提供预设的工作流模版、工作流编辑器、工作台管理能力,帮助专业用户在游戏开发、动画制作等领域快速搭建3D生成工作流。

其提供的工作流模版类型多样,有文/图生3D角色、文/图生3D道具,能够满足不同业务场景的需求。用户仅需加载模版,根据自己的需求输入提示词或上传图片,调整节点生成参数,就能一键生成具有特定风格或特征的3D资产。

这为专业用户提供了更便捷、更高效、更低门槛的3D创作工具。

三、混元3D生成大模型2.0全面开源:升级几何结构、纹理色彩

工业界3D模型多为闭源。去年11月全面开源的混元3D生成大模型1.0,是业界最早的端到端3D大模型之一,也是业界首个同时支持文字、图像生成3D的开源大模型。

2.0版本依然同时支持文、图生3D,是业界最早一批3D-DiT原生大模型,并通过将几何、纹理解耦生成,几何结构更加精细,纹理色彩更加丰富。从下图可以看到,2.0版本的生成效果明显提升:

3D生成模型主要包括几何和纹理生成两部分。几何大模型专注于捕捉物体的形状、结构和空间关系,纹理大模型则专注于颜色、细节和表面特征。

这种专注性使得每个模型能在其领域内进行更深入的学习和优化,而几何与纹理解耦生成的方式,让整体生成能力达到更高上限,能够生成更为精细和真实的3D结果。

几何大模型和纹理大模型各自表现优异。其中,几何大模型由Hunyuan3D-DiT模型和Hunyuan ShapeVAE组成,能实现超高精度的白模生成,几乎达到了设计师手工建模的水平。

纹理大模型Hunyuan3D-Paint则采用多视图扩散生成的方案,可以基于用户输入的参考图像对生成的几何白模进行纹理贴图,还能支持对用户任意输入的几何模型进行任意文本或图像引导的纹理生成。

腾讯混元从定量和定性两个维度进行了评估,在收集的In-the-wild测试集上,对3D生成质量进行了定量评估。

根据CLIP Maximum Mean Discrepancy(CMMD)、Frechet Inception Distance(FID)、CLIP-score指标,不论是端到端最终3D资产的质量,还是几何模型生成的几何结构以及纹理基础模型生成纹理的质量,Hunyuan3D-2.0的整体表现均优于当前业界包括闭源模型在内的先进模型。

▲整体模型比较

▲几何模型比较

▲纹理模型比较

在定性评估方面,从整体满意度、3D物体质量、指令遵循三个维度进行用户主观评估,结果显示,Hunyuan3D-2.0在生成质量上优于当前最先进的开源模型。

▲用户喜好打分

▲3D生成可视化比较

▲几何模型生成可视化比较

▲纹理结果生成可视化比较

结语:未来将更多面向应用标准而研发

腾讯混元3D负责人郭春超谈道,混元3D生成大模型从1.0版本的率先开源,到快速升级2.0版本并开放业界首个一站式3D AI创作平台,希望切实帮助大众爱好者、开发者、创作者们降低使用门槛,提升创作效率,让3D大模型技术在各行各业发挥价值。

3D创作门槛很高,纯手工制作既贵又慢。其中3D制作管线十分复杂,运转涉及6大项、超过30个环节,涉及几何、纹理、布线、骨骼等多种模态,而且各环节前后依赖,对3D建模专业知识要求高。只有基础模型远远不够。

对于3D基础模型而言,提高可控性、可用性都是当务之急,数据不足也是掣肘模型发展的一大挑战。目前此类模型的技术趋势包括构建高效3D表示、探索3D-DiT架构上限以及探索3D生成新范式。

学术3D生成技术与制作管线存在差异大的问题。基模接入管线需要深度考虑语义,涉及重拓扑、UV展开、骨骼绑定与驱动等大量研发工作。

据介绍,混元未来将更多面向应用标准而研发,真正兼容3D管线需求。同时,混元也会持续为开源社区贡献力量。

0 阅读:3

智东西

简介:智能产业第一媒体!聚焦智能变革,服务产业升级。