当地时间7月2日,Meta发表研究论文,公布了其最新的AI模型——Meta 3D Gen(3DGen)。
据介绍,3DGen能够在不到1分钟的时间,根据文本提示词快速生成具有高分辨率纹理和材质贴图的3D内容,速度是现有其它系统的3-10倍。它还可根据新提示词给出的需求,在20秒内重新调整原3D资产的纹理,实现快速迭代。
PBR为最大亮点论文介绍称,3DGen具备三大技术亮点:高速生成、高保真度及支持物理基础渲染(PBR),而PBR则是重中之重。
PBR全称Physically-Based Rendering,可以模拟光在物体表面的物理行为,考虑光照、材质属性和环境因素对物体外观的影响,并根据物体表面的不同特性(粗糙度、金属感等)计算光线的反射、散射和吸收,从而实现更加真实和准确的渲染效果。
此前,AI生成的3D资产通常不具备真实的光照和材质属性,从而限制了它们在实际应用中的实用性,游戏开发、VR/AR应用以及电影特效就是最典型的例子。
通过支持PBR底层网格结构的完全3D模型,其生成的3D资产就能用于真实的建模和渲染应用程式。另外,3D Gen还分离了底层网格模型和纹理,使用户无须调整底层模型便可调整纹理样式。
因此,PBR很有可能弥合AI生成内容与专业3D工作流程之间长期存在的问题,将AI创建的素材无缝集成到现有工作流程中。
从文本到3D?论文中,Meta详细介绍了3DGen的运行原理。
3DGen由两大关键技术组件集合而成——“文本到图像”生成器AssetGen,以及“文本到纹理”生成器TextureGen。
具体来讲:
文本到图像:AssetGen主要用于创建初始的3D资产,也就是纹理较粗糙、带有PBR材质贴图的3D网格素材(3D mesh)。这一过程耗时仅为30秒。
首先,利用一个多视角、多通道版本的图像生成器生成多张图像,随后生成物体的一致视图。
此后,再重建网络在体积空间中提取出物体的初始版本,并进行网格提取,确立其3D形状和初始纹理。
图像到3D:TextureGen则使纹理更加精细化,用于生成质量更高、或创建不同风格的纹理。这一过程仅需20秒。
通过在2D空间中将文本生成模型与3D语义条件结合,利用视图空间和UV空间的生成结果,使初始3D资产融合成完整且具有高分辨率的UV纹理映射,在保持指令忠实度的同时提升纹理质量。
可以说,AssetGen和TextureGen是两个优势互补的模型,它们一同实现了视图空间(物体图像)、体积空间(3D形状和外观)以及UV空间(纹理)的高度互补,显著提高了3D生成的效果。
在评估阶段,Meta邀请了专业艺术家和普通人对生成效果进行打分,并选取了多个目前可以访问的3D生成模型作为比较对象。
最终,3DGen在3D形状生成和纹理生成两方面的忠实度评分均高于其他模型。在按照生成对象类型分类的打分结果中,3DGen在物体和组合场景中的忠实度排名第一,而在人物的忠实度上则略微逊色。而且,专业艺术家评价称,3DGen的处理速度要快3到60倍不等。
结语目前,3D生成技术已应用在不少行业之中。例如,3D生成初创企业Meshy AI发布的免费3D模型Meshy目前已被大量独立游戏开发者使用。
而虽然Meta此次对AssetGen和TextureGen的整合简单明了,但它提出了两个非常有前途的研究方向:在视图空间和UV空间中的生成,以及纹理和形状生成的端到端迭代。
不可否认的是,AI 3D生成技术的快速发展对实现3D建模行业的技术迭代具有重大意义,而Meta再次成为了领路人。