一家布局底座技术的公司,如何长出具有物理正确特性的空间数据能力?
文|徐鑫
编|任晓渔
2019年的一天,杭州拱墅区莱茵矩阵国际楼的一个写字间里,一名算法工程师打开邮箱时,一度怀疑自己收到了诈骗邮件。
全英文的邮件,落款和公司后缀俨然是硅谷某家喻户晓万亿美元市值巨头。对方发出了合作邀约。这是群核空间智能平台与它的第一个硅谷巨头客户初次接触时的小插曲。
当时群核空间智能平台产品的理念还停留在一篇论文中。这篇发表于2018年的论文里,群核科技基于自身业务海量的室内空间数据积累,联合英国帝国理工大学、美国南加州大学,在BMVC会议推出了InteriorNet数据集。
在行业内已有的开源数据多为静态、不可交互数据的背景下,这一全球最大室内场景认知深度学习数据集,为室内空间的机器人训练探索提供了数据基础。此后的几年里,硅谷巨头们及一批具身智能企业纷纷向群核伸出了橄榄枝。
20日,群核科技正式在第九届酷+科技峰会上发布了这款面向空间智能技术训练需求的新产品,群核空间智能平台。从能力储备到成熟上市,这一历程也暗暗押中了群核科技这家公司发展的韵脚——一家技术型公司可以基于市场需求,不断从技术底座里培育出出乎意料,又合乎逻辑的产品。
不过,为什么是群核科技?这样一家名不见经传的公司,为什么具备硅谷巨头们也都需要的空间智能数据能力?
01
群核科技,是谁?
大众可能对群核科技不太熟悉,但很多人对酷家乐并不陌生,它是群核科技的技术底座成长出来的产品之一。
作为一款在国内家居设计师群体中家喻户晓的3D空间设计平台,酷家乐2013年横空出世后,把原来家居设计行业里的设计出图周期,从以周为单位压缩到以天为单位。同时大大简化的操作过程,用户通过拖拽3D模型和简单布局就能快速完成设计、渲染过程。
“天下武功,唯快不破”,极致的效率和更简单易用的体验,使得酷家乐在家居设计、建筑、电商、连锁商业、文博展览、广告营销多个行业里落地应用,实现设计生产提效。
极致的效率,毫无疑问是群核系产品身上最大的标签之一。而这个标签,来自群核科技自创立之初的技术底座。群核的英文“manycore”是一种GPU架构名,今天国内外都在加速建设更大规模算力集群,增加计算单元来提高计算速度已是行业共识,但在2011年,高性能计算还是小众话题,当时,计算机识别一只猫的图片需要19个小时。
而群核科技的三位创始人黄晓煌、陈航、朱皓,同为美国伊利诺伊大学硕士同学,有着GPU并行计算及计算机图像图形学背景。他们离开英伟达、微软、亚马逊等海外大厂回国创业的契机,也在于他们研发出了一款物理正确的快速渲染器,想在国内找到这种高性能计算的应用场景。
家居设计并不是一开始瞄准的市场,而是在产品-市场匹配及商业模式探索后,群核科技为高性能计算技术找到的第一个落地场景。
这个场景痛点明显,渲染设计图片又需要消耗大量的算力,群核科技解锁了GPU能力,也成就了家居行业的效率革命,渲染出图的成本大幅降低,渲染的速度大幅提升。这款产品也很快在设计师群体中迎来了市场爆发。
与酷家乐在空间设计领域向更广泛人群和更多场景渗透同步,群核科技在计算机图形学和渲染领域里的底层技术能力,也同步在进化。
家居设计方案里渲染出的图片的逼真程度及效果关系到消费者买单,为了能更好地服务这个场景里的用户,群核围绕着GPU渲染能力逐渐形成了一个强大的3D渲染引擎,它具备光线追踪、端云一体等能力,叠加上AI技术,可实现逼真且实时的极速渲染。
群核科技CEO陈航在酷+科技峰会上用“群核启真渲染引擎”给它命名。他略显动情地谈起“启真”的由来。群核科技董事长黄晓煌和CEO陈航的本科母校,浙江大学有个启真湖,它坐落在图形图像国家重点实验室旁,这也是群核科技梦想开始的地方。
“启真引擎要解决的是把人们脑海中对未来的想象,在数字世界中构建出来,并保持它在3D可视化维度的物理正确性。”陈航说。
与更逼真、高效的渲染能力同步,群核科技在酷家乐设计方案对接柔性制造,落地生产的过程里,还具备了让设计方案做到3D结构层面物理正确的能力,群核科技将之命名为群核矩阵CAD引擎。
具体而言,这个引擎能把一张定制柜设计图,转换成一个3D空间方案。它通过几何参数引擎、BIM引擎,还能直接落地到物理世界的生产施工环节。比如,一张定制柜图片,能够还原成工厂直接能生产的3D结构。
之所以能做到这一点,在于背后有群核自主研发的百亿级参数的多模态CAD大模型。这个参数驱动的模型,相比语言大模型对空间描述的模糊与不确定性,对空间有更准确和结构化的表述。陈航认为,这是AI在物理世界产生价值的基础,“所见即所得”的世界不再遥不可及。
被硅谷巨头们看中的群核空间智能平台,是群核两大引擎底座能力,在新的市场需求和行业痛点下,结出的又一枚果实。
就像酷家乐是GPU计算能力在家装市场找到的应用场景一样,基于酷家乐平台积累多年海量的渲染设计方案而来的空间智能数据平台,是群核科技两大底座引擎打磨出的有物理正确特性的空间数据能力,在具身智能等机器人训练领域找到的落地场景。
它不是规划设计的结果,而是布局底座技术的公司,自然而然的创新路径。
02
与Sora不同的世界模拟器
今年2月Sora发布后,人工智能行业掀起了一场有关Sora是否是世界模拟器、Sora能否理解物理世界以及Sora何以成为世界模拟器的讨论。焦点主要在Sora能否遵循物理正确,从而真正理解和认知物理世界上。
虽然有人盛赞Sora是一个数据驱动的物理引擎,是可学习的模拟器或“世界模型”。但Meta首席科学家YannLeCun就认为,基于语言提示生成的看起来逼真的视频,并不意味着系统真正理解物理世界,“内容生成”实则与世界模型中进行的因果预测非常不同。
银河通用大模型负责人张直政也对通过Sora的视频生成实现AGI持怀疑态度。“数字世界中可以通过预测下一个token的方式达到一定的通用型智能”,张直政在酷+科技峰会圆桌环节指出,但AI要想向AGI发展,达到新的层次,就得用物理世界的数据进行学习和交互。
当下,具身智能被业界视为世界模拟器最大的应用场景之一。与传统机器人预定义一些动作,再重复播放这些动作来完成自动化不同,具身智能是把机器人的动作和语意及用户的指令打通,让机器人能泛化理解各种指令并在物理世界完成各项操作。
在这个场景里,世界模拟器可用来生成大量的多模态动作数据帮助机器人训练,同时在投放到物理世界之前用来大规模验证各类策略是否有用。
这一目标下,业界普遍认为,作用于物理世界的具身智能世界模拟器也要能满足一系列标准。比如要有纹理细节。有了这些细节,才能让具身智能从语义上区分不同的物体。物体的形状也很重要,它会影响机器人如何去接触物体,进而规划接触的位置。材质则可能影响到具身智能抓物体时的力度。比如,表面很光滑,为了防止滑落,要用很大的力;而表面粗糙的时候,轻轻一夹就能被拎起来。
除了对纹理、形状、材质能精确仿真,张直政提到,具身智能模拟器还要能准确模拟机器人与不同的材质、形状、纹理的物体互动时,环境、物体状态会发生的变化。同时,这些变化还必须要符合力学、物理学规律,机器人才能形成准确的交互动作。
相较而言,Sora很难满足这些条件。人们看到,Sora生成的许多内容缺乏物理正确特性,看上去更像是人类梦境的生成,比如一只在咖啡杯的海中乘风破浪的巨轮,水杯突然变成气球等场景,都不符合现实世界规律。
张直政分析,Sora视频生成模型刻画的只是视频在视觉感知上的连续性,它没有对动作进行建模,对于具身智能来讲维度远远不够。比如在一个Sora生成的视频里,人去抓椅子,手还没有到椅子就飞起来了。这种场景如果用于训练机器人,可能会让机器人误以为爪子有某种引力。
“在做具身智能训练时,甚至还需要专门把这种不符合物理规律的偏差摘出,防止注入到具身智能模型中。”张直政说。
群核科技黄晓煌则有不同的视角看Sora。他回想起了十年前还在求学时,那时业界探讨高性能计算应用有两大前沿场景,一条是模拟人脑活动或神经网络的研究,另一条则是基于物理世界的模拟渲染,这是计算机认知世界的两种方式。
前一条路径下,经过多年发展ChatGPT已经用高性能计算在模拟人脑上获得了巨大的突破,现在Sora也在这条路径上试图通过互联网上的海量视频数据,去做自监督学习并预测,从而理解物理世界。
群核科技无疑走了后一条路。在渲染还原物理世界这条路径下,群核基于此前海量工业级设计软件海量数据方案的积累,产生大量物理正确的空间数据。而“物理正确”这一点,使得群核科技相比Sora,距离帮助AI落地物理世界更近。比如,在材质渲染能力上,群核能渲染出真实物理世界中99%的材质,包括大量的有机物以及无机物。
当下业界对如何才能通向具身智能,在技术路径上还没有走向收敛。在仿真路线之外,也有一些技术路线下会先用基座大模型学习大量的互联网数据的视频,来获得很多人类的先验知识。但这一步之后,机器人依然需要与真实的物理世界交互,或者通过符合物理真实的数据去进行强化学习等,才能真正理解物理规律。
可以说,让AI从数字世界走到物理世界,与物理世界或符合物理世界规则的虚拟环境互动,是具身智能落地的重要一步。而要实现这一点,构建一个开放、标准化、低成本且便于复制的数据平台,也是业界共同的心声。
03
让AI加速进入物理世界
行业上下已经意识到了构建便利于机器人训练,加速相关数据流转应用的重要性。
一些企业如巨头英伟达就在数据打通上不断发力。今年的SIGGRAPH大会上,英伟达就发布了适用于OpenUSD、几何体、物理学、材质等的生成式AI模型与NIM微服务。借助NVIDIANIM微服务,可用于三维视觉、建筑、设计、制造等诸多行业数据交换的开源软件平台OpenUSD的功能增强,可访问性提升,各个行业能更便利去创建基于物理学的虚拟世界和数字孪生。
而群核科技自2018年收到硅谷巨头的合作邀约后,来自人工智能企业和具身智能公司机器人训练的数据服务需求不断。
疫情期间是市场需求爆发的一个重要节点。黄晓煌观察到,此前许多机器人训练多是基于企业自建的物理模拟环境里进行,行业内对合成数据有一些质疑的声音。但是疫情期间许多工作无法进行,许多机器人公司被迫转到虚拟环境进行仿真训练。
而随着更多企业转变训练方式,人们对基于合成虚拟环境训练机器人又有了更多的认知。“单一的合成数据与单一物理空间训练比,物理空间的训练效果会更好。但如果拿100份合成数据去训练,它的准确度是比单一物理空间训练出来的效果要好。”黄晓煌说。
知名人工智能学者李飞飞上个月发表的论文进一步为机器人基于虚拟合成数据训练降低了门槛。论文中指出,基于虚拟环境训练机器人时,以更低的成本提供更多相似训练场景的分布,能实现更好的跨域泛化。
不断涌入的市场需求也驱动着群核科技去打磨产品,目前,群核智能空间平台已经从最初给一些企业提供数据集,发展为提供一个庞大的平台,为AIGC、具身智能、AR/VR等企业开放物理正确的3D空间数据资产以及空间认知解决方案。
目前这个平台上拥有全球最大的室内场景认知深度学习数据集,并具备模拟室内真实特性、自动分割标注、场景增强及多平台对接等多项核心能力。比如,模拟室内真实特性,可以赋予模型密度、摩擦力、弹性、阻尼等真实的物理性质信息,同时还可以对活动部件进行可活动的物理约束。
而自动化分割和标注技术,可根据研究者需求定制化分割和标注数据,定制化输出针对不同行业所需要的数据集。以处理卧室场景的3D数据为例,系统能细分为床、枕头、毛毯等基础要素,并生成精准语义标签。
这些都为各类机器人公司打造出更智能的产品提供了助力。之前一家室内清洁机器人公司非常苦恼,在家庭场景里机器人无法识别动物的粪便,遇到了猫屎狗屎清洁后弄得家里一团糟。以前企业为了采集数据,厂家得组建个数十人团队,耗时数月,还得外包给第三方,整个过程繁琐又烧钱。
而与群核科技合作后,基于群核的空间数据能力,45个工作日即生成了数万组高质量的3D模型数据集和百万组精细化图片数据数据交付即可用,帮助企业大幅减少数据侧投入,提高AI项目进度。目前美的、追觅、科沃斯都已经与群核科技进行空间智能训练相关的项目合作。
除了大量的企业在利用群核的平台能力,在学术界群核科技的空间认知能力也在构建应用生态,助力具身智能开发者加速研究进程。
针对机器人训练中存在的数据采集效率低下、场景复用性差、训练风险高以及评估困难等痛点,2023年,群核科技联合英特尔实验室、西班牙计算机视觉中心和慕尼黑工业大学共同开发了一个名为SPEAR的高物理正确与视觉真实的环境数据合成与机器人训练仿真平台。
SPEAR依托于群核科技庞大的3D模型数据库和先进的渲染技术,构建了一系列高精度且具有物理交互特性的虚拟环境。这些虚拟不仅视觉效果逼真,同时还确保了物理层面的真实性,为研究人员提供了一个既安全又高效的学习与测试空间。开发者可以更轻松创建多样化的真实模拟场景,快速迭代算法设计。
“信息是被浪费的物理资源的替代品”,7年前密歇根大学Michael Grieves教授《智能制造之虚拟完美模型》中的这个断言,阐述了数字孪生和虚拟世界对物理世界带来的资源节省价值。当下,物理正确的数据又正在为具身智能等AI加速落地物理世界,提供助力。
而正确反映物理世界并影响物理世界,群核科技走的是一条与Sora不一样的路。而能走通这条路,来自于这家公司对根技术的投入,它如同发动机,不断给企业注入新的可能。