机器人泡咖啡、递工作牌、烤吐司……这不是科幻电影,而是触手可及的未来。
这背后,是前华为“天才少年”稚晖君和他的智元机器人团队的最新成果——“启元大模型”。
这个大模型究竟有何神奇之处?
它将如何改变我们与机器人的互动方式?
故事要从一位名叫彭志辉的年轻人说起。
他1993年出生于江西吉安,毕业于电子科技大学信通学院。
这位年轻人还有另一个更广为人知的名字——稚晖君。
他凭借卓越的才华,以201万元的年薪加入华为“天才少年计划”,从事昇腾AI芯片和AI算法相关研究。
他心中一直怀揣着一个机器人梦想。
在网络世界里,稚晖君是名副其实的“野生钢铁侠”。
自动缝合葡萄皮的机械手臂、自动驾驶自行车、螃蟹壳做的火星车……这些充满奇思妙想的发明,让他在B站拥有超过260万粉丝。
他频繁提及对机器人研发公司波士顿动力的欣赏,更暗示着他的机器人梦想。
2022年底,稚晖君作出了一个令人惊讶的决定——离开华为,正式踏上创业之路。
2023年2月,稚晖君联合创立了智元机器人,公司落户上海张江科学城,并获得了高瓴创投、鼎晖投资、红杉中国等多家知名机构的投资。
仅仅几个月后,智元机器人的首款具身智能机器人“远征A1”就公开亮相,速度之快令人惊叹。
2025年1月,智元机器人迎来了第1000台通用具身机器人下线,标志着公司发展迈上了一个新的台阶。
而这一切,都为“启元大模型”的诞生奠定了基础。
2024年3月10日,智元机器人正式发布了这个名为“智元启元大模型”(Genie Operator-1,简称GO-1)的通用具身基座模型。
GO-1的出现,预示着机器人将不再只是执行特定任务的工具,而是朝着具备通用智能的自主体方向发展。
GO-1的核心在于其独特的Vision-Language-Latent-Action (ViLLA) 架构。
该架构由VLM(多模态大模型)和MoE(混合专家)两部分组成。
VLM通过海量互联网图文数据学习,使机器人具备通用场景感知和语言理解能力。
MoE则包含Latent Planner(隐式规划器)和Action Expert(动作专家)。
Latent Planner利用大量的跨本体和人类操作视频数据,使机器人理解各种动作。
Action Expert则借助百万级的真实机器人操作数据,赋予机器人精细的执行能力。
这四个部分环环相扣,共同构成了GO-1强大的学习能力。
它可以模仿人类视频学习新技能,并快速应用到新的环境和任务中。
更重要的是,GO-1具备“一脑多形”的特点,这意味着一个通用的机器人策略模型可以迁移到不同的机器人本体上,实现快速适配,群体智能升级。
支撑GO-1快速学习的,是智元机器人于2024年底推出的AgiBot World数据集。
这个数据集包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据。
正是基于AgiBot World,GO-1才得以快速学习并泛化应用。
那么,GO-1究竟能做什么?
在智元机器人发布的视频中,我们看到了令人惊叹的场景:机器人可以帮助员工刷门禁卡,可以熟练地冲泡咖啡,可以为开会的客户递送饮料,甚至可以烤吐司。
这些场景不再是科幻电影的片段,而是GO-1带来的现实。
GO-1的出现,无疑降低了具身智能的门槛。
它使得机器人可以快速适应新任务、学习新技能,并在实际使用中不断进化。
未来,GO-1将有望在商业、工业、家庭等多个领域发挥更大的作用,真正实现人机协作的未来。
从华为的AI芯片研究到智元机器人的创业之路,稚晖君始终追逐着他的机器人梦想。
如今,随着GO-1的发布,这个梦想正在一步步变为现实。
我们仍需思考:在未来,机器人将如何与人类共存?
我们又该如何应对随之而来的挑战和机遇?