对话思岚科技陈士凯:将空间感知注入具身智能

科技行者 2024-12-17 10:00:53

作者| 金旺

2024年12月3日,美国斯坦福大学教授李飞飞第一个空间智能项目终于赶在年终岁末上线。

仅凭上传的一张图片,就可以生成一个可交互3D线上空间,这是李飞飞World Labs团队带给全球科技领域的第一个空间智能礼物。

在李飞飞这个项目上线不久前,位于大洋彼岸的中国上海,一家中国科技公司也完成了他们一次关键技术迭代,随着这次技术迭代一同面世的,是他们内部筹划多年的3D激光雷达产品——SLAMTEC Aurora。

与市面上大多数激光雷达不同的是,这款产品不需要基于任何特定平台、也没有什么安装要求,甚至不需要进行二次配置,只要通电,Aurora就可以进入工作状态。

在拿到这款产品后,他们的测试团队先是拿着Aurora在一个多楼层的大型商场进行了逐层建图,后又将它带上了汽车,开车沿着上海内环跑了整整一圈。

陈士凯说,“当我们开车沿着上海内环线跑完一圈后,我们发现,带在车上的Aurora已经把整个内环线的‘高清地图’构建了出来。”

这是思岚科技成立的第十二年,是陈士凯和他的团队进入这一领域的第十六年。

在过去这十几年里,陈士凯已经数不清究竟做了多少款激光雷达,严格意义上来说,思岚科技并不是一家激光雷达公司,他们最初的定位是做空间定位导航。

不过,陈士凯一直觉得,空间定位导航这个词太技术了,也无法很好地表达思岚科技所做的事,直到今年,受李飞飞World Labs的启发,陈士凯找到了一个可以更精准解释他们在做的事的定位,空间感知。

和李飞飞的空间智能不同的是,陈士凯的空间感知是通过技术手段真真切切地将现实世界空间地图“复刻”到虚拟世界的一条路径。

在Aurora面世后,这条路径成了具身智能机器人迈入现实世界的重要一步。

01 算力的量变和质变

2009年,智能手机刚刚面世,移动互联网仅仅掀开了扉页,国内硬件创业潮还未开启,商业机器人依然是一件遥不可及的事情,这一年,身在当时全球科技霸主英特尔公司的陈士凯,有了创业的想法。

陈士凯形容自己是一个“不安分”的人,从小就喜欢动手做一些电子小玩意,大学进入上海交通大学后,本想在大三分专业时进入软硬结合的自动化专业,却又由于种种原因,选了更适合自己的计算机专业。

更重要的是,陈士凯身边还有着一群同样“不安分”的人,这让他们在那个大多数人选择进入外企谋一份不错的工作或借着互联网热潮创业做网游的年代,有了创业做更硬核的机器人的想法。

2009年的国内市场,虽然没有什么机器人产业,甚至没有很好的机器人创业环境,但当时的陈士凯从PC产业的发展中发现,机器人这一终端产品的终极形态即将到来。

这样的判断源于当时他在行业中看到的一些变化。

首先是PC产业已经显现出了没落的趋势,大家开始思考下一个有意义的时代、可能改变人类生活的产业是什么。

智能家居是当时很多人看好的一个未来产业,传奇人物、苹果iPod 之父Tony Fadell正是在2010年创业做了智能家居项目Nest,这家公司几年后被谷歌收购,并由此掀起了智能家居热潮。

此外,科大讯飞的语音合成技术在2008年首次超过普通人说话水平,后经上海世博会上的产品展示,开始崭露头角,人工智能技术率先在语音合成领域得到验证。

对于陈士凯而言,这些都不是他想要做的,但这样的变化让他意识到:

“智能家居本质上是对PC的一次应用,或者说是计算设备的一次外延,而要让智能家居有更高的灵活性,机器人就成了一个很好的载体;

人工智能技术未来一定会得到普及,而人工智能技术的终局,也将会是机器人。”

此外,当时身在英特尔的陈士凯还意识到了另外一个重要趋势,那就是整个IT产业中的算力正在愈发具有可移动性。

如果说从基础算力到可移动算力是一次量变,那么,算力从可移动到自主移动将是一次质变的飞跃。

于是,“不安分”的陈士凯拉着一群“不安分”的好友,开始研究如何做出一款家用机器人。

这一年还有另一个时代背景是,创客运动开始在全球兴起,一个名为Maker faire活动席卷全球,也是在这时,互联网上一个智能垃圾桶的演示视频,让陈士凯有了兴趣。

那是一位不喜欢总是要跑到垃圾桶旁边丢垃圾的日本极客的奇思妙想,他将自己家中的垃圾桶改造成了一个可以自主移动的智能垃圾桶,当你随意丢出垃圾时,它会像接球一样接到你丢出的垃圾。

这个智能垃圾桶,本质上已经是一个机器人,正是这样一个机器人让陈士凯更加确信,自主移动是研发机器人绕不开的问题。

然而,在那个机器人蛮荒时代,行业里并没有很好的移动机器人解决方案,即便是扫地机器人鼻祖iRobot,当时使用的移动方案还停留在随机碰撞方案,自主移动对于那时的机器人还是天方夜谭。

既然绕不过去,那么,陈士凯的团队该用什么办法来解决这个问题呢?

02 让机器人有激光雷达可用

2020年10月,iPhone 12正式发布,和大多数通过增加摄像头数量来提升智能手机摄影能力的方案不同,苹果为iPhone 12 Pro系列产品增加入了一颗激光雷达,由此实现了景深测量和3D扫描建图。

这样的激光雷达应用,在十年前是无法想象的。

如果回到十年前,激光雷达更多是被应用在军事和工业领域,动辄大几万的售价,劝退了很多想要将它应用到消费硬件中的团队。

说起来,激光雷达是上世纪五六十年代出现的技术,最早可以追溯到1960年美国休斯实验室发明的人类历史上第一台激光器,关于激光雷达的理论基础,在2010年前后已经相当详实,但真正要在消费领域应用,当时有参考价值的文献寥寥无几。

陈士凯认为,激光雷达是机器人自主移动解决方案的关键。

为此,他在那段时间里翻阅了很多文献资料,直到看到一篇关于简易激光测距的论文,才找到了方向。

在这篇论文中,作者简述了一种通过一支激光笔、一个罗技摄像头,基于三角测距原理实现的激光测距,不同于复杂的ToF原理,基于这种方法进行激光测距,硬件成本被控制到了300元左右。

陈士凯和他的团队在工作之余,开始尝试将这套系统复制出来,等到他们将这套系统复制出来后发现,测距效果远超他们的预期,于是,他们又基于这套系统向前迈了一步——通过将激光笔固定在电机上形成旋转器件,由此实现激光扫描图。

更重要的是,陈士凯发现,他们后来由此设计出的激光雷达,并不比当时商用市场买来的激光雷达差多少。这让陈士凯下定决心要研发一款可以用于消费级机器人的激光雷达,以此解决机器人最关键的自主移动难题。

从头自研一款激光雷达,还是为了应用到消费级机器人上,让机器人拥有自主移动能力,这件事儿在那个年代听起来很疯狂,尤其是科研领域还没有什么能够拿来做参考的学术成果,这让这件事变得难上加难。

对于已经摸到方向的陈士凯来说,当时摆在他们面前的是三个现实问题:

第一,如何将激光笔+摄像头这个雏形方案做得足够小,小到可以装到小型机器人里;

第二,如何让摄像头满足激光雷达扫描过程中需要的采集帧率的需求,要知道,即便是今年苹果发布的iPhone 16,摄像帧率最高也只能到120FPS,而激光雷达所需要的帧率至少要在1000FPS以上;

第三,如何将硬件成本控制在百元级,让它适用于消费产品。

当得出这样的结论,陈士凯和他的团队是近乎绝望的,尤其是当时在国内芯片供应链中,想要找到一家能够在这样短时间内研发出提升10倍帧率的摄像头几乎是不可能的事。

山重水复疑无路,绝处往往也会有一线生机,对于陈士凯而言,这一线生机由Neato带来。

Neato是扫地机器人发展史上另一个无法忽视的团队,这个团队成立于2005年,虽然他们成立时间不如iRobot早,但是他们却是最早将激光雷达应用到扫地机器人的厂商。

2008年,Neato开发出了一款硬件成本在200元左右的激光雷达,并在之后发表的一篇论文中阐述了一种通过消费级CMOS芯片实现激光测距的方法。

由于Neato作为一家商业公司,相关专利还在申请中,论文中并未过多解释实现方法,但这已经足够证明,消费级CMOS确实可以用于激光雷达的研发。

那段时间里,陈士凯将市面上能找到的所有CMOS芯片的数据手册拿来翻了个遍,后来是在机缘巧合之下发现,基于非常规用法和特殊配置,可以让CMOS芯片超性能工作,但这往往不在芯片厂商原本支持的工作范围之内。

突破了激光雷达的信号采集帧率问题后,陈士凯和他的团队一步一步找到了自己的产品研发节奏,并在2012年底完成了第一代激光雷达产品RPLIDAR A1。

RPLIDAR A1在2014年正式面世,不仅实现了6米半径范围内2000次/秒激光测距,还将激光雷达的价格从万元打到了2000元,两年之后,经过重新设计的A1更是将价格打到了900元。

激光雷达至此不再让机器人高不可攀,A1也成了思岚科技改写机器人历史的起点。

03 干掉激光雷达,改写机器人历史

2015年,随着产业链成熟和各种新奇的想法尘埃落定,属于那一代人的创客运动接近尾声,国内硬件创业进入集中爆发期。

中国商用机器人产业大门在这一年缓缓开启,尤其是各类服务机器人在这一年开始涌入市场。

第一批涌入商用场景的服务机器人,大都遇到了一个经典问题——在一个千平、乃至万平的商业大场景地图构建过程中,通常会遇到各种环形走廊,机器人在经过这些环形走廊时,在机器人运行界面上,构建出的环路地图总是无法首尾相连。

这就是机器人的闭环问题,究其原因,是因为当时激光雷达的闭环检测理论不够成熟,由此也使得那些年的机器人定位导航系统备受诟病。

陈士凯告诉我们,其实这个问题解决起来并不难,大家当时都能想到的是,用粒子滤波方案来解决这个问题。

对于这一方案,陈士凯做了一个通俗的比喻,一个人画地图总会有误差,如果几十、甚至上百人同时画一张地图,我们就可以以上帝视角,从其中筛选出最符合真实场景的地图。

不过,通过粒子滤波方案虽然在一定程度上可以解决地图的闭环问题,但也带来了另一个问题——算力问题。

这里就不得不提到机器人另一关键要素,操作系统。

2007年,斯坦福大学人工智能实验室里诞生了一个机器人开源操作系统项目,这个项目的创建者Willow Garage给它取了一个通俗易懂的名字Robot Operating System,这就是现在在全球机器人市场得到广泛使用的ROS系统。

不过,陈士凯的团队在做技术开发时,并没有用这个操作系统。

其一是因为思岚科技团队前身创建较早,2009年的ROS系统还没有完整的代码库,无法在市场中得到广泛使用。

其二是陈士凯后来发现,ROS当时的目标并不是做成更具商业价值的产品,而是一个用于做技术研究的产物,因而ROS不会考虑很多商业问题,例如它不会考虑内存爆炸问题——机器人中的程序一直在跑,占用内存不断增长,最终就会导致系统崩溃。

因而,原生的ROS系统往往需要非常豪华的硬件配置,以一台扫地机器人为例,当年如果采用ROS系统,至少需要一颗英特尔的高性能处理器、内存也需要3-4G,整个算力存储成本合下来要两三千。

更重要的是,在创业之前,陈士凯在英特尔一个很特别的软件研发部门工作,他在这个部门负责的工作是通过软件优化让硬件跑出更高的性能,这就是软硬结合的理念。

不过,后来是另一家全球科技巨头——苹果将这一理念做到了全球之最。

正是在英特尔这段工作经历,让陈士凯认识到,未来真正能赋予机器人灵魂、改变机器人历史的,是软件,而非硬件。

于是,在研发机器人、解决机器人亟需的激光雷达时,思岚科技内部也并行立项了一个研发机器人系统的项目,也就是思岚科技的定位导航系统。

思岚科技的定位导航系统一方面也是面向行业的一个开源系统,另一方面是思岚科技如今诸如激光雷达、机器人移动底盘和开发平台软硬结合的关键。

陈士凯告诉我们,“思岚科技的机器人操作系统走的路子有点像苹果的iOS,虽然由于种种原因没能像安卓系统一样成为机器人领域全球广泛使用的操作系统,但却成了思岚科技各产品线的一个核心技术壁垒。”

思岚科技的定位导航系统自2014年随RPLIDAR A1以模块化方案一并发布后,如今已经经历了三个大的版本,分别是:

在2016年研发完成的能够满足商用场景万平建图需求的2.0系统,在2019年引入在线闭环和自学习方案的3.0系统,以及在今年实现的以视觉为主,视觉、激光、惯导多传感器融合的4.0系统。

搭载思岚科技4.0版本定位导航系统的模块化产品,就是前文提到的3D激光雷达产品——SLAMTEC Aurora,而Aurora已经不只是一个解决方案,陈士凯称之为“思岚科技的一次自我革命。”

在以往面对商用场景时,大场景建图面积被视为一个重要指标,陈士凯称,“如果按这个逻辑,在Aurora已经测试过的场景中,实现千万平米建图已经完全没有问题。”

据陈士凯介绍,“思岚科技团队在将Aurora装到汽车上并在上海内环测试时候,上海内环线全长是47.7公里,我们在整个测试过程中将内环线周边全部房屋建筑都构建到了3D地图中。”

在此过程中,激光雷达的建图逻辑已经悄然改变。

在行业中已经摸爬滚打十几年的陈士凯一个深刻的感受是,“行业真正需要的并不是激光雷雷达,而是空间感知能力。”

基于这样的认知,陈士凯向我们透露,“我们未来的目标是干掉激光雷达这个品类。”

04 什么是具身智能的当下?

2022年11月,ChatGPT面世,人工智能进入到一个全新的时刻。

信奉软硬结合的陈士凯一直认为,“一个不那么完美的硬件结合一个足够智能的系统,往往会带来真正的技术变革。”

毫无疑问,ChatGPT就是这样一个足够智能的系统。

因而,在ChatGPT面世后,思岚科技团队开始基于大模型做各种测试,例如让大模型模拟一个机器人,向它输入一个摄像头画面并让它输出一个控制指令。

当思岚科技团队通过语音指令让大模型找出客厅中的冰箱时,大模型会先判断这是一个客厅,然后观察视野范围内有没有冰箱,如果没有冰箱它会转过头来再探索背面的空间,看是否有冰箱,这是以往的算法所无法实现的。

陈士凯当时对此的分析是,“以往的机器人对你输入的指令本质上是进行判断,它并不具有历史经验,但是深度学习让机器人有了这样的可能。”

大模型让机器人拥有了更拟人的思考能力,实际上,如今的Aurora在导航建图上,同样拥有了拟人的逻辑。

Aurora的拟人逻辑能力,在思岚内部其实也经历过多次蜕变。

时至今日,通过激光雷达进行导航建图已被验证,成本问题也早已不再是激光雷达进入机器人领域,乃至消费市场的瓶颈,但是激光雷达有着自身的先天缺陷。

例如面对长走廊只能采集到两条平行的直线,面对高地起伏的路面,除非价格昂贵的3D激光雷达,普通激光雷达难以进行准确识别。

正因如此,早在2015年,思岚科技内部就成立了视觉方案研究小组,开始重新基于视觉算法研究导航建图方案。

也是在这一年,思岚科技内部就有了一个名为Aurora的项目,当时陈士凯基于第一性原理在考虑空间定位产品的终极形态时,他认为,”未来激光雷达一定会是一个通电就能用的独立设备。“

第一款实现陈士凯这一构想的产品是思岚科技2018年对外发布的Mapper,不过,这款产品构建出的依然是二维地图,无法识别出高低起伏的路面。

直到2024年年初,基于视觉、激光、惯导多传感器融合思路的3D导航建图产品Aurora正式立项。

在这代产品中,思岚科技做了另一个大胆的尝试,引入深度学习算法。

陈士凯告诉我们,“二维激光的结构简单,能够提取的特征数据并不多,因而行业里基于激光的深度学习研究已经触碰到了行业前沿,另一方面,在引入视觉方案并以视觉方案为主导后,我们开始通过深度学习进行视觉算法的研究。”

自2015年重新研究视觉方案时,思岚科技团队发现,摄像头直接影响了视觉方案最终的表现。

当时市面上已经有不少开源视觉算法,基于开源算法跑下来的数据各种好,等到基于摄像头进行实际场景测试时,跑出来的数据并不理想,这显然是摄像头“有问题”。

“当时市面上没有一款摄像头能满足我们的需求,”回忆起攻克视觉算法在导航建图方面的难题时,陈士凯如是说。

为此,思岚科技团队最早在进行视觉算法研究之前,先是从摄像头的研发入手,直接参与到了硬件设计和调校中,将研发出符合自己需求的摄像头交到供应链厂商进行代工、生产。

这既符合以技术立命的思岚科技的调性,也符合思岚科技软硬结合的发展思路,最终也成了2024年10月发布的Aurora的技术壁垒。

2024年10月,思岚科技Aurora正式发布,Aurora的发布再一次将3D导航建图方案的成本从万元级打到了千元级,这让思岚科技对这款产品有了很高的期待,期待它可以为整个行业开启3D建图定位的新纪元。

此外,在Aurora对外发布时,陈士凯也给了它一个新的标签——具身智能。

前不久,特斯拉官网上发布了一个新视频,这个视频展现了特斯拉的人形机器人通过内部视觉系统进行环境地图构建、路径规划,并基于此执行最终目标任务的能力。

陈士凯看到这段视频后发现,“特斯拉已经开始考虑落地到实际场景中的一些更为现实的问题,地图构建、路径规划就是其中的一个关键问题,而特斯拉在视频中展现的这套视觉系统其实与思岚科技Aurora中采用的深度学习+视觉+激光雷达的方案有诸多相似之处。”

而谈到具身智能,陈士凯认为,“机械臂+轮式底盘会是这几年在实际商业场景中更有价值的形态,思岚科技所擅长的是为这些机器人厂商提供包括运动控制、导航建图在内的空间感知方案,机器人厂商则可以将更多精力放到在工厂搬运环节更需要的灵巧手的研发上。”

据陈士凯透露,基于这样的思路,思岚科技已经参与到了诸多具身智能机器人的场景落地中。

0 阅读:8

科技行者

简介:科技行者,一个只谈智能的信息服务平台。