轻舟智航侯聪:只靠「端到端」实现L4是不可行的|智车星球

智车星球转啊转 2025-01-22 09:42:41

这是一次酒桌上的「群访」。

1月16日,轻舟智航2025安全智驾媒体沟通会后,轻舟智航联合创始人、总裁侯聪参加了之后的答谢宴。这似乎是汽车媒体人之间的通病,三巡酒过,话题总会从客套走向行业。

更何况,眼前坐着的,还是自动驾驶行业名副其实的「大佬」。

△轻舟智航联合创始人、总裁侯聪

侯聪本科毕业于清华大学自动化系,研究生专为计算机系,此后在美国佐治亚理工学院取得计算机科学博士学位。2013年一毕业,就加入了Google。

在谷歌任职期间,侯聪被推荐到Google X实验室的无人车项目组,负责感知系统。而后,谷歌在2016年拆分无人车项目组,Waymo正式成立,侯聪也成为了Waymo最早的一批工程师之一。

虽然是全球最早一批参与研发Robotaxi的工程师,但对乘用车L4级自动驾驶,侯聪始终非常谨慎。他曾表示,Robotaxi在商业化落地方面面临诸多挑战,尤其是在复杂的城市道路环境中,corner case(极端场景)问题难以解决。如今他依然认为,L4级自动驾驶要实现完全的商业化运营,至少要到2030年。

除了行业预判,对于行业内十分关心的问题,比如「端到端」、「纯视觉」等技术路线是否是最优解?特斯拉FSD和Waymo比,哪家更强?国内普遍的L2+级水平和特斯拉相比,存在代际差?特斯拉FSD进入中国是否能够顺利落地等等……一一做出解答。

以下根据侯聪的回答整理而成。

目前Waymo的打车量仅次于Uber

今年CES其实在智驾上面没有太多的新东西,当然本身这也不是一个智驾发布的场地。但是我觉得Waymo确实扩展挺快的,他今年拿了两款新的车型展示,一个是极氪的,一个是现代的。

我还在旧金山坐了这个车,旧金山这个场景其实挺难的,一个是坡很陡,因为这个原因,Waymo在激光雷达的设计上还专门做了调整;然后有很多double parking,就是路边有一排停死的车,这样后面再停车的时候,等于有了两排车,这时候就会挡着前面的路,要绕行的情况很常见。

我刚从美国回来,现在真的到处都是Waymo的无人驾驶车,在旧金山任何偏远的地方,都能看到这个车,可能还会连着过去好几辆。最新的数据表明,Waymo的打车量已经超过Lyft,仅次于Uber,我估计迟早会超过Uber。

我坐了一趟觉得还是有挺多亮点的,包括前面有车要停到路边,可能会有倒车的情况,Waymo在后面会自动向后倒,给前车让出一个空间,等它停进去再向前走。其实这个问题在我离开Waymo的时候就有很多反馈了,当时的车辆还会顶到前面,让前车倒不了,两辆车就卡在这,但是现在这个问题解决了。大家在旧金山有机会一定要再试一试这个车。

Waymo最近又开始在奥斯汀运营了,扩展的速度越来越快,他现在开一个新的城市会比之前快很多。

Waymo VS 特斯拉,L4哪家强?

今天大家都在关心Waymo和特斯拉关于L4的对比,我首先觉得二者目标不一样。

Waymo的目标是,我就要做一个Robotaxi的服务,就要看市场。比如美国的打车市场主要集中在几个城市里面,因为美国的乡下或者偏远地区,这种需求很少,所以是由市场向导来做这个事情,我只需要搞定这几个城市,拿下多一半的市场份额就够了,边际收益也会比较低。

特斯拉是卖车的逻辑,所以他肯定要适配美国大部分场景,他要把这个东西做的越来越好,帮他去卖车,同时他也希望走向L4,靠这个故事去驱动销量和内部研发。我有一些朋友在特斯拉工作,马斯克经常会找他们去讨论一些具体的问题,他特别喜欢讨论这些业务。

这个相对来说,其实就难很多,第一他要解决更多的长远问题;第二个,成本真的是很大的约束,他要卖车,所以传感器不能做的成本很高,这导致他只能在城市上去不断探索,当然这也倒逼他在这方面越来越好。

但是我现在问还在Waymo的前同事,他们都认为没有激光雷达是做不了L4的,如果只靠视觉,有太多问题是解决不了的。

但是前两天李想不是也说,他相信马斯克如果在国内做智驾的话,他一定也会选择激光雷达,大家如果真的把安全作为一个很重要的目标,国内如果没有激光雷达的话,确实容易出问题。

所以特斯拉想要做到L4,需要转变思路,马斯克曾经说过一些话,比如“用激光雷达的都是傻逼”,后面可能要打脸。因为当时是没有成熟的情况,硬件成本比较高,其实是没得用。但是当激光雷达足够好,足够便宜的时候,我相信他还是会回来用的。而且当他把AI能力推到极致,发现推不动的时候,可能也会用激光雷达。

我自己也经常开特斯拉,在美国也经常遇到一些情况,逆光、下雨,甚至早上出门,因为有露水,我要开十分钟甚至二十分钟以上,露水才能被吹干。如果露水要是在玻璃里面就没办法了,只能晒,这种情况就不允许我打开FSD。这是很典型的一个问题,如果你这块做不好的话,很难实现可靠的运营。

这次我去CES,我的一些朋友和我说,Waymo在第六代的车上虽然做了一些降本操作,产品的数量减少了一些,但是它的去污清洁、盲区的设计,依然是特斯拉不具备的。

我说一个有意思的事情,特斯拉推崇第一性原理,说人能靠眼睛开车,你的视觉就能开车。但他忽略了一个事实,人能开,因为人是会动的动物,有脖子,有身体。大家开车都会遇到,比如说前面(玻璃)上有一点脏了,或者这边特别滑,这时候你会活动你的身体去解决这个问题,但是特斯拉的相机是不具备这种能力的,一个机器人坐在车里,才应该是第一性能原理。怎么解决这个问题?要么你把清洁做到位,要么你把冗余做到位。

这些年,行业里一直存在着严重的信息不对称现象,绝大多数的从业者,包括投资人、媒体,对于L4的研究不够深,甚至曾经一度去diss Waymo,说Waymo不行,但特斯拉还可以。我觉得至少在当前,为什么Waymo可以去大量运营,但特斯拉还不行,二者依然还有一些差距的,可能存在5年以上的差距。

Waymo用的,都是非车规级传感器

我7年前在Waymo的时候,我们团队是做sensor(传感器)的,当时去污就是很难解决的问题。大家如果对Waymo第四代车有印象的话,它顶上是有一个罩子的,里面装了很多传感器,包括顶上一个主雷达,中间一圈16个相机,下面是一个连续的激光雷达。那时候你会发现,去污是个很难办的问题。因为它是个圆的,美国的生态比较好,经常有虫子、鸟屎,前面特别容易脏,脏的地方刮不动。

于是第五代硬件又回归到了早期,像花盆一样是转的。为什么要转?其中一个很大的原因就是要解决虚物的问题,转的话窗口就是这么小,被弄脏的概率小很多,第二上面的水很容易甩掉,第三是它是个窗口,能做成平面,平面去污就要容易得多,用雨刮就能解决。

第六代虽然做成了摆动的传感器,但你总是要做设计,这个点是现在国内做L4或者L2所不具备的。

2016年的时候,百度发力做L4,当时宣传很猛,我记得国内经常说Waymo起个大早赶个晚集,但实际上从2005年到2016年,Waymo很多积累是非常有价值的。比如他自研的激光雷达从第一代做到了第四代,一直在积累,性能确实比量产方案要好。

这块我也提一下,Waymo几乎所有的零部件都不是车规级的,比如他相机用的是索尼的消费级的sensor,车规级的sensor性能很难做上去。

之前车规级的摄像头最高可能就是800万像素,但是Waymo需要的是一个4000万像素的相机,能在夜间成像非常清晰。前面这个相机已经做到了单反的效果,晚上一些人都看不清的,它要看得清楚。

第二是红绿灯问题,我觉得国内没有一个特别好的方案,红绿灯的原理是LED灯,它是有频闪的,如果你的曝光时间和频闪刚好错开的话,你拍到这个灯就是不正常的。有点像你拿手机拍一些屏幕他会闪,因为他确实一直在闪,所以如果拿一个一般相机去拍红绿灯,可能明明是亮的,但它拍出来是暗的。

后来相机厂商做了一套技术叫FM,就是通过增加曝光时间来规避这个问题,但国内总有一些东西很奇怪,比如每个灯的频率不一样,你拿带有这种功能的相机去看,依然还会有这个问题。

再有一个是晚上看红绿灯,其实很容易过曝,灯一过曝的话就看不清楚了,尤其是颜色和箭头,箭头看不清,到底是直行还是左转就看不清,L4很容易出现这种问题。

Waymo想了一招是往相机里装一个灰镜,像墨镜一样的东西,强制让他曝光时间变长,而且我的曝光时间是固定的,灯的亮度也是固定的,这样白天晚上我都能看到灯。所以为什么它一圈有16个相机,其中8个都是看LED灯的,不仅看红绿灯,还有警灯和消防车灯,以及一些牌子上面的文字。

Cruise为什么不行?

Cruise为什么不行呢?因为他们不具备Waymo长期的经验积累,他是2014年成立的,没有自研传感器,甚至没有盲区传感器,包括百度也是没有盲区传感器的。我倒不是说自研不自研,但他们不认盲区是一个必选项。

除了成本问题,用了那么多传感器,实际上对系统的要求非常高,带宽一下就上去了,什么样的设备能够支持这么大的带宽,这是个技术问题。很多车厂不敢装传感器,因为他根本就接不进来,那么庞大的数量,怎么去传输、存储都是问题。市面上没有现成的东西能够支持你处理这些数据,只能去自研,所以这一块投入也是很大的。

它的产品距离量产其实还是很有距离的,但是为了和Waymo竞争,太早就投入了运营,但这个产品的安全性本身没有经过充分验证。Waymo的第五代硬件其实是从2019年开始做的,到2024年才开始运营,中间这5年干啥去了?其实就是在解决很多假想中的安全问题。

Cruise之前有个事故,就是把人卷到车底,还压着人过去了,这种事故在Waymo是不会发生的,因为Waymo有盲区雷达,它早就知道这边有人,在车出现异常行为的时候,它也会检测到,会马上停下来。

但Cruise没有做这种设计,你要从整体上考虑这种情况,但他没有投入资源。

现在国内的L2+,要比特斯拉差一代?

从整体体验上,现在是没办法一点一点比的,毕竟国内还没有推出FSD,但是从技术粘性上来讲的话,是这样的。

特斯拉我也认识一些朋友,首先团队确实很厉害,也很精英化,他的人并不是那么多,前两年可能只有200人的规模,现在是三四百人差不多。

这么点人,他的研发效率和在算力数据上的投入,是国内没法比的。第一他们有钱敢投,第二是没有限制,美国现在卡这么严,我们买不到这么大的算力,而且特斯拉也自研了Dojo。

(FSD进入中国后)按他的技术框架,只要把数据这块做好,(顺利落地)还是有希望的。因为他的技术本身没有那么大缺陷,但是的确他的产品精益程度(是不够的),因为他们没有那么多人,做不了那么细。

我相信特斯拉的产品在精细度上,和华为肯定是有差距的,比如停进这个车位,旁边有辆车或者有堵墙的时候,车什么时候应该偏一点,这种体验都很细。

而且像Autopark,我记得一年前只有在搭载毫米波雷达的车上才有这个功能,后来纯视觉之后就都禁掉了,因为没有做的很成熟。

还有一个问题是什么,他的相机其实就是7、8个摄像头,后项倒车有一个鱼眼摄像头,左右前是没有鱼眼的,这导致在泊车的时候,首先没有一个好的视角能看到正下方的东西,下面肯定是有盲区的,只能通过车辆运行过程中,用一些时序上记忆的能力,去记忆某些地方的东西,传感器本身会有一些不足。

我觉得在国内,泊车场景会更加复杂,比起国内的车企他天生会有一些劣势,能不能完全靠算法补齐,在相同的技术能力下,我相信还是有一面会做的更好一些。

特斯拉现在和百度合作解决一些数据问题,除了解决数据合规的问题,还有数据训练,他在国内显然没有在美国那么充沛的算力训练,把美国的数据训练之后可以拿到国内使用,但是这样做是否能够满足需求,还存在一些不确定性。

端到端不是实现L4的最终解

端到端技术本身是有价值的,但是只靠端到端做L4是不可行的,它可能只是L4架构里的一个技术点,在一些决策性的问题上,可能确实会比传统的方案更好,它对信息的利用更加充分,信息的损失更少。但它的问题在于,完全靠数据驱动去解决问题,是解不完的,而且到一定程度还是会碰到瓶颈。

所以L4的市场是很不一样的,大家可能没有想过,Waymo为什么用这么重的CPU做无人驾驶,大家在说算力的时候,都是讲GPU或者推理的算力,但是从来没有人说你的CPU是多少,Waymo用这么大算力的CPU,就是因为需要很多冗余,同时需要一些规则去保证它的准确性。

如果真的什么都靠模型,什么都靠模型,总有些问题解决起来成本巨高,所以解决长尾问题不能一味地全部部署到数据模型上,有些问题按规则解其实反倒更快。

这个行业太多营销了,大家可能存在鄙视链。我再举一个例子,地图可能也在鄙视链里面,无图的鄙视有图的,Waymo其实还是用有图的,我相信L2走下去,可能最后还是需要一些地图的支持。当时大家鄙视地图,是因为在那个阶段,大家追求的目标是我哪里都能开,当时如果太依赖地图的话,地图本身确实有缺陷。

但是当你的技术迭代,把地图当成先验,而非增值的时候,你后续发现有些问题,还真的要靠地图才能解决。

这点其实也是符合第一性原理,对于人来说,你熟悉这条路和不熟悉,是不一样的。当你熟悉这条路的时候,你知道什么时候应该变道,什么时候应该提早去做什么决策,这个先验是很有价值的。

但是如果你没有,至少以目前的技术架构,你很难具备这样一个输入模式。我们管这种输入模式叫记忆行车,实际上也是通过记忆形式把它记下来,还是建了一个图。所以我相信未来地图信息还是会重返智驾方案,只是那个时候它的地图使用方式和之前不一样。

所以很多东西还是有用的,你还是要用,而不是为了追求更高阶,就认为无图一定比有图好,端到端就已经打败了规则,至少在国内的L4市场肯定不能这么做,L2的话我相信最好还是能够把它们融合在一起,看谁发挥的比例更大。

2030年,自动驾驶才能真正实现商业化运营

(大家对L4的预期)都太乐观了。虽然我觉得乐观点本身也没错,只有乐观才能把事情往前推。

当年马斯克也犯过一样的错误,他从很早的时候就开始说做L4,(但是一直没有实现),现在说明年会推出来一个车型(Cybercab ),但我估计还是会delay。

他应该还是寄希望在第五代硬件,我估计他在3.0遇到了瓶颈,因为模型容量有限,解决长尾问题时会出现其他问题,就是解决了这边的问题,那边就出现问题。他的算力和算法容量有限,就会出现这样一个问题。

其实反过来印证了智驾的硬件设计,无论是传感器还是芯片,都由长尾问题,而不是一般性问题决定的。

我认为国内的L4要在2030年之后,才能够大规模商业化运营。

0 阅读:0

智车星球转啊转

简介:感谢大家的关注