让车靠“直觉”驾驶,到底靠谱吗?

嘉慧浏览趣事 2024-11-17 21:00:48

你觉得智能驾驶到底是不是你买车的必选项?万万没有想到现在的自动驾驶又卷出了新的高度。

L4级自动驾驶,说明全程都已经不需要驾驶员介入了。

智能驾驶到底是不是刚需?

据调查机构罗兰贝格2023年的数据,购买新能源汽车时,仅13.8%的人最关注智能化。

乍一听,这比例似乎不高,实则是大家购车时考量众多,智能化仍与续航、外观一同位列大家关注要点的前三甲。这意味着辅助驾驶等智能化功能,已然成为许多人购置车辆,尤其是新能源车时不可或缺的必选项了。

不少车企都已让高速NOA落地,使之成为众多新能源车的标配配置。像周末或节假日自驾出行时,在高速上开启辅助驾驶,能解放双手双脚,驾驶体验颇为惬意。日常里开车通勤、接送小孩才是常态,真正经常跑高速的人只是少数。

我曾在国外开了10年车,回国到北京后,却选择不买车。原因很简单,北京的交通实在太堵了,早晚高峰时,三四环的拥堵程度让人崩溃。自己开车的话,得时刻保持高度紧张,既要紧跟前车,又要提防加塞,有时自己还得加塞,一天还没开始工作,人就累得够呛,所以我干脆选择地铁、打车或其他公共交通出行。

不过,心里也盼着有朝一日,AI能像老司机一样,在城区复杂环境中顺畅驾车。

而要让AI达到老司机的水平,有个关键技术难题得攻克,那就是全场景驾驶能力。所谓全场景,就是无论道路、天气、交通状况如何,自动驾驶系统都能妥善应对。这对老司机不难,对人工智能却挑战重重。

传统智能驾驶依靠高精地图,其精度达厘米级别,详细标注着车道、交通标志、地面标识等信息,地图越精准全面越好。

可这种方式如今面临技术和成本两方面瓶颈。

从技术角度讲,它扩展性差,毕竟不可能用高精地图呈现所有场景和道路。

据《智能网联汽车高精地图白皮书》数据,厘米级地图测绘效率极低,一辆绘图车每天最多绘制100公里,还不算乡间小路、盘山路、施工改道的路等,而且每公里成本高达上千元。

我国公路四通八达,总里程超500万公里,若全做高精地图,耗时耗力,成本更是天文数字。

智驾系统

从老司机的驾驶习惯看,开车时也并非靠记高精地图,而是依导航指示转弯、下高架等,具体路况处理靠自己临场发挥。比如我试驾时,设的终点在园区酒店二楼入口,这通常不在高精地图采集范围内,但车进园区后能按指示牌爬坡找到酒店,很是智能。

正因上述种种,如今轻地图、重感知的方案成了众多车厂的首选。

像智己LS6就已完成去高精地图的城市辅助驾驶并全国开通,靠导航就能应对全场景驾驶。

不过新问题也来了,不用高精地图,是把技术难点转到了智能驾驶算法侧,这就对AI模型的感知、规划和决策能力提出了更高要求,“直觉智驾”等新理念也应运而生。

做好智能驾驶,到底有多难?

那接下来我们就详细地来说说对于智能驾驶现在行业公认的实现方式有三步,分别是感知、决策规划和执行。类似老司机的这种感官、大脑和手脚。

感知环节就是靠各种传感器、激光雷达、摄像头去尽可能多地获取和识别车辆周围的环境信息。现在除了少数几个车企还在坚持用纯视觉的方案之外,其他绝大部分的公司用的还是各种感知设备融合的方案。

也就说它能够把各种传感器的优点给结合起来,比如说像激光雷达最大的好处就是极其精确,它工作的原理就是向外旋转发射激光脉冲,每秒可以发射百万个,从而对周围的环境进行快速地扫描和测距,并且通过算法来构建出来3D图像,相当于给汽车去掉了战争迷雾,开了360度的全景视野。

不过激光雷达也只能判断有东西在旁边,但是没办法判断东西是啥,这也是激光雷达的最大问题。

不过摄像头就能很好地解决这个问题了,那么通过机器视觉的算法,车辆就能知道摄像头拍到的东西是什么,甚至还可以自动读取道路信息和标志文字,所以这些传感器结合起来就能更加立体、更加全面地去感知驾驶环境。

通常来说,在感知层面会有一个AI模型,也叫做感知模型,它负责对所有的传感器信息进行处理,并且由此产生一些先期的预测,比如说它能够识别出来前面有一个白色的轿车,离我们20米,速度是10公里每小时,还有一个电动车离我们五米,速度是5公里每小时等等。

这个信息再被传送给第二个阶段,也就是决策规划阶段,这里就会有另外一个更加复杂的决策模型,负责根据前面送来这些信息进行统一的规划和决策。

比如说对于轿车来说,我们要从左边变道超车,那对于电动车我们要考虑减速、避让等它先通过后我们再加速,像这种路况信息先经过感知模型的预处理,再到决策模型规划控制的智能驾驶方案,就叫做两段式方案。

两段式方案最大的优点就是做起来比较直观,类似我们这个眼睛、耳朵先去感知,然后再把这些信号传给脑子里去做判断。但是老司机骨骼惊奇,咱们的神经系统都进化了几百万年,可以做到信息传递的快速和无损。

智能驾驶

但是AI模型就不是了,两段式的方案问题其实就是在信息传递的过程当中会不可避免地存在损失,比如感知过程中检测到了两个目标,但是如果错过了其他目标,决策的部分就不可能知道了,所以特别是当场景复杂的时候,比如说像北京国贸周围上下班高峰期的时候,这种两段式的模型就很难全面地去理解整个复杂的场景。

此外,由于存在感知和决策两个模型,需要对两个模型分别进行训练和对齐,这里就又涉及到了大量的工作了。

就拿一个水坑的例子来说,希望这个支架系统遇到水坑的时候能给它自动地避让过去,需要首先人工去定义水坑的类型,就涉及到使用千万级的数据去训练感知模型,先去识别水坑这个东西到底是个啥,然后再用千万级的数据去训练决策模型,让他知道,当水坑出现的时候要绕行,一个水坑就这么麻烦,实际驾驶的时候情况比这个复杂多了去了。

不可能每个细微场景都来这么一个多次训练的过程,所以这也意味着这种两段式模型的泛化能力和解决极端问题的能力是比较弱的。

靠直觉开车,到底靠不靠谱?

面对智能驾驶现有两段式方案存在的诸多问题,该如何解决呢?仿生已然成为人工智能未来发展的重要趋势。

要知道,老司机驾车时,多数时候并非遵循严格的感知、深思熟虑再决策的模式,往往依靠的是经验乃至本能。正如诺奖得主、心理学家丹尼尔・卡尼曼在《思考,快与慢》中提到的,基于直觉的思维方式在日常生活中占据了约95%的时间。

人类的思考过程可分为两个系统:一是直觉推理,覆盖了95%的场景,能凭借经验下意识地快速反应与处理,像驾车时绝大多数常规驾驶操作、应对加塞以及躲避危险情况等,都依赖这一系统;

二是逻辑分析,虽仅涵盖5%更为复杂的场景,但需要调动大脑各部分能力,进行更缜密的逻辑分析与决策,比如变道时的加减速、进出岔路的时机把控等。

反观当下智能驾驶领域,几乎所有方案都侧重于提升逻辑分析能力,耗费大量人力物力扩充模型的数据和场景,可即便如此,模型遇到未曾见过的情况,还是难以像老司机那样凭借直觉做出判断。

为让智驾大模型更接近人脑,实现靠直觉开车,从技术层面需落实两件事。

其一,采用一段式的端到端结构,它是两段式结构的进阶版,打破了感知和决策两个模型的边界,运用统一模型完成感知预测、决策规划的完整流程,实现信息无损传递。

就拿轿车和电动车出现在路口的例子来说,雷达和摄像头捕捉信息后,能直接得出诸如路况拥挤的结论,并基于车辆位置和速度信息生成最优行驶路线,而非逐个处理,这与人类驾驶员边观察边驾驶的感觉如出一辙。

以水坑为例,一段式模型无需分别训练感知和决策模型,也不用人工定义水坑相关情况,可依据数据自动学习,即便不清楚水坑为何物,也知道要绕行。

其二,结合长短期记忆。这与人类大脑特点相符,比如刚开车上班时需时刻紧盯导航,开久了即便不看导航也能轻松通勤,极端天气也能应对自如,本质就是短期记忆不断重复转化为长期记忆。

训练有直觉的智驾大模型也需如此,以天为单位训练短期记忆来快速验证数据和算法有效性,优质数据积累到长期记忆中,以星期为单位迭代,既能加快训练速度,又能降低训练成本。

值得一提的是,该平台可供L2、L3、L4级智能驾驶系统共用,高阶智驾可利用更多算力针对复杂场景优化提升。试驾L4级智驾时发现,单颗激光雷达和单颗OrinX芯片就能支撑,这表明算力并非制约智驾体验的唯一因素,好的模型可压缩算力需求,也为未来功能升级预留了空间。

智能驾驶,到底离我们多远?

高阶智能驾驶的试驾,对于我来说是一个全新的体验,我从一开始的微慌慢慢变得适应和淡定,智驾系统其实也能很好地处理绝大部分路上的情况,比如说像公交车的前面进站的时候,它会尝试从左边超过去,但是看到对面来车或者是有行人或者电瓶车的时候就会缩回来,那这些和我开车的时候第一反应其实已经非常的像了,虽然不知道在市区中心拥挤复杂的路况表现会是怎样。

但是起码坐着无人驾驶的车来回转,甚至还有这样挺丝滑的表现,这些听起来很科幻的东西或许很快就能成为现实,说明技术的发展真的超出我们的想象。

就像我小时候从济南坐火车去北京要一整晚,那现在我可以一天之内从北京飞到上海,体验一波自动驾驶,然后再飞回北京。

当年手机出现的时候,有科技大佬信誓旦旦地说把一个通讯设备放到一个人的口袋里,简直就是被贪婪驱使的白日梦。

结果不仅是手机,智能手机已经成为了每个人最重要的电子设备。

我想让汽车像老司机一样自己开,没有紧张焦虑,没有路怒,没有堵车,或许这个梦的实现会比我想象的要快得多。

文本来源@老石谈芯的视频内容

0 阅读:1

嘉慧浏览趣事

简介:感谢大家的关注