出品:红色星际(ID:redplanx)头图:毫末智行四位创始人图片
毫末智行为什么最有可能成为中国第一个踏入自动驾驶3.0时代的公司?
1. 毫末的“勇气”:“以终为始”选择技术路线在最近的一次毫末智行技术分享会上,一个朋友问道,“仅仅三年的发展,是什么因素促使毫末成为中国量产自动驾驶公司的第一名?”
技术分享人思考了片刻,答道,如果用一个词总结,就是“勇气”。这个词可能说起来比较简单,但对我们的挑战很大,特别是几位老板压力很大。老板最大的压力是量产交付,是商业,我们作为技术人员虽然也会受到挑战,但相对而言,主要是在技术上和自己较劲。
自毫末成立之后,整个公司逐渐地将高效的数据闭环作为首要任务,先把数据能力建立起来,然后再考虑盈利的问题。
如果你一开始就做小模型,或者使用高精地图,在城市中面对一些特殊的场景,可能很快就能上车,但是这不符合终局思想。毫末选择了一条“以终为始”的道路,从大模型出发,站在以终为始的角度,思考最终的技术架构到底是什么。
这个可能和毫末智行的管理团队有关,管理团队并不想把毫末做成一个短期利益公司,而是从终局的角度考虑公司的技术架构和商业模式,大家都是想做成一个真正的对这个社会有价值的公司。
于是毫末在2021年12月,基于国际最先进的AI技术理念发布了国内首个自动驾驶数据智能体系MANA,目前阶段,这个基于大数据驱动的智能体系已基本搭建完毕。
(毫末智行数据智能体系MANA)截止到2022年9月,毫末MANA体系学习时长已经超过31万小时,虚拟驾龄相当于人类司机4万年。在数据积累方面已经完成数十万全要素、多模态CLIPS 的标注。在场景库积累方面,已经建设完成300 万小时中国道路驾驶认知场景库。
这个也可以解释,为什么毫末在短短3年时间,就得到了投资人的认可,跻身自动驾驶独角兽公司,相信投资人更懂这个团队。
在传统计算机视觉领域的二维信息的处理上,CNN是绝对的主流选择,但是CNN最大的问题是面对巨量数据时有很大局限性,而基于Attention机制的Transfomer大模型,在处理海量数据和复杂场景方面优势更明显。所以毫末整个技术团队,从2021年7月开始就启动了对Transformer的研究和落地尝试,因为它非常适合于多模态数据处理,特别是大数据的处理。
经过一年多的时间,毫末完成了训练平台的改造升级,完成了数据规格和标注方法的切换准备,完成了针对感知、认知具体任务的模型细节探索,终于应用在毫末城市NOH功能中。
并在今年8月份的成都车展,毫末智行联合魏牌摩卡、高通联合推出了中国第一个量产的城市导航辅助驾驶,这套最新的智能驾驶系统HPilot3.0已经搭载在魏牌摩卡DHT-PHEV激光雷达版上,将于今年9月底量产,年内交付使用,相信大家应该能很快感受到这套系统的威力了。
毫不客气地说,毫末是中国第一个大规模投入基于Attention机制的Transfomer大模型架构的公司,这个架构不仅为毫末在各条自动驾驶产品线上的视觉算法落地带来成倍的效率提升,还可以大幅提升后续的规划和控制等相关技术,最后可以使驾驶行为像老司机一样,顺滑舒适。
单纯从模型结构来看,Attention机制最大的特点就是结构简洁,可以无限堆叠基本单元得到巨大参数模型。而且多方数据显示,随着数据参数量的增加和训练方法的提升,Attention大模型很多方面的人工智能水平都超过了人类。
(AI模型发展变化图片)对于一般的公司而言,我相信他们在面对量产交付和新的技术架构选择方面,肯定会犹犹豫豫,或者说并没有毫末这么有勇气(因为毫末坚持“以终为始”选择技术路线)。当然,新架构虽然好,但是也会带来一系列的问题,我们称之为,牵一发而动全身。一般Transformer所需算力是CNN的100 倍,但是存在很大的算力浪费,平均6.9%的算力贡献了94%的价值,很多弱关联、低价值的运算产生了很多浪费。
而且,基于Attention的大模型对算力的需求远远超出了摩尔定律,这导致大模型的训练成本非常高、落地很难、尤其是在终端设备上的落地尤其困难。
如何改进车端模型和芯片的设计,实现大模型的车端落地;如何通过低碳超算平台,降低自动驾驶成本,这些都变成了新的课题。
在大模型时代,巨量的模型参数给模型训练带来很大的难度。在当前主流配置的服务器上,用数据并行方式训练所花的时间是近百个小时。所以毫末正在通过建设低碳超算中心来降低自动驾驶成本,通过改进车端模型和芯片的设计来实现大模型的车端落地,通过数据的组织让大模型发挥更大效力。对于低碳超算中心,毫末的目标是满足千亿参数大模型,训练数据规模100万clips,整体训练成本降低200倍。
之所以毫末选择不断地折磨自己,主要是和公司的战略有关,毫末在很早的时候,管理团队就认为,在选择技术路线时,一定要以第一性原理作为判断基础,能将数据规模优势快速转化为能力优势的技术路线就是好路线,否则我们就重新推倒,再构建一套数据系统。
正是由于毫末智行团队的坚持和持续攻坚,毫末在自动驾驶量产方面,稳居中国第一。
而且随着测试的深入,数据的累积,毫末发现当初自己的决定越来越正确。过去用的分场景小模型方法渐渐显露弊端,有的时候运动起来太机械,舒适感不足;有时候太依赖一些传感器,导致成本降不下来。
特别是高精地图的使用,毫末认为它也是一个传感器,一个很重要的传感器,虽然在某些场景这个传感器很管用,但是因为成本和更新的问题,高精地图的置信度并不能得到保证,你永远不知道什么时候什么地方它就会失效。
所以毫末成为中国第一个在大规模量产城市NOH时,提出“重感知、轻地图、大算力”的技术路线,摆脱高精地图这个不确定的传感器。
不过话说回来,所有的这些选择都和毫末公司的战略有关。如果大家关注过毫末的成长历程,就会发现,毫末在感知、认知、模式建设上,都是按照数据驱动的方式建设的,这就是毫末稳当中国量产自动驾驶公司第一的法宝。
2. 战略思想指导,坚定走渐进式路线对于毫末智行而言,先进的技术是底层框架,优秀的工程化能力是执行层,而公司战略则是整个架构的大脑。公司从成立之初,毫末就确定了走渐进性线路的战略思想。一直以来,自动驾驶行业都有“渐进式”和“跃进式”的路线之争。毫末认为,渐进式发展路线可以以更低的成本来获得更大规模、更多场景覆盖的优质数据,会成为推动人类实现自动驾驶的最佳路径。
在公司坚定走渐进性战略的指导下,毫末智行通过研究数据驱动的各个环节,于2021年9月,提出了毫末制胜法则:毫末制胜法则=(数据智能*全面安全*稳定量产)^生态,它也成了公司最高的指导思想。
(毫末智行制胜公式)在这个思想下,毫末始终将安全作为自动驾驶的底线,不断地扩展自己的生态合作,在乘用车自动驾驶领域,毫末将继续坚持“6P 开放合作原则”,与客户伙伴进行各种类型开放式的合作探索,持续赋能行业伙伴;在末端物流自动配送领域,毫末正通过“5S 服务体系”,与客户伙伴一起,共同推动末端物流自动配送车规模化商用的行业进程。关于渐进性路线,董事长张凯把它分为三个阶段:第一个阶段是自动驾驶能力的实现,这个阶段,大多数在自动驾驶这个赛道创业的公司都已经实现了。第二个阶段是自动驾驶系统的规模化部署。只有将自动驾驶系统大规模的部署到车上,投入市场,才能弄清楚市场真正的需求,才能验证产品的市场竞争力。2022年,对于一个在自动驾驶赛道创业的公司而言,如果没能够解决自动驾驶规模化部署问题,将是一件非常致命的事。而横亘在Demo与规模化部署之间的一道障碍,就是技术的工程化能力。
目前很多公司大量的时间和精力要花费在解决技术工程化的问题。用毫末管理层的讲话,我们接触自动驾驶之后深刻感觉到,只有多工种协同才能够做好这件事情。有的做域控制器,有的做车辆适配,有的搞软件,对于毫末而言,因为自身团队的多元化特性,天生就具备这种能力。毫末的研发团队汇集了众多十年以上经验汽车研发高级工程师,同时得到长城汽车开放的所有的车型平台和零部件资源支持,技术工程化能力自毫末成立以来,就像血液一样流淌在身体里。
通过团队基因和MANA体系的加持,毫末智行内部已经形成一整套高效的智能驾驶产品开发流程。目前,云端工程化基本搭建完成,车端工程化也已经在大规模落地,截至目前,毫末已推出三代乘用车辅助驾驶产品HPilot,两年6 次OTA 升级,实现搭载超过十款乘用车型量产落地,同时并行30 个项目异步开发。
目前正在陆续交付中的车型有摩卡DHT-PHEV 激光雷达版、欧拉闪电猫、欧拉芭蕾猫、全新一代长城炮等。截止到2022年9月,毫末用户辅助驾驶行驶里程突破1700万公里,位列中国自动驾驶公司第一名。截止到2022年底,HPilot预计搭载车型近30款,未来搭载车型达到百万量级。
(毫末智行产品落地图片)第三个阶段是自动驾驶能力的逐步完善。这个阶段,数据积累的成本和质量直接决定这个过程的周期。通过大规模的自然语言领域的应用实践,毫末发现数据规模不但要足够大,数据的多样性也要足够充分,各种传感器的数据,包括不同类型、不同像素、不同角度对于大模型训练都有非常大的价值,包括毫末末端物流自动配送车的运行数据。2022年4月,毫末推出了行业首款十万元级末端物流自动配送车“毫末小魔驼2.0”,正在面向商超、物流行业客户,提供稳定、高效地无人化投递服务。截至2022 年9 月,小魔驼订单量已突破9万单,切实推进了末端物流自动配送车规模化商用的行业进程。
毫末预计无人配送行业将在2023年,2024年之间迎来爆发。目前阶段,“毫末小魔驼2.0”已经具备L4级自动驾驶、远程驾驶、低成本部署、车辆管理平台、远程监控平台、订单管理平台、微信小程序等七大核心功能,在业界处于领先水平。
结合海量数据和实践,无论从数据成本还是数据量的处理上,数据智能体系MANA正在发挥决定性作用,特别是现在很多公司都走上了这条路,侧面也说明毫末的道路是正确的,这也是为什么毫末能做到中国量产自动驾驶公司第一很重要的一个原因。
在毫末制胜法则的指引下,MANA数据智能体系和强悍的工程化能力双管齐下,毫末在大规模、多车型自动驾驶量产战役,末端物流自动配送车技术成本战役,大规模数据处理及大模型应用战役都取得了突破性的进展。
3. 如何打赢自动驾驶3.0时代何为自动驾驶3.0时代?用毫末智行CEO顾维灏的说法,自动驾驶分为3个阶段:
自动驾驶1.0 时代主要是硬件驱动。硬件数量决定能力高低,自动驾驶车辆依靠激光雷达等硬件进行“全副武装”,整车成本高、数量少、技术效果一般,自动驾驶里程仅在100 万公里左右。
自动驾驶2.0时代主要是软件驱动。AI 技术,大算力计算芯片亮相,车规级传感器个数在快速增加,整车成本下降、效果提升,自动驾驶里程快速增加至上千万公里。
但这个时代还是写规则的阶段,我们现在正处于第二和第三阶段之间。
自动驾驶3.0时代是真正的数据驱动。大模型+海量数据“双剑合璧”,数据开启自训练模式,自动驾驶里程飙升至1 亿公里以上。
这个阶段以数据的自训练为主,我们所做的一切,都是为了能够做出数据通道和计算中心,以便可以更高效的获取数据,并把数据转化为知识。
(自动驾驶发展的3个阶段)自动驾驶3.0时代,我们摆脱了写规则的年代,数据真正成为驱动自动驾驶能力的核心。为此毫末结合自身的发展,制定了毫末智能驾驶产品能力迭代铁三角:“场景化用户体验设计、AI 人工智能技术、技术工程化能力”。首先是场景化用户体验设计,这个是入口,是产生数据的第一步。张凯表示:“如果用户一开始就不喜欢用,认为辅助驾驶不好用,那我们就连学习的机会都没有,更不要说形成数据闭环,持续迭代产品能力了。因此,持续优化的用户体验是自动驾驶商业化落地的重中之重,也可以说渐进式发展路线的关键环节就是用户体验。”
在场景化用户体验设计方面,毫末有大量的用户交互体验和产品开发的一体化设计经验,并在2年时间里完成了6次产品OTA 升级。同时通过将感性的用户体验细化成为可衡量的指标,在各个细化的成本上不断做功。
为了提高用户体验,毫末此次又点亮了城市NOH六大功能,包括智能识别交通灯、智能左右转、智能躲避障碍物、智能变道和基于真实世界的智慧交通流处理。
为此,毫末联合阿里云、浙江德清发布了“中国首个基于车路协同云服务的大规模自动驾驶场景库”,这是中国第一个使用真实交通数据生成的自动驾驶场景库,让自动驾驶更像人类的驾驶方式。
其次,人工智能技术是灵魂,只有拥有支持大规模数据的处理能力,自动驾驶才能真正进入自我循环,自我迭代阶段。
毫末过去近2年打造的基于自动驾驶的数据智能体系MANA,就是在为此做准备,通过超算中心的建设,真正的让数据在大模型中完成自我训练和系统迭代升级。
过去我们都是用传感器感知和算法预测周围交通参与者的意图,当我们进入城市环境,发现交通参与者的活动变得更复杂了,预测的难度也更大了。此时如果每个传感器都独自工作,用一些小模型来做预测,显然是不能适应更复杂的城市交通的。
所以需要从大架构出发,在BEV 框架下的3D 空间重建一致性目标。和一般的Mask重建图片或者视频的训练目标相比,这种基于3D空间一致性的自监督训练能够更有效迫使模型理解道路场景的三维结构,从而更好的适应自动驾驶的各种感知任务需求。
最后,技术工程化能力是保障。
目前,毫末智行在过去的两年时间里,实现10余款不同平台车辆量产落地,成为国内智能驾驶技术落地经验最丰富的公司,也是中国唯一一个具备异步并行开发超过30 个智能驾驶项目能力的公司。
(毫末智行智能驾驶产品能力迭代铁三角)有入口、有灵魂、有保障,智能驾驶的产品能力才能够快速迭代。毫末判断,全球自动驾驶正在进入以特斯拉为代表的,数据驱动为核心的自动驾驶3.0时代,随着思想钢印和MANA能力的进化,加上独有的智能驾驶产品能力迭代铁三角,让毫末最有可能成为中国第一个进入自动驾驶3.0时代的自动驾驶公司。面对即将到来的3.0时代,毫末已经在几个核心难点上,包括数据处理成本,数据效率,大模型架构,自动驾驶可解释性和仿真等几方面更新了MANA体系。
在数据处理过程中,样本标注是一个时间成本和金钱成本都很高的环节。MANA通过使用大规模量产车无标注数据的自监督学习方法打造模型效果,相比只用少量标注样本训练,训练效果提升3 倍以上,可以让数据优势快速高效转化为模型效果。
同时为了应对巨大数据规模下的“数据效率”难题,MANA构建了增量式学习训练平台,抽取部分存量数据加上新数据组合成一个混合数据集。相比常规做法,整体算力节省80%,响应速度提升6 倍。
面对高精地图覆盖范围小的问题,MANA建立强感知的时空理解能力,通过使用时序的Transformer模型在BEV 空间上做了虚拟实时建图,让感知车道线的输出更加准确和稳定,可以在不依赖业界常用的高精地图的情况下,只依靠普通导航地图就可以准确感知道路环境。
自动驾驶算法可解释性也一直是个难点,毫末基于典型场景挖掘海量司机的实际驾驶行为,构建Task Prompt,训练一个基于时空Attention的驾驶决策预训练大模型,使得自动驾驶决策更像人类实际驾驶行为,以保证实现自动驾驶决策的可控、可解释。
为了解决仿真不够真的问题,MANA在仿真系统中引入了高价值的真实交通流场景,与阿里、德清政府合作,将路口这一城市最复杂场景引入仿真引擎,构建自动驾驶场景库,通过自动驾驶的真实仿真验证,快速提升自动驾驶系统的城市路口通过能力。
目前毫末的三大战役已经到了决战时刻,而先前的准备工作都已经做完,无论是大规模数据处理及大模型应用战役,还是大规模、多车型自动驾驶量产战役,末端物流自动配送车技术成本战役,毫末都已经万事具备,只等未来1-2年时间,毫末将他们全拿下,成为中国自动驾驶行业的领头羊。
-END-