出品:红色星际(ID:redplanx)头图:毫末智行“极致性价比”产品
毫末智行正在慢慢释放过去几年的积累。“之前对于毫末做的一些事情,总是有些看不懂,对于技术方面,毫末总是做得很高大上,但是实际落地却比较慢;对于量产方面,毫末的产品跨度也很大,总感觉中间有断层”,一位行业人士如此说道。
但是看完最近一期的毫末AI DAY,他对毫末的评价却发生了天翻地覆的改变,“毫末原来是在下一盘大棋,之前毫末智行可能更偏向于技术探索,数据智能化,但这次毫末已经开始下放一些云端大模型到车端;之前的产品感觉有断层,但这次毫末完全抓住了市场,整套硬件价格降至3000元级、5000元级、8000元级,毫末把“极致性价比”打在公屏上,更以“极致性价比” 全面满足高中低价位智驾车型量产需求”。之所以会发生完全不同的评价,用毫末智行CEO顾维灏的话说,“毫末一直坚持用数据驱动的方式来推动自动驾驶产品的升级。大模型、大数据、大算力,已经成为自动驾驶公司迈入3.0时代的关键标志,很庆幸,毫末从一开始就在为自动驾驶3.0时代作准备,在感知、认知、智算中心的建设上,毫末都是按照数据驱动的方式建设的”。
用毫末智行董事长张凯的话说,“毫末坚持在AI技术投入上的“长期主义”,坚持以终为始思考和打造毫末的自动驾驶路线”。
像毫末这样的创业型企业,唯有不断的技术创新,才能存活下来,持续发展。毫末也保持了自己的定力,并没有选择随波逐流,而是走了一条完全不同的道路。就如毫末智行信仰的三体一样,大家虽然在同一个战场,但可能是不同文明,不同维度的竞争,毫末选择了最高的那个维度。
1. 毫末快步踏入自动驾驶3.0时代2023年10月11日,第九期毫末AI DAY如期举行。3年时间举办了9次,毫末AI DAY已成为中国最受瞩目的自动驾驶AI技术交流的平台,甚至被评价为中国自动驾驶技术的旗帜。
“每次HAOMO AI DAY,我们都希望将毫末在自动驾驶技术上最前沿技术探索和当前实践分享给行业”,毫末智行CEO顾维灏讲道。
(毫末智行DriveGPT进化数据)据毫末智行介绍,截止到2023月10月,毫末数据智能体系MANA的学习时长超过103万小时,辅助驾驶产品HPilot整体搭载已超过20款车型,乘用车用户辅助驾驶行驶里程已经接近9000万公里,在中国自动驾驶公司中,毫末稳居中国量产自动驾驶第一名。搭载毫末高阶智驾的车型已经落地欧盟等地区和国家。
大模型DriveGPT自2023年4月发布至今的200天左右的时间里,已经筛选出了超过100亿帧互联网图片数据集,480万包含人驾行为的自动驾驶4D Clips,已有生态伙伴17家,助力生态伙伴提效90%。同时智算中心雪湖·绿洲(MANA OASIS)已经具备处理更大规模数据的能力,随着毫末产品落地规模的不断增长,毫末智驾数据迎来爆发式增长,预计将在2023年正式迈入自动驾驶3.0时代。
正如毫末CEO顾维灏所言,“以数据驱动为核心的自动驾驶3.0时代是毫末一直坚持的路线,从毫末成立至今,都没有变过。相比自动驾驶2.0时代,自动驾驶3.0时代开发模式和技术框架发生了颠覆性的变革,毫末认为自动驾驶演进终局模式是:云端和车端都将实现端到端自动驾驶”。
(自动驾驶3.0时代技术架构)自动驾驶3.0时代相比2.0时代,对感知和认知能力将有质的提升。
自动驾驶2.0时代主要以小数据、小模型为特征,以Case(任务)驱动为开发模式;自动驾驶3.0时代则以大数据、大模型、大算力为核心特征,以数据驱动为开发模式。
在小数据小模型2.0时代,基本都是通过多个小模型来解决自动驾驶问题。通常需要先发现一个问题,再基于这个问题的特征去采集一批数据,然后对这批数据进行人工标注,再基于人工标注的数据训练一个小模型,这样,这个小模型就具备解决这个特定问题的能力了。
现在业界基本上所有的自动驾驶公司都还处在2.0时代,它的优势是成本很低,效率很高,见效比较快,但是它也会带来两个致命的缺陷:一方面,只有问题暴露并确认之后,才能着手去解决问题,周期非常长,滞后性严重,导致整个自动驾驶的迭代在2.0时代一般需要几个月甚至更长的时间才会发布新一版模型;另一方面,这种面向特定问题的小模型,泛化性非常差,无法面对开放世界的无穷问题。
导致这个现象的因素很多,首先是成本问题,你要训练一个GPT大模型出来,至少需要几千张GPU卡,对于任何一个公司而言,这都很有压力;其次没有庞大的数据,这和智能驾驶搭载量密切相关;而且支持大模型的芯片到目前为止市面上并没有。这些都导致了现在2.0时代成为了主导。
3.0时代则和2.0时代在开发模式和技术框架上完全不同。3.0时代以大数据、大模型、大算力为核心特征,以数据驱动为开发模式。在感知阶段,通过海量数据来训练感知大模型,自我学习并认识客观世界的各种物体;在认知阶段,通过海量司机的驾驶行为数据和世界知识来训练认知大模型。
现在由于数据的原因,算法的原因,模型的原因等等,很多公司必须把一个非常复杂的大任务切换成很多个相对简单的任务。
各家公司有各家的选择,有的公司可以派几百辆、甚至更多的车辆在更多城市里面反复刷,把城市的数据补回来;有的公司则选择支付费用,使用他人开发好的模型。
但这几种方式都不太适合毫末,毫末希望通过大模型尽量控制成本,同时在低成本下达到我们想要的想过,归根结底,大家其实在PK模型泛化的速度。
如果未来想在城市领航辅助竞争中脱颖而出,一定是朝着大数据大模型方向走,这基本已经是行业共识了。虽然云端、车端在算力和一些客观硬件条件的限制上可能会有一些差异,但是整体技术范式是端到端的大模型。
3.0时代的端到端模型其实是一个更高维度的向量,正如毫末智行信仰的三体一样,毫末选择了更高维度的竞争。虽然很多公司使用2.0时代架构快速落地,获得了市场份额,但是智能驾驶比拼的是谁跑得久,跑得远,不是比谁短时间跑得快。
2. 引进外部大模型,持续提升DriveGPT感知认知能力在新的大数据大模型技术范式指导下,除了不断扩大数据规模,毫末智行分别在感知和认知上引进了开源大模型来增强DriveGPT的能力。
(DriveGPT感知和认知大模型)在原来单纯依赖车端数据和单独模型训练的范式上,引入外部多模态大模型以及语言大模型,使DriveGPT雪湖·海若的感知大模型与认知大模型全面升级,具备通用能力。
在感知模块,毫末智行引入外部多模态大模型,实现了文、图、视频多模态信息的整合,通过视觉特征跟文本特征做对齐,获得了识别万物的能力,毫末称之为自动驾驶语义感知大模型。
在认知模块,毫末引入外部大语言模型的海量知识来辅助给出驾驶决策。通过构建驾驶语言来描述驾驶环境和驾驶意图,让自动驾驶认知决策具备了世界知识,更好的优化驾驶策略。
因为大语言模型包含了人类世界所有知识的压缩,这将大幅度提升自动驾驶策略的可解释性和泛化性,更快的实现万物移动的目标。
毫末认为,未来自动驾驶系统一定跟人类驾驶员一样,不但具备对三维空间的精确感知测量能力,而且能够像人类一样理解万物之间的联系、事件发生的逻辑,并且能基于这些人类社会的经验来做出更好的驾驶策略,只有这样,消费者才愿意经常使用自动驾驶功能。
毫末在增强感知大模型和认知大模型的同时,也优化了视觉大模型。
早期的CV技术基本上都是以CNN类方法为主,但最近几年因为Transformer大模型在NLP领域取得巨大的成功,CV领域也大规模引入Transformer方法,以ViT为代表的视觉Transformer逐渐取代了各类CV模型。
(视觉大模型)从CNN到Transformer技术的转变,毫末从2021年就开始应用,目前比较领先。同时毫末在VIT基础上,又进一步级为Swin Transformer,使得CV backbone特征的表达和学习又有了一个很大的提升。
在训练范式上,毫末在业界率先升级到了基于大规模数据的自监督学习方法,通过这种方式, Transformer大模型能轻松吃下上百亿张图片,整体泛化能力也有了飞跃式的提升。
毫末DriveGPT雪湖·海若今年已经把感知大模型、认知大模型对接,构建起通用感知和通用认知能力。据毫末智行介绍,“云端大模型的实践和探索,我们一直在业界走的比较领先,现在正通过蒸馏的方式来提升车端小模型的能力。车端的架构虽然没有变,但是能力却大幅提升,就相当于一个老师傅在指导新手,告诉他应该怎么开。”
(感知大模型)关于未来端到端模式的猜想,毫末认为,未来云端和车端的数据量可能是不同的,云端可能是千亿参数,需要几千大卡才能训练出来;但车端的大模型,它的参数量可能只有一个亿。
除了打造自己的技术外,毫末更希望打造一个生态。
上一届毫末AI DAY,毫末对外开放了DriveGPT的自动标注能力,但上次开放的自动标注仅限于人工标注的十几类(与自动驾驶相关的),是一个封闭集。此次,DriveGPT有了检索开集的多模态大模型之后,大模型能力已经有了飞跃地提升。
据介绍,现在很多客户对毫末云端开集的检索能力、标注能力和数据生成的能力非常感兴趣的。毫末DriveGPT的云端能力也选择对外开放,合作伙伴可以通过使用API、模型的专项优化等等与毫末合作。到目前为止,毫末已经与17家生态伙伴合作,并且开始了模型服务商业化的新阶段。
3. 硬件“极致性价比” ,3000元级、5000元级、8000元级全覆盖除了分享AI技术外,毫末也在产品线上进行了补足。此次毫末AI DAY,重磅发布全新第二代共计三款HPilot乘用车辅助驾驶行泊一体产品,全面落地高速无图NOH、城市记忆行车与记忆泊车、城市全场景无图NOH。
整套硬件价格降至3000元级、5000元级、8000元级,以“极致性价比” 全面满足高中低价位智驾车型量产需求,抢占汽车主销市场。毫末的口号是“让中低阶智驾便宜更好用,让高阶智驾好用更便宜”,这也是毫末给中国如此“卷”的智驾市场交出的答卷。
据悉,这3款产品都会在今年和明年先后量产上车。
HP170产品定位为3000元级高速无图NOH,可实现高速、城市快速路上的无图NOH,短距离记忆泊车等功能,并获E-NCAP 5星AEB的高安全标准认证。硬件配置上,算力5TOPS,传感器方案标配1个前视相机、4个鱼眼相机、2个后角雷达、12个超声波雷达,灵活选装1个前视雷达和2个前角雷达。
(3000元级高速无图NOH方案)HP370产品定位为5000元级城市记忆行车与记忆泊车,可实现高速、城快以及城市内的记忆行车,免教学记忆泊车、智能绕障等功能。硬件配置上,算力32TOPS,传感器方案标配2个前视相机、2个侧视相机、1个后视相机、4鱼眼相机、1个前雷达、2个后角雷达、12个超声波雷达,灵活选装2个前角雷达。
(5000元级城市记忆行车与记忆泊车方案)据悉,HP370采用多源感知的BEV技术,可实现360度的无死角感知,目前毫末HP370已经完成了全部功能的开发,将于明年量产上车。
HP570产品定位为8000元级城市全场景无图NOH,未来将在100+城落地,可实现全场景城市无图NOH、全场景辅助泊车、全场景智能绕障、跨层免教学记忆泊车等功能。硬件配置上,算力可选72TOPS和100TOPS两款芯片,传感器方案标配2个前视相机、4个侧视相机、1个后视相机、4个鱼眼相机、1个前雷达、12个超声波雷达,还支持选配1颗激光雷达。
(8000元级城市全场景无图NOH方案)HP570作为HP550平台的进化版,成本可下降三分之二,在性能不打折的前提下,仅通过导航地图可实现无图城市NOH全场景覆盖,同时支持全场景泊车。之前毫末(HP550平台)HPilot3.0经过四轮次感知与认知技术的升级和量产准备,已经做到城市复杂交通场景的应对和拟人化的驾驶。
HP550产品将于2024年第一季度正式量产上市,搭载在魏牌蓝山下一代车型上。
毫末的这次产品发布,无论从市场定位,还是从价格上,判断都特别准,是对第一代产品质的提升。
毫末之前可能更多集中在苦练内功,打造低成本高效的数据闭环系统,但是这次三款产品的发布,预计将会在市场上掀起一波浪潮。目前市场急需的也正是这3个场景的产品,而且价格已经完全符合主机厂的预期。
(自动配送车小魔驼3.0)同时,售价89999元的毫末第三代末端物流自动配送车小魔驼3.0也首次亮相,可以满足在物流,商超、零售等9大场景的需求。从产品场景上看,毫末小魔驼的商超配送场景,可以最大限度的实现人机优势互补,在机器人擅长的地方替代人力,在人力擅长的地方人机交互,实现全局效率更高,成本更低。
据介绍,毫末宣布小魔驼即将在2023年第四季度在商超履约配送场景实现盈利。从商业意义上,毫末具备了成为全球范围内首家拥有规模化盈利 L4业务的公司。
结语成立近四年,毫末智行坚持第一性原理,坚持渐进式路线与对技术投入的长期主义,让毫末模式成为中国自动驾驶发展的新范式。
在自动驾驶3.0时代,大模型将重塑汽车智能化的技术路线,毫末一直以数据驱动的方式来推动自动驾驶产品的升级。目前毫末在大数据、大模型、大算力方面已经做好了准备,将成为最早进入自动驾驶3.0时代的自动驾驶公司。
在未来,毫末坚持超级智算中心的持续扩容与不断升级。同时结合毫末强大的工程化能力,推出“极致性价比”硬件产品,让中低阶智驾便宜更好用,让高阶智驾好用更便宜。
如毫末所言,像我们这样的创业型企业,唯有不断的技术创新,不断的产品创新,才能存活下来,持续发展。-END-