9月 5 日上午,2024 Inclusion·外滩大会在上海黄浦世博园区开幕。作为具有全球影响力的金融科技和前沿科技大会,本届外滩大会邀请到500多位专家学者作为发言嘉宾前来分享前沿科技趋势,共同探索产业新机遇,进而搭建起国际交流平台。
商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚受邀出席并发表题为《激发AGI创造力 引领智能汽车驶向未来》的主题演讲,以商汤绝影的多模态座舱大脑、UniAD端到端自动驾驶方案和AI智能体为例,从人机交互的革新、生产效率的提升和打通与世界的连接三个维度,解读通用人工智能(AGI)给智能汽车产业带来的深刻变革。
以下为王晓刚在外滩大会的演讲实录:
各位嘉宾,下午好!我是商汤绝影的王晓刚,我们商汤绝影是聚焦在通用人工智能大模型,助力智能汽车向超级智能体演进的AI公司。我们看到通用人工智能大模型其实给各行各业都带来非常大的变化。它主要就体现在几个方面:
第一,带来了人机交互质的改变,特别是OpenAI今年发布的GPT-4o多模态大模型,同时我们也把语音、视频各种模态同时输入到多模态大模型当中,带来实时交互的体验。我们也是在7月份发布了“日日新5o”,把这种大模型部署进来。
第二,大幅度提升了生产效率的提升。最典型的案例是“端到端”的自动驾驶,传统基于规则的自动驾驶需要上千的算法工程师,通过数学规则解决大量的问题,大模型的出现可以依靠数据驱动,大幅度提升自动驾驶的效率和自动驾驶的体验。
第三,我们是AI的智能体。以前是人通过通讯连接,智能体的出现能够自己识别人类的意图,能够操纵各种软硬件,实现物理世界和数字世界的连接。
我们各种车内外的摄像头,可以观察到我们驾驶员和乘客的状态,让座椅通风等软硬件都可以有很好的交互。
同时,一个模型可以支撑10个语种,用中文、德语、日语进行交互的时候,自动有相应语言进行回应。另外,可以通过大模型自动生成界面。
在自动驾驶中,可以看到端到端的自动驾驶,我们是2022年在行业内第一个提出感知决策一体的自动驾驶方案(UniAD),在2023年得到CVPR的最佳论文奖,特斯拉在2023年宣布其量产方案是端到端。
在上海的临港城中村,可以只用7个摄像头,但没有激光雷达,没有高精度地图,是一个纯视觉的方案。我们可以看到,经过施工的路段以及各种不同类型的拓扑结构交通路口时,UniAD都能够像人类一样,进行自动驾驶。
我们也看到在城中村里头,没有车道线的时候,UniAD还是能够给车辆和行人避让。另外基于我们的多模态大模型,系统能够自动地去识别场景当中各种复杂的交通场景,就像人的大脑一样,做出各种的判断。例如后方救护车让行,向左变道。这就像人类,端到端自动驾驶就像人的小脑一样,多模态大模型就像人的大脑一样。
在智能体方面可以调用各种APP,比如晚上我们要去看足球赛,就要帮我去租一个餐厅,那就自动地到小红书上去查找各种评论和结果,到大众点评或者美团上进行预订,自主规划,完成我们人和世界的超感互联。
此外,我们也是“舱驾云“三位一体的模式,除了提供智能驾驶和座舱,还提供人工智能的基础设施,服务我们汽车行业。
谢谢大家!