AI圈“地震”:深度学习奠基人,“叛逃”大语言模型,回归现实

老胡懂点星 2025-04-23 15:48:33

刚刚在GTC 2025大会上,深度学习的奠基人之一,Yan LeCun说:“我对大语言模型已经不感兴趣了。”

整个AI行业还沉迷在语言模型叠罗汉,训练参数、算力、数据全都往一个桶里倒,希望能从中“涌现”出通用智能。但问题很早就暴露了:这种方式只是让系统越来越会说话,却没有任何真正“理解世界”的能力。

最大的问题是,大语言模型处理的是离散符号,把所有现实压缩成词和句子的组合,再试图在其中预测下一个符号。

但现实不是文本,不是token。现实是物理的,是连续的,是高维的,是充满不确定性、偶然性和因果链的结构体。

语言建模的思路,本质是猜测,而不是推理;是模仿,而不是理解。预测下一个词不是计划行动。更不是理解因果。

而人类的核心能力,从来不是说话,而是处理物理世界。比如看到一个杯子,立刻知道往哪边推它会翻,怎么使劲它会破,哪种方式能让它稳定站立。这不是语言系统决定的,是人脑中的物理模型——所谓的“世界模型”。

刚出生几个月,婴儿就会通过观察构建世界模型。大语言模型,却永远只是在语言内部兜圈子。

所以,思路必须改:不要从文本出发,而是从视频出发,从物理世界中学习。不是预测每一个像素,而是在抽象空间中学习事物的演化规律。这就是“联合嵌套预测架构”的目标。

一种新的模型,不去还原原始图像,不生成每一帧视频,而是在一个抽象表征空间中训练,让系统掌握对世界变化的可预测性。

比如一个模型观看一段视频,可以知道某个动作是否违反物理规律;可以判断接下来可能发生的变化;可以发现突兀事件并定位异常。系统在这个空间里推理、判断、计划,而不是在语言符号中兜圈子。

语言模型做不到这一步,因为语言模型的单位是“词”。词是离散集合,最多只能穷举预测。而现实是连续空间,根本没法“枚举”。

而且有更根本的限制:语言模型是在消耗已有文本数据。现在最强的模型已经训练了大约30万亿token,相当于人类阅读40万年才能完成的文字量。

而一个4岁小孩,只需要靠16,000小时的视觉输入,就能完成世界建模——输入数据总量也差不多是10的14次方字节。

效率和结构的差异,决定了两条路线的终点也完全不同。

人类认知系统中,有两个系统:快速、直觉、无需思考的系统一,以及缓慢、计划、能处理新任务的系统二。

现在的语言模型,仅靠系统一实现文本模仿,还远远无法进入系统二。

新的模型路线,目标就是构建具备系统二能力的结构。不是通过暴力喂数据,而是让模型拥有一个可以反复使用的世界模型,可以在抽象空间中模拟未来,做出决策,执行计划。

比如,一个模型看到一个立方体旋转90度,不需要语言描述,也能在脑中完成建模和操作。这种能力,猫有,小孩有,但大语言模型没有。

因为语言不是人类智能的基础。真正的智能,是构建抽象模型、预测现实变化、基于当前状态做出计划并调整行为。

语言,只是表达手段,不是推理机制。所以,下一代人工智能,不是堆积更多文本数据,而是构建更好的世界模型。不是从token预测出发,而是从因果结构出发。不是模拟语言能力,而是模拟人类的感知、记忆、思考和行为。

语言模型这条路线,已经接近极限。真正的突破口,在于构建具有系统二能力的结构性模型——能够理解世界、预测未来、规划行动、执行任务。

不是问“它能说出什么”,而是问“它能理解什么”。

0 阅读:0

老胡懂点星

简介:感谢大家的关注