人工智能,只做一件事情,疯狂地在高维空间里,做模式拟合

老胡懂点星 2025-04-16 03:00:53

我们的大脑靠数百万年的进化识别自然界的模式,而机器只不过用另一套数学方式,复刻这种从数据中抽象出结构的本能。

关键不在“类人”,而在数学。

机器学习之所以能跑起来,不是因为它“聪明”,而是因为有一整套底层数学在背后撑着。线性代数、概率论、优化理论和微积分,是现代AI的骨骼。你只要能掌握这些,就能看懂深度学习到底在做什么——它只是疯狂地在做高维空间里的模式拟合。

深度神经网络不在意“懂不懂”,它只在意“像不像”。预测句子的下一个词,不是“理解”,而是根据统计分布猜最大可能性。所谓“幻觉”,根本不是例外,而是默认工作机制。

传统统计告诉你,模型复杂度太高、参数太多,会陷入高方差区间,泛化能力下降。但GPT这类网络偏偏就是参数过亿级,训练数据不到位也能压测试误差。它不是“不该”这么做,而是已经这么做了。这就是“Double Descent”现象——传统机器学习的经验曲线断裂,而新模型的第二次下降,没人说得清为什么。有专家称之为未知领域。

你以为大模型能力是逐步成长的,其实很多时候是突然间“学会了”。这就是所谓的“涌现”:GPT-2答不出来的问题,GPT-3突然就能答了。架构没变,算法没改,就是体量上去了,效果就跳跃了。

别把GPT当会推理的脑子,它本质上只是一个异常高效的相似度引擎。它看过的例子太多,找到相似的上下文太快。你觉得它在“推理”,其实它只是在做高维空间的向量匹配。所有的“智能”幻觉,都来自我们对输出结果的过度解读。

这不等于它没用。

相反,正是因为机器只做模式识别,它才可以规模化。不需要人类打标签的“自监督学习”,才是革命性的拐点。把句子挖掉一词、图像遮掉一角,让模型自己去填补,并根据差异调参。这就是机器学会“自己喂自己”的起点,不再靠人类指手画脚。

为什么这么有效?可能是因为SGD(随机梯度下降)不仅是优化算法,还是一种隐式的正则器,让模型学会“足够复杂但不过拟合”的策略。但具体怎么做到的,没人能讲明白。

现代机器学习的很多核心机制,本质上还是“经验优于理论”。

你看到的是能用,背后是理论解释追着跑。

就连最基础的KNN算法也如此简单粗暴:把数据向量化丢进高维空间,比邻近谁多就算谁。但一旦维度升高到极限——所谓“维度诅咒”——所有点都等距(无限维),距离失效,模型崩溃。你不能再靠直觉理解算法表现,因为直觉本来就来自低维经验。

但数学能带你穿越这些直觉盲区。你以为的AI新革命,很多是60年前就想过的东西。只不过当时缺三样:大数据、大算力、大耐心。

ImageNet提供了海量图像;GPU提供了并行训练;自监督学习提供了免标签手段。这三者一起点燃了当代AI的全新引擎。

但这不代表我们就明白它了。

我们甚至不知道深度模型到底学到了什么。我们只知道它的泛化能力好得不像话,理论解释却不在手里。最直观的例子,是现在的Transformer类架构能模拟出“某种形式”的推理能力,比如你问它一个关于Alice和Bob的“心智理论”问题,它答得头头是道。但一改题干,立刻崩溃。

它只是在统计上知道类似场景的高频回答是什么。

所以你说它“理解”吗?这完全取决于你怎么定义“理解”。你要是定义成能做题,那它理解。你要是定义成知道自己为什么这么做,它一点都不理解。

而我们对“智能”的定义,也一直在迁就它的表现。

人觉得自己有自由意志,是因为神经系统会预先预测自己行为的后果,然后再感知到时发现预测匹配,这才“归因”于自己。而这套系统在精神病人、精神分裂症患者身上是会失效的。所以,哪怕你能给AI构建一个预测—比较—归因机制,也未必等于它“感到”有agency。

所有这些都说明一个更冷静的事实:机器不是我们,也不需要变成我们。

它们的学习,不是为了“成为人”,而是为了高效识别、泛化、生成。当我们硬要用人类思维模式去套AI,就会误判它的能力,也会误解它的风险。AI偏见来自训练数据,它不会“自动纠偏”;AI“认知”来自结构,不是“思维”。

我们离通用人工智能还有距离,但离AI统治输入输出的认知模式,已经越来越近。

而理解这些结构,唯有数学。

0 阅读:0

老胡懂点星

简介:感谢大家的关注