AI 在真理和正确性方面存在很大问题——而人类思维似乎是这个问题的重要组成部分。新一代 AI 现在开始采用一种更具实验性的方法,这可能会使机器学习超越人类。
还记得 Deepmind 的 AlphaGo 吗?它代表了 AI 开发的根本性突破,因为它是最早不需要人工指导、不阅读规则的游戏 AI 之一。
相反,它使用了一种称为自博强化学习的技术来建立自己对比赛的理解。在数百万甚至数十亿个虚拟游戏中进行纯粹的试错,或多或少地随机拉动任何可用的杠杆,并试图从结果中学习。
在2014年项目启动后的两年内,AlphaGo 以 5-0 击败了欧洲围棋冠军——到 2017 年,它已经击败了世界排名 #1 的人类棋手。
此时,Deepmind 在国际象棋界推出了类似的 AlphaZero 模型,像 Deep Blue 这样的模型,经过人类思维、知识和规则集的训练,自 90 年代以来一直在击败人类特级大师。AlphaZero 与卫冕 AI 冠军 Stockfish 进行了 100 场比赛,赢得了 28 场,其余的都打平了。
人类思维阻碍了 AI
Deepmind 开始主导这些游戏——以及 shoji、Dota 2、星际争霸 II 和许多其他游戏——当时它抛弃了模仿人类是获得好结果的最佳方式的想法。
这些电子思维受到与我们不同的限制,并被赋予了不同的才能,他们被赋予了自由,可以按照自己的方式与事物互动,发挥自己的认知优势,并建立自己对什么有效、什么无效的从头开始的理解。
AlphaZero 不像 Magnus Carlssen 那样懂国际象棋。他们从未听说过 Queen's Gambit,也从未研究过伟大的特级大师。它只是下了一大堆棋,用一种不人道、高深莫测的语言,用一种不人道、高深莫测的语言,在输赢的冷酷逻辑中建立了自己的理解。
因此,它比任何由人类训练的模型都要好得多,因此绝对可以肯定:如果另一边有高级强化学习代理,那么任何人类和任何以人类思维训练的模型都不会再有机会参加国际象棋比赛。
根据比地球上任何其他人都更了解真相的人的说法,类似的事情就是最新、最伟大的 ChatGPT 版本刚刚开始发生的事情。
OpenAI 的新 o1 模型开始与人类思维背道而驰
ChatGPT 和其他大型语言模型 (LLM) AI,就像那些早期的国际象棋 AI 一样,已经接受了尽可能多的人类知识的训练:我们物种的整个书面输出,或多或少。
他们已经变得非常非常好。所有这些关于他们是否会实现通用人工智能的争论......真是太悲哀了,你能想象一个人类可以在其能力上与 GPT-4o 竞争吗?
但 LLM 专注于语言,而不是让事实正确或错误。这就是为什么他们 “幻觉” – 或 BS – 用优美的句子给你错误的信息,听起来像新闻主播一样自信。
语言是一组奇怪的灰色地带,很少有 100% 正确或错误的答案——因此 LLM 通常使用带有人工反馈的强化学习进行训练。也就是说,人类选择听起来更接近他们想要的答案类型的答案。但是事实、考试和编码——这些东西确实有明确的成功/失败条件;要么你做对了,要么你没做。
这就是新的 o1 模型开始脱离人类思维并开始引入那种非常有效的 AlphaGo 方法,即纯粹的试错法,以追求正确的结果。
O1 的婴儿步入强化学习
在许多方面,o1 与其前辈几乎相同——除了 OpenAI 在开始回答提示之前内置了一些“思考时间”。在这段思考时间里,o1 会产生一个“思维链”,在其中思考和推理解决问题的方法。
这就是 RL 方法的用武之地——o1 与以前的模型不同,这些模型更像是世界上最先进的自动完成系统,它真正“关心”它是否正确。通过部分训练,该模型可以自由地在其思维链推理中使用随机试错方法解决问题。
它仍然只有人类生成的推理步骤可供借鉴,但可以自由地随机应用它们,并得出自己的结论,即哪些步骤、顺序最有可能使其获得正确答案。
从这个意义上说,它是第一个真正开始创造那种奇怪但超级有效的 AlphaGo 式问题空间“理解”的 LLM。在它现在超越博士级能力和知识的领域,它基本上是通过反复试验,通过数百万次自我生成的尝试偶然获得正确答案,以及通过建立自己的理论来判断什么是有用的推理步骤,什么不是。
因此,在有明确正确和错误答案的话题中,我们现在开始看到这种外星智能用自己的双脚迈出了超越我们的第一步。如果游戏世界是现实生活的一个很好的类比,那么朋友们,我们知道事情会从这里走向何方。如果有足够的能量,这是一款可以永远加速的短跑运动员。
但 o1 仍然主要接受人类语言的训练。这与真理截然不同——语言是对现实的粗略和低分辨率的表示。这么说吧:你可以整天向我描述一块饼干,但我不会尝过它。
那么,当你停止描述物理世界的真相,让 AI 去吃点饼干时会发生什么呢?我们很快就会开始发现,因为嵌入机器人体内的 AI 现在开始构建自己对物理世界如何运作的初步理解。
AI 通往终极真理的途径
摆脱了牛顿、爱因斯坦和霍金的粗俗人类沉思,具身 AI 将采用一种奇异的 AlphaGo 式方法来理解世界。他们会戳戳现实,观察结果,并用自己的语言建立自己的理论,关于什么有效,什么无效,以及为什么。
他们不会像人类或动物那样接近现实。他们不会使用像我们这样的科学方法,也不会将事物分成物理和化学等学科,也不会进行帮助人类掌握周围材料、力量和能源并主宰世界的相同类型的实验。
赋予像这样学习自由的体现 AI 将非常奇怪。他们会做你能想到的最离奇的事情,原因只有他们自己知道,在此过程中,他们将创造和发现人类永远无法拼凑的新知识。
摆脱了我们的语言和思维的束缚,他们甚至不会注意到他们何时突破了我们的知识界限,发现了人类在十亿年内不会偶然发现的宇宙和新技术的真相。
我们在这里得到了一些缓和;这不会像 LLM 世界中发生的许多事情那样在几天或几周内发生。
现实是我们所知道的分辨率最高的系统,也是真相的最终来源。但它的数量非常多,而且使用起来也非常缓慢;与模拟不同,现实要求您以每分钟 1 分钟的速度缓慢运行,并且您只能使用您实际构建的物体数量。
因此,试图从基本现实中学习的具身 AI 最初不会拥有其基于语言的祖先的狂野速度优势。但它们仍然会比进化快得多,有能力在群体学习中将他们的学习成果在合作组之间汇集。
特斯拉、Figure 和 Sanctuary AI 等公司正在全力以赴地构建类人机器人,使其达到商业上有用且与人类劳动力相比具有成本竞争力的标准。一旦他们实现了这一目标,他们将能够构建足够的机器人,开始大规模、快速地对物理世界进行彻底的试错理解。
不过,他们需要付钱。想想很有趣,但这些类人生物可能会在下班的休息时间学会掌握宇宙。
为这些相当深奥和推测的想法道歉,但当我不断发现自己在说,活着是多么美好的时刻啊!
OpenAI 的 o1 模型可能看起来不像是一个巨大的飞跃,它穿着 GPT 单调的文本服装坐在那里,看起来只是另一个隐形的终端打字员。但这确实是人工智能发展的一次重大变化,也是对这些外星机器最终将如何以各种可能的方式超越人类的短暂一瞥。
现在有🔨的AI
通往终极真理的路如果没有人类,那不要也罢!