谷歌惨遭截胡，多篇论文押中o1秘诀却被OpenAI抢先！

编辑：编辑部 HXZ

【新智元导读】昨天谷歌DeepMind首席科学家的推文，让不少人替谷歌扼腕叹息：明明o1的技术，谷歌已经连发多篇论文，最终为何还是被OpenAI截胡？大模型果然不存在护城河啊。

o1的发布，直接带OpenAI迈入新的台阶。

就在刚刚，Sam Altman自豪发文表示：虽然花了一些时间，但OpenAI已经实现了第三个目标！

值得一提，这篇2016年的博客文章，作者是Ilya Sutskever、Greg Brockman、Sam Altman和Elon Musk。

目标1：衡量我们的进展

目标2：打造一个家用机器人

目标3：构建一个具有实用自然语言理解能力的智能体

目标4：使用单一智能体解决多种游戏

八年后，OpenAI真的把目标3实现了。

o1模型为什么如此重要？用Fixie创始人、AI研究员Matt Welsh的话说，原因就在于，它将AI模型中的「思维链推理」能力带给了大众。

推理能力直接内置于模型中，无需借助额外工具就能达到类似效果。我预计这将大幅提高人们对AI模型能力的期望。

然而大家很快发现了「华点」：一旦向o1询问CoT过程，就会收到「封号」警告。

这是为什么？

众网友由此猜测：o1可能并不是一个新模型，而是更小的模型与gpt协同工作，亦或只是提示工程。

如果公布完整的思维链，可能就会有人根据模型在思考时产生的推理痕迹进行训练，从而得到更好的开源模型。

因此，OpenAI对o1的思考过程讳莫如深，藏得很好。

更绝的是，有人发现，o1背后的技术原理，谷歌也早就发现了。

遗憾的是，他们因速度太慢，再次被OpenAI截胡。

谷歌也发现了，但OpenAI更快

o1之所以在性能上实现碾压式飞跃，就是因为它首次在LLM中实现了强化学习和CoT，让LLM真正学会了思考。

但其实，谷歌DeepMind一篇8月发表的论文，就发现了测试时计算比扩展模型参数更有效。

这篇论文，恰恰揭示了o1的工作原理。

论文地址：https://arxiv.org/pdf/2408.03314v1

而早在今年1月，谷歌和斯坦福的研究者就在这篇ICLR 2024论文中提出，思维链赋能Transformer，能解决本质上的串行问题。

论文地址：https://arxiv.org/pdf/2402.12875

就在昨天，谷歌DeepMind首席科学家Denny Zhou发文表示：「LLM推理能力的极限是什么？天空才是极限」。

他cue到这篇论文，总结道：「我们已经用数学方法证明了，Transformer可以解决任何问题，只要允许它们根据需要生成任意数量的中间推理token。」

这篇论文的核心思想也是说，只要给够LLM时间，通过一系列中间推理token去思考，它就能解决全部问题。

可见，谷歌在技术原理上早已达到很先进的程度，但并没有切实落地到产品上，因此才一再被OpenAI截胡。

Abacusai CEO锐评道：谷歌的研究水平是顶尖的，但模型却是落后的。

而且，她还cue到了谷歌不为开发者所喜的Gemini，简直是太扎心了。

具体来说，谷歌DeepMind在8月的论文中提出，让LLM进行更多的「测试时计算」（test-time computation），对于构建能在开放语境下操作、能实现自我提升的agent，是关键的一步。

在这里，团队重点研究了扩展「推理期计算」（inference-time computation）这个问题。

团队分析了扩展测试时计算的两种主要机制：（1）针对密集的、基于过程的验证器奖励模型进行搜索；（2）根据测试时得到的提示词，自适应更新模型对响应的分布。

结果显示，在这两种情况下，对测试时计算的不同扩展方法的有效性，很大程度上取决于提示词的难度。

基于此，团队提出了一种「计算最优」扩展策略——通过为每个提示词自适应地分配测试时计算，使测试时计算的扩展的效率提高4倍以上。

另外，在FLOPs一致的评估中，对于那些较小的基础模型已取得一定程度非平凡成功率的问题，测试时计算可以使其超越规模大14倍的模型。

这就可以看出，对比o1模型，这篇研究的结论几乎是相同的。

5月的论文则表明，只要允许根据需要生成任意数量的中间推理token，Transformer可以解决任何问题，LLM的推理没有极限！

不难看出，Denny Zhou等人所提出的「中间推理token」，与o1的核心技术是何其相似。

要知道，传统的Transformer模型的致命弱点，就是擅长并行计算，但不擅长串行推理。

而CoT，恰恰解决了这个问题。

在本文中，研究者将Transformer的计算过程与电路模型类比。

他们借用电路复杂性理论，定义了CoT[T(n), d(n), s(n), e(n)]，其中O(T(n)) 表示 CoT 的执行步骤数，O(d(n)) 表示嵌入大小，O(e(n)) 表示指数部分的位数，O(s(n)) 表示有效位数。

传统的Transformer模型，只能解决AC0电路能解决的问题；但一旦加入CoT，Transformer几乎可以解决任何问题。

只要CoT步骤足够多，Transformer就能模拟任意大小的布尔电路，解决P/poly问题

也就是说，可以用数学严格证明，CoT可以让Transformer解决几乎所有能用计算机解决的问题。

利用CoT，可以模拟布尔电路中每个逻辑门的计算

在模运算、置换群组合、迭代平方和电路值问题上，都可以证实：CoT赋予了Transformer模拟任意电路的能力，从而能够解决电路值问题这个P完全问题。

正是这项工作证明，CoT为更强大的LLM推理提供了新的思路，CoT或将成为未来LLM发展的重要方向，而且很可能闪烁着AGI的火花。

OpenAI为什么要隐藏o1的「思维」？

显然，谷歌在相关技术上并没有落后，然而还是被OpenAI摘桃了。

而OpenAI的后续做法，也显得聪明很多。

很多人才猜测：一旦开发者能访问完整的CoT，那他们很快会训练和微调出具有相似性能的开源模型。

因此，OpenAI一直在严防死守，禁止用户看到o1的CoT过程。

The Information也专门发文，解释了OpenAI为何要隐藏推理模型的「思维」。

他们分析道，如今AI竞赛的竞争异常激烈，每个大型AI开发商都在密切关注着竞争对手，试图对对方的作品进行逆向分析或复制。

像OpenAI这样的领导者，该如何保持优势呢？

The Information总结道，OpenAI发布o1展示的方法就是——通过隐藏模型实际解决问题的方式。

从o1-preview博客文章中可以看出，模型的关键更新就是使用「内部思维链」，将问题分解成更简单的步骤，然后再解决。

然而，这一关键的工作过程，并不会向客户展示。

o1模型展示出来的，是一个「模型生产的思维链摘要」，也就是说，在客户看到之前，o1的思维过程是被完全不同的模型重新编写的。

为什么要这么做？

OpenAI的解释是，这样就可以仅限OpenAI员工来「读懂」模型的思维，了解其运作方式。

OpenAI不希望展示模型未经过滤的思想，因为指不定其中有什么不安全的想法。

此外，公司也希望可以监控模型，确保它不会产生不当行为，比如「操纵」用户。

而OpenAI没有明说的一个理由，当然就是保持自己的竞争优势了。

这也说明，如果不被过滤思维链，o1-preview的表现可能会更好。因为这样的话，用户就能根据模型的思考过程来完善他们的问题，获得更多信息。

The Information向OpenAI发出灵魂一问：你们能否在发布完整版o1之前找到一种方法，来减少隐藏思维链带来的性能下降呢？

现在，许多开发者表示，自己对o1隐藏的思维链感到很恼火，因为这可能会让他们为看不到的东西付费。

注意，OpenAI是根据模型处理和输出的token数量，向开发者收费的。

不过总的来说，在X上发帖的开发者中，大多数对o1-preview的评价都是积极的。

现在，o1在开发者中的良好反响，将谷歌等竞争对手的门槛再次提高了。

为什么OpenAI的新模型如此重要？

MIT科技评论则总结道：OpenAI的新模型o1之所以如此重要，正是因为首次它将AI模型中的思维链推理带给了大众。

作者James O'Donnell表示，到目前为止，LLM的大部分进展都是由语言驱动的。

这些LLM产生了能解释、分析和生成文字的聊天机器人或语音助手，但除了出现大量事实错误外，这些LLM还未能展示出解决药物发现、材料科学、编程或物理学等领域重要问题所需的技能。

但o1却进入了复杂推理领域。

可以说，o1的发布释放了这样一个信号：LLM将很快成为药物发现、材料科学、编程或物理学等领域人类研究者的得力助手。

大模型创业公司Fixie创始人、AI研究员Matt Welsh表示，这很重要，因为它将AI模型中的「思维链」推理带给了大众。

用他的话说就是：「推理能力直接内置于模型中，而不必使用单独的工具来实现类似的结果。我预计这将提高人们对AI模型能力的期望。」

当然，也有人对此论断泼冷水。

比如，伦敦帝国理工学院数学和计算机科学副教授Yves-Alexandre de Montjoye就提醒我们，最好对OpenAI将其与「人类水平技能」的比较持保留态度。

在他看来，很难对LLM和人类从头解决数学问题等任务的方式，进行有意义的比较。

还有AI研究者表示，如何正确衡量o1的推理能力，要比想象中更难。

如果它正确回答出了给定问题，就是因为它成功通过推理得出了答案吗？还是因为模型内置了足够的起始知识点，从而获得了帮助呢？

谷歌AI研究员François Chollet也表示：「o1在开放式推理上，仍然存在不足」。

另外，o1这种主动推理的模型，价格也并不便宜。

通过API使用o1的开发者，需要支付比GPT-4o高三倍的费用（o1每100万输入token收费15美元，而GPT-4o仅需5美元）。

最终James O'Donnell写道：在研究人员和实验室有机会、时间和预算来深入研究o1、找到其极限之前，我们还无法知晓它的突破。

但毫无疑问，这预示着一场超越人类推理能力的模型竞赛已拉开序幕。

AI开发者都在「嫌弃」谷歌Gemini？

而相比起发布了o1的OpenAI，明明有类似技术却被截胡了的谷歌，却显得节节退败。

最近The Information就发文一篇，总结了为什么谷歌Gemini为何会在广大开发者那里受冷遇。

不管是各种公开的基准测试，还是Lmsys竞技场，谷歌的Gemini系列一直都是不落下风，经常是和GPT、Claude并驾齐驱。

但奇怪的是，几乎没有第三方项目用到Gemini，这个名字除了出现在谷歌的产品中，其他场景下甚少见到。这背后是什么原因？

The Information采访了几位开发者和谷歌员工，他们表示：无他，就是用起来麻烦。

其中一位开发者Aidan McLaughlin是Topology的创始人，这家初创公司致力于开发软件以提升AI模型的推理能力。

他表示，第一次用OpenAI的API时只花了30秒，但用Gemini却花了4个小时。

「谷歌要求我设置云账户，还得弄一堆配置。更糟的是，谷歌系统的bug有时还逼我得倒回去重来。」

他还补充说，在AI领域，模型的能力是最重要的。如果这么麻烦的步骤能换来一个强得多的模型，那开发者们估计还是会趋之若鹜，爬也要爬过这些坎儿。

但实际情况显然不是这样的。除了一些极少数的特殊情况，谷歌的模型似乎只能排第三，跟在OpenAI和Anthropic的模型后面。

开发者怎么看

OpenAI、Anthropic和谷歌，这三家的模型在开发者心中究竟占据了何种地位？

企业软件创业公司Retool在6月对750多名技术工作者进行了一次调查，发现仅有2.6%的受访者表示最常使用Gemini来构建AI应用程序，Claude的占比更是只有2.3%。

相比之下76%的人使用OpenAI，是绝对的大头。

虽然Claude的份额不敌谷歌，但Retool表示，Claude的使用量自去年11月以来增长了四倍多。

追踪网站流量的Similarweb也给出了类似的结果。

从6月到8月，OpenAI的应用开发者页面获得了8280万次访问，而同期Google的页面的浏览量为840万。

此外，较小规模的轶事调查也提供了类似的证据。

上个月底，AI智能体初创Finetune的创始人Julian Saks询问了50名AI创业开发者，他们最常使用哪些对话式AI模型。

几乎所有人都表示，他们主要使用Anthropic或OpenAI的模型，没有人主要使用Gemini。

Saks对此并不感到惊讶，他表示，「我觉得在编码方面，Gemini不如其他模型。」

摸不着头脑

OpenAI在2022年底推出ChatGPT，2023年初推出GPT-4，在LLM和对话式AI领域可谓占尽先机。

相比之下，谷歌花了将近一年的时间，加上一次重大重组，才在2023年底推出了能与GPT-4掰手腕的Gemini，并向开发者开放访问权限。

Gemini的落后仅仅是由于GPT系列的先发优势吗？并不尽然。

虽然OpenAI的领先优势赢得了开发者圈中广泛的知名度，但后起之秀Anthropic在今年也同样迎来了爆发性的增长。开发者们纷纷热情推广Claude「平替」GPT，尤其是在代码辅助方面。

那么如何解释Gemini的遇冷？

开发者们最直观的吐槽，可能提供了事情的真相——Gemini虽然能力不差，但的确不好用。

去年12月，谷歌推出了AI Studio，旨在让开发者更容易使用Gemini；而 Vertex AI Studio则服务于大型企业的模型推广。

但这两种服务存在交叉，有时又相互矛盾，到底用哪个，就是很艰难的决定；而且提供的选项种类复杂、操作步骤多，让人摸不到头脑。

不仅如此，AI Studio还使用了与GPT和Claude不同的查询发送方法，但后两者却共享类似的格式，这就更难吸引开发者们转向Gemimi。

因此，经常可以在社交媒体和论坛上看到Gemini的吐槽帖，尤其是在推特上。

安全创业公司Xbow的AI研究员Brendan Dolan-Gavitt本月初的一条帖子就因此走红。

他详细描述了通过Vertex开始使用Gemini所需的繁琐步骤，引起了其他开发者的共鸣，很多人也纷纷加入吐槽大军。

有一句网友的总结，非常适合谷歌如今的境况：「当世界顶尖的工程师都在用OpenAI和Anthropic的模型时，你有什么资格让我们『去尝试别的东西』呢？」

参考资料：

https://www.theinformation.com/articles/why-openai-is-hiding-its-reasoning-models-thoughts

https://www.theinformation.com/articles/why-ai-developers-are-skipping-googles-gemini?rc=epv9gi

https://www.technologyreview.com/2024/09/17/1104004/why-openais-new-model-is-such-a-big-deal/

https://x.com/sama/status/1836178378673786923

玩酷网

谷歌惨遭截胡，多篇论文押中o1秘诀却被OpenAI抢先！

之槐看科技