OpenAI推出新的“推理”AI模型：o1-preview和o1-mini

OpenAI推出新的“推理”AI模型：o1-preview和o1-mini新的o1语言模型可以迭代地解决复杂任务，比如数“strawberry”中的R。

OpenAI于周四终于揭晓了其传闻中的“Strawberry”AI语言模型，声称在“推理”和问题解决能力方面相比以前的大型语言模型（LLM）有显著提升。正式命名为“OpenAI o1”，这个模型系列将首先以两种形式推出，即o1-preview和o1-mini，今天起对ChatGPT Plus用户和某些API用户开放。

OpenAI声称，o1-preview在多个基准测试中优于其前身GPT-4o，包括竞争性编程、数学和“科学推理”。

然而，使用过该模型的人表示，它在每个指标上仍未能超越GPT-4o。其他用户批评模型响应延迟，原因是查询前后台进行的多步骤处理。在一次罕见的公开降温中，OpenAI产品经理Joanne Jang在推特上表示：“我的动态里有很多关于o1的炒作，所以我担心这会设定错误的期望。

o1是什么：第一个在非常困难的任务中表现出色的推理模型，而且它只会变得更好。（我个人对这个模型的潜力和轨迹感到兴奋！）o1还不是什么：一个在每个方面都优于之前模型的奇迹模型。

今天的发布如果是你对它的期望，你可能会失望——但我们正在努力达到这一点！”OpenAI报告称，o1-preview在Codeforces的竞争性编程问题中排名第89百分位。在数学方面，它在国际数学奥林匹克（IMO）的预选考试中得分83%，而GPT-4o得分为13%。

OpenAI还声称，o1在某些物理、化学和生物学任务中的表现与博士生相当，这一主张可能会在用户逐步验证和评估的过程中受到挑战。较小的o1-mini模型专为编码任务设计，价格比o1-preview低80%。OpenAI将o1的进步归功于一种新的强化学习（RL）训练方法，这种方法教模型在响应之前花更多时间“思考”问题，类似于在其他LLM中使用“让我们逐步思考”链式思维提示可以改进输出。

这个新过程允许o1尝试不同的策略并“识别”自己的错误。AI基准测试因其不可靠性和易于操纵而臭名昭著；然而，用户的独立验证和实验会逐渐揭示o1的全部进步。今年早些时候，MIT Research显示OpenAI去年与GPT-4相关的一些基准测试主张是错误或夸大的，值得注意。

多元化的能力在OpenAI在其网站和社交媒体上分享的众多o1完成编程任务和解决逻辑难题的演示视频中，有一个演示可能是最不重要和最不令人印象深刻的，但可能会因为一个反复出现的模因而成为最受关注的，即人们要求LLM计算“strawberry”这个词中R的数量。

由于tokenization（标记化），即LLM在数据块中处理单词，这些数据块称为tokens，大多数LLM通常对单词的字符差异视而不见。显然，o1具有自我反思能力，可以算出字母的数量并提供准确答案，而无需用户协助。

除了OpenAI的演示外，我们还在网上看到了关于o1-preview的乐观但谨慎的动手报告。沃顿教授Ethan Mollick在X上写道：“过去一个月一直在使用GPT-4o1。它很有趣——并不是所有事情都做得更好，但在解决一些非常困难的LLM问题上表现出色。这也表明未来有很大的提升空间。”

Mollick在他的“One Useful Thing”博客中分享了一篇动手文章，详细介绍了他对新模型的实验。“明确地说，o1-preview并不是所有事情都做得更好。比如，它并不是比GPT-4o的写作更好。但在需要规划的任务上，变化相当大。”Mollick举了一个例子，要求o1-preview构建一个使用多个代理和生成AI的教学模拟器，受以下论文的启发，并考虑教师和学生的观点，然后要求它构建完整的代码，结果让Mollick印象深刻。

Mollick还给了o1-preview八个交叉谜题线索，翻译成文本后，模型在许多步骤中花了108秒解决了这些问题，所有答案都正确，但对他没给出的特定线索进行了误答。我们建议阅读Mollick的整篇文章，以获得一个好的早期动手印象。

根据他对新模型的体验，o1似乎非常类似于GPT-4o，但在一个循环中迭代运行，这与所谓的“代理式”AutoGPT和BabyAGI项目在2023年初实验的方式类似。

这就是可能“威胁人类”的东西吗？说到在循环中运行的代理模型，自去年11月首次以Q*（Q星）命名以来，Strawberry一直是炒作的对象。当时，《信息》和路透社声称，就在萨姆·阿尔特曼短暂被解职为CEO之前，OpenAI员工曾内部警告OpenAI董事会关于一个名为Q*的新模型，可能“威胁人类”。

八月份，当《信息》报道OpenAI向美国国家安全官员展示Strawberry时，炒作继续。自谣言首次出现以来，我们一直对Q和Strawberry的炒作持怀疑态度，这位作者去年11月提到过这一点，蒂莫西·B·李在去年12月的一篇关于Q的优秀文章中也详细讨论了这一点。

所以，即使o1已经推出，AI行业观察者应该注意到，这个模型的即将推出在媒体上被渲染成一个危险的进步，而在公开场合OpenAI并没有淡化其重要性。对于一个需要108秒解决八个交叉谜题线索并虚构一个答案的AI模型来说，我们可以说其潜在危险可能只是炒作（目前为止）。

关于“推理”术语的争议众所周知，一些科技人士对将AI模型拟人化并使用诸如“思考”或“推理”来描述这些神经网络系统执行的合成和处理操作有意见。在OpenAI o1宣布后，Hugging Face的CEO Clement Delangue写道：“再一次，一个AI系统不是‘思考’，它是在‘处理’，‘运行预测’……就像Google或计算机一样。

给人一种技术系统是人类的错误印象只是廉价的蛇油和营销，欺骗你以为它比实际更聪明。”“推理”也是一个有些模糊的术语，因为即使在人类中，也很难准确定义这个术语的含义。

在宣布前几小时，独立AI研究员Simon Willison在回应彭博社关于Strawberry的报道时发推文称：“我仍然很难定义‘推理’在LLM能力中的含义。我有兴趣找到一个在当前模型上失败但在Strawberry上成功的提示，以帮助展示该术语的含义。”无论是否存在推理，o1-preview目前缺乏早期模型中存在的一些功能，如网页浏览、图像生成和文件上传。

OpenAI计划在未来更新中添加这些功能，并继续开发o1和GPT模型系列。虽然OpenAI表示o1-preview和o1-mini模型今天开始推出，但在我们的ChatGPT Plus界面中尚未可用，因此我们尚未能够评估它们。我们将报告我们对该模型与我们之前覆盖的其他LLM的不同之处的印象。

玩酷网

OpenAI推出新的“推理”AI模型：o1-preview和o1-mini

黑客部落