OpenAI推出新的“推理”AI模型:o1-preview和o1-mini

黑客部落 2024-09-13 18:09:00

OpenAI推出新的“推理”AI模型:o1-preview和o1-mini新的o1语言模型可以迭代地解决复杂任务,比如数“strawberry”中的R。

OpenAI于周四终于揭晓了其传闻中的“Strawberry”AI语言模型,声称在“推理”和问题解决能力方面相比以前的大型语言模型(LLM)有显著提升。正式命名为“OpenAI o1”,这个模型系列将首先以两种形式推出,即o1-preview和o1-mini,今天起对ChatGPT Plus用户和某些API用户开放。

OpenAI声称,o1-preview在多个基准测试中优于其前身GPT-4o,包括竞争性编程、数学和“科学推理”。

然而,使用过该模型的人表示,它在每个指标上仍未能超越GPT-4o。其他用户批评模型响应延迟,原因是查询前后台进行的多步骤处理。在一次罕见的公开降温中,OpenAI产品经理Joanne Jang在推特上表示:“我的动态里有很多关于o1的炒作,所以我担心这会设定错误的期望。

o1是什么:第一个在非常困难的任务中表现出色的推理模型,而且它只会变得更好。(我个人对这个模型的潜力和轨迹感到兴奋!)o1还不是什么:一个在每个方面都优于之前模型的奇迹模型。

今天的发布如果是你对它的期望,你可能会失望——但我们正在努力达到这一点!”OpenAI报告称,o1-preview在Codeforces的竞争性编程问题中排名第89百分位。在数学方面,它在国际数学奥林匹克(IMO)的预选考试中得分83%,而GPT-4o得分为13%。

OpenAI还声称,o1在某些物理、化学和生物学任务中的表现与博士生相当,这一主张可能会在用户逐步验证和评估的过程中受到挑战。较小的o1-mini模型专为编码任务设计,价格比o1-preview低80%。OpenAI将o1的进步归功于一种新的强化学习(RL)训练方法,这种方法教模型在响应之前花更多时间“思考”问题,类似于在其他LLM中使用“让我们逐步思考”链式思维提示可以改进输出。

这个新过程允许o1尝试不同的策略并“识别”自己的错误。AI基准测试因其不可靠性和易于操纵而臭名昭著;然而,用户的独立验证和实验会逐渐揭示o1的全部进步。今年早些时候,MIT Research显示OpenAI去年与GPT-4相关的一些基准测试主张是错误或夸大的,值得注意。

多元化的能力 在OpenAI在其网站和社交媒体上分享的众多o1完成编程任务和解决逻辑难题的演示视频中,有一个演示可能是最不重要和最不令人印象深刻的,但可能会因为一个反复出现的模因而成为最受关注的,即人们要求LLM计算“strawberry”这个词中R的数量。

由于tokenization(标记化),即LLM在数据块中处理单词,这些数据块称为tokens,大多数LLM通常对单词的字符差异视而不见。显然,o1具有自我反思能力,可以算出字母的数量并提供准确答案,而无需用户协助。

除了OpenAI的演示外,我们还在网上看到了关于o1-preview的乐观但谨慎的动手报告。沃顿教授Ethan Mollick在X上写道:“过去一个月一直在使用GPT-4o1。它很有趣——并不是所有事情都做得更好,但在解决一些非常困难的LLM问题上表现出色。这也表明未来有很大的提升空间。”

Mollick在他的“One Useful Thing”博客中分享了一篇动手文章,详细介绍了他对新模型的实验。“明确地说,o1-preview并不是所有事情都做得更好。比如,它并不是比GPT-4o的写作更好。但在需要规划的任务上,变化相当大。”Mollick举了一个例子,要求o1-preview构建一个使用多个代理和生成AI的教学模拟器,受以下论文的启发,并考虑教师和学生的观点,然后要求它构建完整的代码,结果让Mollick印象深刻。

Mollick还给了o1-preview八个交叉谜题线索,翻译成文本后,模型在许多步骤中花了108秒解决了这些问题,所有答案都正确,但对他没给出的特定线索进行了误答。我们建议阅读Mollick的整篇文章,以获得一个好的早期动手印象。

根据他对新模型的体验,o1似乎非常类似于GPT-4o,但在一个循环中迭代运行,这与所谓的“代理式”AutoGPT和BabyAGI项目在2023年初实验的方式类似。

这就是可能“威胁人类”的东西吗?说到在循环中运行的代理模型,自去年11月首次以Q*(Q星)命名以来,Strawberry一直是炒作的对象。当时,《信息》和路透社声称,就在萨姆·阿尔特曼短暂被解职为CEO之前,OpenAI员工曾内部警告OpenAI董事会关于一个名为Q*的新模型,可能“威胁人类”。

八月份,当《信息》报道OpenAI向美国国家安全官员展示Strawberry时,炒作继续。自谣言首次出现以来,我们一直对Q和Strawberry的炒作持怀疑态度,这位作者去年11月提到过这一点,蒂莫西·B·李在去年12月的一篇关于Q的优秀文章中也详细讨论了这一点。

所以,即使o1已经推出,AI行业观察者应该注意到,这个模型的即将推出在媒体上被渲染成一个危险的进步,而在公开场合OpenAI并没有淡化其重要性。对于一个需要108秒解决八个交叉谜题线索并虚构一个答案的AI模型来说,我们可以说其潜在危险可能只是炒作(目前为止)。

关于“推理”术语的争议 众所周知,一些科技人士对将AI模型拟人化并使用诸如“思考”或“推理”来描述这些神经网络系统执行的合成和处理操作有意见。在OpenAI o1宣布后,Hugging Face的CEO Clement Delangue写道:“再一次,一个AI系统不是‘思考’,它是在‘处理’,‘运行预测’……就像Google或计算机一样。

给人一种技术系统是人类的错误印象只是廉价的蛇油和营销,欺骗你以为它比实际更聪明。”“推理”也是一个有些模糊的术语,因为即使在人类中,也很难准确定义这个术语的含义。

在宣布前几小时,独立AI研究员Simon Willison在回应彭博社关于Strawberry的报道时发推文称:“我仍然很难定义‘推理’在LLM能力中的含义。我有兴趣找到一个在当前模型上失败但在Strawberry上成功的提示,以帮助展示该术语的含义。”无论是否存在推理,o1-preview目前缺乏早期模型中存在的一些功能,如网页浏览、图像生成和文件上传。

OpenAI计划在未来更新中添加这些功能,并继续开发o1和GPT模型系列。虽然OpenAI表示o1-preview和o1-mini模型今天开始推出,但在我们的ChatGPT Plus界面中尚未可用,因此我们尚未能够评估它们。我们将报告我们对该模型与我们之前覆盖的其他LLM的不同之处的印象。

0 阅读:4

黑客部落

简介:计算机安全技术分享,网络安全攻防技术分享