OpenAI再扔出“王炸”！全新推理模型可达人类博士水平

9月12日，OpenAI宣布将推出一系列用于解决难题的全新推理模型，该系列的第一个模型名为OpenAI o1，其预览版即日起开始使用。

OpenAI表示，与之前推出模型相比，o1模型可以推理复杂的任务，解决比以前的科学、编码和数学模型更难的问题。

“这些模型花更多时间思考问题，然后再做出反应，就像人类一样。”OpenAI介绍道，“通过训练，它们学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误。”

o1模型有多强大？

o1模型有多厉害呢，该模型在编程能力比赛Codeforces中拿到89%百分位的成绩，在2024美国数学邀请赛（American Invitational Mathematics Examinatio，AIME）预选赛中获得83.3%的准确率，跻身美国前500名学生之列。

相比之下，GPT-4o在Codeforces仅拿到11%百分位的成绩，在AIME中的准确率只有13.4%。

此外，在一个研究生级别的谷歌问答基准测试——GPQA（Grade School Physics Question Answering）中，o1模型的表现也十分惊人。GPQA是一个具有挑战性的数据集，包含数百道生物学、物理学和化学领域专家编写的多项选择题。

通常来说，在相应领域拥有或正在攻读博士学位的专家在GPQA的准确率在70%上下，而o1模型在该测试中达到了78%的准确率，也就是说，o1模型已经达到人类博士生的水平。

除了上述这些高难度的测试，在一些广泛的基准测试中，o1模型的表现也要比GPT-4o好。比如在大规模多任务语言理解（MMLU）测试的57个子类别中，o1模型有54个子类别胜过GPT-4o。

得益于o1模型更强大的推理能力，其对编码和数学等推理能力较强的问题上的回答也更好。

OpenAI表示，在一项人类偏好评估中，对于o1-preview和GPT-4o提供的匿名回答，人类训练师更喜欢o1预览版的回答，特别是在数据分析、编码和数学等推理能力较强的类别中，o1预览版的受欢迎程度远远高于gpt-4o。不过，o1预览版在某些自然语言任务上表现略为逊色，这表明该模型并不适合所有的使用情况。

更强，也更贵

作为一个针对需要广泛常识的复杂任务而设计的新推理模型，o1模型的价格要比普通模型贵得多。

据OpenAI官网，o1预览版模型每百万个输入tokens的定价为15美元，每百万个输出tokens的价格为60美元，分别是GPT-4o的3倍和4倍。

OpenAI提到，o1模型会更适合正在解决科学、编码、数学和类似领域复杂问题的用户。如，医疗研究人员可以使用o1模型来注释细胞测序数据，物理学家可以使用o1模型来生成量子光学所需的复杂数学公式等。不过，OpenAI也很贴心地提供了一个更便宜的版本——o1-mini。

o1-mini是一个速度更快、成本更低的推理模型，专门针对涉及编码、数学和科学等使用情况。作为一款较小的模型，o1-mini比o1预览版模型要便宜80%。

不管是o1预览版还是o1-mini，都具有128K上下文窗口，其知识均截止至2023年10月。

ChatGPT Plus和Team用户从9月12日起即可开始可以访o1预览版和o1-mini。OpenAI 表示，公司计划后续向ChatGPT的所有免费用户提供o1-mini访问权限，但具体日期还尚未确定。

尽管目前o1模型的推理能力相对较慢，而且使用成本高昂，但是对于人工智能研究人员来说，破解推理是迈向人类智能的重要一步。他们认为，如果一个模型的能力不仅限于模式识别，那么它就可以在医学和工程等领域取得突破。

“我们花了好几个月研究推理，因为我们认为这实际上是一个关键的突破。”OpenAI首席研究官Bob McGrew在接受采访时说道，“从根本上说，这是一种新的模型模式，能够解决真正困难的问题，从而达到与人类相似的智能水平。”

玩酷网

OpenAI再扔出“王炸”！全新推理模型可达人类博士水平

Hawk Insight