忘掉GPT-5！OpenAI推出全新AI模型系列o1，声称性能达到博士级

自从OpenAI于2023年3月推出其强大的专有大型语言模型GPT-4 —— 即 18 个月前 —— 以来，用户和开发者们一直在猜测，这家在硅谷及全球掀起GenAI热潮的公司何时会推出下一个版本，预计将命名为GPT-5。

然而，事实证明，GPT系列暂时被一整个全新模型家族所超越。

今天，经过数月的报道和传闻，尤其是在最近几天愈加激烈的讨论后，OpenAI 宣布推出其“o1” AI模型家族，首批包含两个模型：o1-preview和o1-mini。公司表示，这些模型旨在“推理复杂任务并解决比GPT系列更难的问题”。

这两个模型现已向ChatGPT Plus用户开放，但最初限制为每周o1-preview只能发送30条消息，o1-mini则为50条。

然而，OpenAI 也提醒用户：“作为一个早期模型，它还没有许多使 ChatGPT 实用的功能，例如通过网络浏览信息和上传文件及图片。在许多常见情况下，GPT-4o 在短期内仍然更为强大。”

的确，我们在最初的测试中尝试让其为这篇文章生成图片时发现它无法完成。在 OpenAI 的 API 平台网站上，公司明确表示，这个模型家族在测试阶段仅支持“文本内容，暂不支持图片”。

o1系列在GPT模型上的优势

OpenAI 声称其新的 o1 系列特别适合于在科学、医疗保健和技术等领域处理复杂问题的用户。

OpenAI 设想这些模型将被广泛应用，从帮助物理学家为量子光学生成数学公式，到协助医疗研究人员为细胞测序数据做标注。

开发者也会发现 o1-mini 模型在构建和执行多步骤工作流、调试代码以及高效解决编程挑战方面颇具成效。

o1-preview的表现达到博士生水平

o1-preview 模型旨在通过花更多时间思考和优化响应来处理挑战性任务，类似于人类面对复杂问题时的应对方式。

在测试中，这种方法使该模型在物理学、化学和生物学等领域的表现接近博士生水平。

此外，o1-preview 模型在编程方面表现优异，在 Codeforces 编程比赛中排名第 89 百分位，展现了其处理多步骤工作流、调试复杂代码和生成准确解决方案的能力。

在国际数学奥林匹克竞赛 (IMO) 预选考试等基准测试中，o1-preview 展示了其卓越能力，成功解决了 83% 的问题，显著超越其前任 GPT-4o 仅 13% 的成功率。

它已经向ChatGPT的Plus和Team用户开放使用，Enterprise和Edu用户将在下周获得访问权限。该模型也通过OpenAI API提供给符合API使用第5层级的开发者，尽管最初会有速率限制。

o1-mini功能较弱但便宜80%

与o1-preview同时，OpenAI还推出了o1-mini模型，这是一个更精简的版本，旨在提供更快且更便宜的推理能力。

虽然o1-mini主要针对编程和STEM任务进行了优化，但它在数学和编程领域依然表现出色。

在IMO数学基准测试中，o1-mini得分为70%，几乎与o1-preview的74%持平，同时推理成本显著降低。在编码评估中，它也表现出色，在Codeforces上获得了1650的Elo评分，位于前86%的程序员之列。

与o1-preview相比，o1-mini的价格便宜了80%，它主要面向那些需要推理能力但不需要o1-preview模型所具备的广泛知识的开发者和研究人员。

这一具有成本效益的解决方案也将向ChatGPT Plus、Team、Enterprise和Edu用户开放，未来还计划向ChatGPT Free用户扩展使用权限。

安全性和保障增强

为了遵守OpenAI对安全性的承诺，这两个模型都采用了一种新的安全训练方法，以增强它们遵循安全和对齐准则的能力。

OpenAI指出，o1-preview在其最严苛的越狱测试之一中得分达到了84分，相较于GPT-4o的22分有了显著提升。能够在上下文中推理安全规则，使这些模型更好地处理不安全的提示，避免生成不适当的内容。

作为更广泛安全努力的一部分，OpenAI已与美国和英国的AI安全研究所达成协议。

这些合作包括为研究版本的o1模型提供早期访问权限，以帮助评估和测试未来的AI系统。

OpenAI的安全工作还包括全面的内部治理，并与联邦政府合作，通过定期测试、红队测试以及公司安全与保障委员会的董事会层级监督来加强安全性。

OpenAI的o1系列未来展望

尽管o1-preview和o1-mini模型在推理和问题解决方面已经是强大的工具，OpenAI承认这只是一个开始。

公司计划定期更新和改进这些模型，包括增加API版本当前尚不支持的功能，如浏览、文件和图像上传以及函数调用。

展望未来，OpenAI将继续开发其GPT和o1系列，进一步扩展AI在各个领域的能力。用户可以期待不断的进步，因为公司致力于提高这些模型在不同应用中的实用性和可访问性。

玩酷网