OpenAI日前发布o1系列模型，采用全新优化算法

日前，OpenAI方面发布了OpenAI o1（以下简称为o1）系列模型的部分版本，其中包括o1-preview（预览版）和o1-mini。同时OpenAI方面宣布，自9月13日起ChatGPT Plus和ChatGPT Team用户即可访问这两个新模型，ChatGPT Enterprise和ChatGPT Edu用户将在下周初获得访问权限。同时OpenAI方面表示，计划让ChatGPT的所有免费用户都能访问o1-mini，但目前尚未确定具体时间。

据OpenAI方面介绍，OpenAI o1（以下简称为o1）模型在响应之前会像人类一样花更多时间进行思考，并能够通过训练来学会完善思维过程、尝试不同的策略，甚至认识到自己的错误。例如在解答编程问题的过程中，o1将在回答前会把整个回答的流程全部思考一边、再生成代码。

需要注意的是，OpenAI方面强调，尽管o1作为早期模型还不具备浏览网页获取信息，以及上传文件和图像等功能，但在处理科学、编码、数学和类似领域的复杂推理任务方面，其表现十分出色。因此该模型可帮助医疗研究人员注释细胞测序数据、为物理学家生成量子光学所需的复杂数学公式，或是协助开发者构建并执行多步骤工作流程。对此有观点认为，这一模型正是此前曾多次被曝光的“草莓”（Strawberry）项目。

据OpenAI研究负责人Jerry Tworek透露，o1的训练方法有别于当前的模型，“采用了全新的优化算法和专门为其定制的训练数据集进行训练”，以及“我们不能说已经解决了幻觉问题，但至少从观测的结果来看，这个模型产生的幻觉明显减少”。

OpenAI方面公布的测试数据显示，在国际数学奥林匹克竞赛（IMO）的资格考试中，o1模型取得了83%的成绩，作为对比，GPT-4o的分数为13%。在竞争性编程问题（Codeforces）测试中o1的成绩为89%、在美国数学奥林匹克预选赛（AIME）中更是跻身全美前500名的行列，而GPT-4o的成绩则为12%。

为了突出大模型推理能力的提升，OpenAI还在GPQA diamond高难度智力基准测试中，从化学、物理和生物学方面对o1模型进行了评估。结果显示，该模型的表现超越了拥有博士学位的人类专家，并且也是第1个在该测试中做到这一点的模型。同时在其它几项ML基准测试中，o1的表现均超过了目前最先进的水平。

值得一提的是，在启用视觉感知能力后，该模型在MMMU（真实理解和推理能力基准）中的得分率达到了78.2%、成为第1个能与人类专家竞争的模型。此外其还在57个MMLU（多任务语言理解基准）子类别中的54个类别测试中，超过了GPT-4o。

据悉在开发o1系列模型的过程中，OpenAI还提出了一种新的安全训练方法，即利用模型的推理能力使它们遵守安全和对齐准则。对此OpenAI方面表示，“为了推进对AI安全的承诺，我们最近与美国和英国的AI安全研究所正式达成协议、并已经开始实施，包括允许这些机构提前获得o1模型的研究版本。这是我们合作中重要的第1步，有助于建立未来模型公开发布之前和之后的研究、评估和测试流程”。

玩酷网

OpenAI日前发布o1系列模型，采用全新优化算法

聊点科技行叭