日前,OpenAI方面发布了OpenAI o1(以下简称为o1)系列模型的部分版本,其中包括o1-preview(预览版)和o1-mini。同时OpenAI方面宣布,自9月13日起ChatGPT Plus和ChatGPT Team用户即可访问这两个新模型,ChatGPT Enterprise和ChatGPT Edu用户将在下周初获得访问权限。同时OpenAI方面表示,计划让ChatGPT的所有免费用户都能访问o1-mini,但目前尚未确定具体时间。
据OpenAI方面介绍,OpenAI o1(以下简称为o1)模型在响应之前会像人类一样花更多时间进行思考,并能够通过训练来学会完善思维过程、尝试不同的策略,甚至认识到自己的错误。例如在解答编程问题的过程中,o1将在回答前会把整个回答的流程全部思考一边、再生成代码。
需要注意的是,OpenAI方面强调,尽管o1作为早期模型还不具备浏览网页获取信息,以及上传文件和图像等功能,但在处理科学、编码、数学和类似领域的复杂推理任务方面,其表现十分出色。因此该模型可帮助医疗研究人员注释细胞测序数据、为物理学家生成量子光学所需的复杂数学公式,或是协助开发者构建并执行多步骤工作流程。对此有观点认为,这一模型正是此前曾多次被曝光的“草莓”(Strawberry)项目。
据OpenAI研究负责人Jerry Tworek透露,o1的训练方法有别于当前的模型,“采用了全新的优化算法和专门为其定制的训练数据集进行训练”,以及“我们不能说已经解决了幻觉问题,但至少从观测的结果来看,这个模型产生的幻觉明显减少”。
OpenAI方面公布的测试数据显示,在国际数学奥林匹克竞赛(IMO)的资格考试中,o1模型取得了83%的成绩,作为对比,GPT-4o的分数为13%。在竞争性编程问题(Codeforces)测试中o1的成绩为89%、在美国数学奥林匹克预选赛(AIME)中更是跻身全美前500名的行列,而GPT-4o的成绩则为12%。
为了突出大模型推理能力的提升,OpenAI还在GPQA diamond高难度智力基准测试中,从化学、物理和生物学方面对o1模型进行了评估。结果显示,该模型的表现超越了拥有博士学位的人类专家,并且也是第1个在该测试中做到这一点的模型。同时在其它几项ML基准测试中,o1的表现均超过了目前最先进的水平。
值得一提的是,在启用视觉感知能力后,该模型在MMMU(真实理解和推理能力基准)中的得分率达到了78.2%、成为第1个能与人类专家竞争的模型。此外其还在57个MMLU(多任务语言理解基准)子类别中的54个类别测试中,超过了GPT-4o。
据悉在开发o1系列模型的过程中,OpenAI还提出了一种新的安全训练方法,即利用模型的推理能力使它们遵守安全和对齐准则。对此OpenAI方面表示,“为了推进对AI安全的承诺,我们最近与美国和英国的AI安全研究所正式达成协议、并已经开始实施,包括允许这些机构提前获得o1模型的研究版本。这是我们合作中重要的第1步,有助于建立未来模型公开发布之前和之后的研究、评估和测试流程”。