OpenAI首发草莓大模型o1,具超强“推理”能力

科技有点奇谱 2024-09-13 17:57:29

今天凌晨,OpenAI突然发布传说中的“草莓大模型”的预览版——OpenAI o1-preview。o1是全新系列AI模型的第一款,能推理复杂的任务,解决比以前科学、编程、数学模型更难的问题。同时发布的还有一个更小、成本更低的版本——o1 mini。这两款模型被OpenAI视为复杂推理任务的重大进步,因此被命名为o1,而非GPT系列的延续。

o1在一系列高难基准测试中展现出了超强实力,相比 GPT-4o有巨大提升。在国际数学奥林匹克(IMO)的资格考试中,新推理模型正确解答了83%的问题,远超GPT-4o的13%。在编程能力方面,通过Codeforces竞赛的评估,新模型的表现超过了89%的参赛者。在物理、生物、化学问题的基准测试中准确度超过了人类博士水平!

o1在数学、编程上的测评基准显著优于GPT-4o

o1在广泛的基准测试中超越了GPT-4o

o1采用强化学习技术进行训练,专门设计用于处理复杂的推理任务。与传统模型不同,o1具有“深思熟虑”的能力——在给出最终回答之前,它能够在内部进行长链条的逻辑推理和思考过程,从而确保回应的质量和深度。

OpenAI表示通过持续的研究,发现了两个关键因素能显著提升o1模型的性能:

增加强化学习的计算量(即训练阶段的计算资源投入)延长模型的“思考时间”(即在测试或应用阶段给予模型更多的计算时间)

这种方法在扩展性方面表现出了与传统大语言模型预训练截然不同的特点。传统的预训练主要受限于海量文本数据的获取和处理,而新的方法更多地依赖于计算资源和算法优化。

o1 的性能随着训练时计算和测试时计算的增加而平稳提升

不过,推理增强版的o1模型,还是在9.9和9.11比大小这种“高阶问题”上失手。OpenAI也表示目前还是早期模型,尚不完善。

o1模型回答“比大小”问题

据悉,从今天开始,ChatGPT Plus和Team用户就能够访问ChatGPT中的o1模型。目前o1-preview的每周速率限制为30条,o1-mini的每周速率限制为50 条。

0 阅读:8

科技有点奇谱

简介:感谢大家的关注