玩酷网

重磅！OpenAI发布新一代推理模型o3

果粉人工智能 2024-12-21 22:06:44

在OpenAI为期12天的“开放AI直播活动”中，CEO萨姆·奥特曼揭开了其下一代基础模型的神秘面纱。这款新模型被称为o3及o3-mini，是近期发布的o1推理AI家族的继任者。有趣的是，OpenAI直接跳过了o2这一代，显然是为了避免与英国电信运营商O2的版权冲突。

目前，这些新模型尚未对公众开放，也没有明确的时间表表明它们何时会集成到ChatGPT中。不过，安全和安保研究人员已经可以申请测试。与之前的o1模型一样，o3模型在回应用户之前会进行内部事实核查。这种技术虽然会减慢模型的响应时间，但能显著提高复杂科学、数学和编程问题的答案准确性。此外，该模型还能透明地解释其推理过程。

用户可以通过选择低、中、高三档计算强度来手动调整模型思考问题的时间。其中最高设置将返回最完整的答案。然而，这种高性能也意味着高昂的成本。据ARC-AGI联合创始人弗朗索瓦·肖莱特在X平台上透露，使用高计算强度处理任务的成本可能高达数千美元。

据公司称，o3模型在行业最具挑战性的基准测试中表现出色。例如，在SWE-Bench验证编码测试中，o3比其前身o1高出近23个百分点；在Codeforces基准测试中，o3比o1高出60多分。新模型还在AIME 2024数学测试中取得了96.7%的高分，并在GPQA钻石测试中以87.7%的成绩超越了人类专家。更令人印象深刻的是，o3在EpochAI前沿数学基准测试中解决了超过四分之一的问题，而其他模型在此测试中的正确率通常低于2%。

尽管如此，OpenAI表示，本周展示的模型版本仍处于早期阶段，最终结果可能会随着更多的后训练而有所变化。为了确保安全，公司还为o3引入了新的“深思熟虑对齐”安全措施。与传统的AI系统相比，o1推理模型存在更高的欺骗人类评估者的倾向，而OpenAI认为这些新措施将有助于减少o3的这种倾向。

研究社区成员如果希望亲自尝试o3-mini，可以申请加入OpenAI的等待名单。

---

这个简洁有力，能够迅速吸引读者的眼球，同时准确概括了文章的核心内容。

Post by Tom

0 阅读：0

果粉人工智能

简介：感谢大家的关注

作者最新文章

科技TOP

科技最新文章