重磅!OpenAI发布新一代推理模型o3

果粉人工智能 2024-12-21 22:06:44

在OpenAI为期12天的“开放AI直播活动”中,CEO萨姆·奥特曼揭开了其下一代基础模型的神秘面纱。这款新模型被称为o3及o3-mini,是近期发布的o1推理AI家族的继任者。有趣的是,OpenAI直接跳过了o2这一代,显然是为了避免与英国电信运营商O2的版权冲突。

目前,这些新模型尚未对公众开放,也没有明确的时间表表明它们何时会集成到ChatGPT中。不过,安全和安保研究人员已经可以申请测试。与之前的o1模型一样,o3模型在回应用户之前会进行内部事实核查。这种技术虽然会减慢模型的响应时间,但能显著提高复杂科学、数学和编程问题的答案准确性。此外,该模型还能透明地解释其推理过程。

用户可以通过选择低、中、高三档计算强度来手动调整模型思考问题的时间。其中最高设置将返回最完整的答案。然而,这种高性能也意味着高昂的成本。据ARC-AGI联合创始人弗朗索瓦·肖莱特在X平台上透露,使用高计算强度处理任务的成本可能高达数千美元。

据公司称,o3模型在行业最具挑战性的基准测试中表现出色。例如,在SWE-Bench验证编码测试中,o3比其前身o1高出近23个百分点;在Codeforces基准测试中,o3比o1高出60多分。新模型还在AIME 2024数学测试中取得了96.7%的高分,并在GPQA钻石测试中以87.7%的成绩超越了人类专家。更令人印象深刻的是,o3在EpochAI前沿数学基准测试中解决了超过四分之一的问题,而其他模型在此测试中的正确率通常低于2%。

尽管如此,OpenAI表示,本周展示的模型版本仍处于早期阶段,最终结果可能会随着更多的后训练而有所变化。为了确保安全,公司还为o3引入了新的“深思熟虑对齐”安全措施。与传统的AI系统相比,o1推理模型存在更高的欺骗人类评估者的倾向,而OpenAI认为这些新措施将有助于减少o3的这种倾向。

研究社区成员如果希望亲自尝试o3-mini,可以申请加入OpenAI的等待名单。

---

这个简洁有力,能够迅速吸引读者的眼球,同时准确概括了文章的核心内容。

Post by Tom

0 阅读:0

果粉人工智能

简介:感谢大家的关注