去年12月,OpenAI推出了一款名为"o3"的推理模型。这个在决策过程中更智能、更缜密的模型,展现了OpenAI在开发更具慎思能力AI方面的进步。但存在一个关键问题。
模型首发时,OpenAI与Arc Prize基金会合作测试。该机构运营的ARC-AGI基准测试专门评估高性能AI模型。这些对人类而言极其简单的测试题目,大众都能轻松解决,但对AI却非易事。

基金会最初估算o3解决复杂问题的成本约为3000美元。但最新评估显示,现在每项任务的成本已接近3万美元。虽然OpenAI在测试中获得了高分,却付出了远超平均水平的代价——这个天文数字揭示了尖端AI模型的惊人运行成本。
关键区别: o3与驱动ChatGPT的模型完全不同。o3具有反思能力,专为复杂问题解决和推理设计,因此需要更高计算能力。
据Arc Prize基金会数据,o3(高)的计算功耗是o3(低)的172倍。开发者可以选择低、中、高三种推理强度,本质上是要求模型进行更深度思考。虽然提高推理强度能获得更好结果,但计算功耗和成本也随之飙升。
在ARC-AGI测试中,正是o3(高)版本产生了如此高昂的成本。换言之,这是OpenAI最精细的模型,被推到了计算能力的绝对极限。
牛津大学高级研究员Toby Ord在X平台指出,o3(高)对每个任务进行了1024次尝试,每次尝试生成约137页文本,总计约4300万字——相当于为每个任务编写了一部《大英百科全书》!
成本效益分析: 虽然低强度版本得分不高,但可能更具成本效益。目前OpenAI尚未公布o3的商用定价,已推出的o3-mini虽然更便宜,但性能差距显著。
对普通用户而言,这种定价毫无影响。ChatGPT仍是OpenAI最具成本效益的模型之一,而o3即便上市,也只会被AI前沿领域的研究者采用。但随着Deepseek、Claude等竞争者开始降低成本,开发更经济的复杂模型,OpenAI可能很快会成为同类产品中最昂贵的供应商。
