OpenAI 终于在 2 月 27 日发布了 GPT-4o 的继任者 GPT-4.5。委婉地说,这个模型是......平淡无奇。
GPT-4.5 是 OpenAI 开发的最大模型。虽然关于模型的架构和训练数据的信息很少,但我们知道训练非常密集,以至于需要 OpenAI 将其分布在多个数据中心才能按时完成。
该模型的定价非常疯狂,比 GPT-4o 贵 15-30 倍,比 o1 贵 3-5 倍,比 Claude 3.7 Sonnet 贵 10-25 倍。它目前仅适用于 ChatGPT Pro 用户(每月 200 美元)和 API 客户端,他们将按令牌支付访问费用。同时,该模型并没有显示出令人印象深刻的结果,比 GPT-4o 略有提高,在推理任务上落后于 o1 和 o3-mini。
公平地说,OpenAI 并没有将 GPT-4.5 作为其最佳模型进行营销(事实上,其博客文章的初始版本表示它不是“前沿模型”)。它也不是一个推理模型,这就是为什么与 o3 和 DeepSeek-R1 等模型进行比较可能不公平的原因。根据 OpenAI 的说法,GPT-4.5 将是其最后一个非思维链模型,这意味着它只是被训练为内化世界知识和用户偏好。
GPT-4.5 有什么用?更大的模型具有更大的学习知识的能力。GPT-4.5 的幻觉频率低于其他模型,使其适用于遵守事实和上下文信息可能非常重要的任务。它还显示出更好的遵守用户指示和偏好的能力,正如用户在线分享的 OpenAI 演示和实验所表明的那样。
关于它是否能产生更好的内容,也存在争论。OpenAI 的高管们肯定一直在称赞该模型的响应质量。OpenAI 首席执行官 Sam Altman 说 :“尝试 GPT-4.5 要比我预期的更像是高品味测试人员的'感受 AGI'时刻!
但网上的反应好坏参半。AI 科学家兼 OpenAI 联合创始人 Andrej Karpathy 表示 ,他“希望看到那些不繁重推理的任务有所改进,我想说这些任务与 EQ(而不是 IQ)更相关,并受到世界知识、创造力、类比制作、一般理解、幽默等瓶颈。
然而,他后来对结果进行的调查显示,用户通常更喜欢 GPT-4o 的答案而不是 GPT-4.5。写作质量是主观的,通过正确的提示工程技术和调整,你很可能会得到一个小得多的模型来获得你需要的质量输出。

正如 Karpathy 所说 ,“要么高品味测试者注意到了新的和独特的结构,要么低品味的测试者在民意调查中压倒了一切。或者我们只是在产生幻觉。或者这些例子并不是那么好。或者它实际上非常接近,而且样本量太小了。或者以上所有。
GPT-4.5 值得吗?在某些方面,GPT-4.5 显示了缩放定律的局限性。在 NeurIPS 2024 的一次演讲中,OpenAI 的另一位联合创始人兼前首席科学家 Ilya Sutskever 表示:“我们所知道的预训练无疑会结束......我们已经实现了峰值数据,不会再有更多了。我们必须处理我们拥有的数据。只有一个互联网。”
GPT-4.5 的收益递减证明了扩展通用模型的局限性,这些模型在互联网数据上进行预训练,并通过来自人类反馈的强化学习 (RLHF) 进行后训练以进行对齐。下一步LLMs是测试时扩展(或推理时扩展),其中通过生成思维链 (CoT) 令牌来训练模型“思考”更长时间。测试时缩放提高了模型解决推理问题的能力,是 o1 和 R1 等模型成功的关键。
但是,这并不意味着 GPT-4.5 是失败的。下一代推理模型需要强大的知识基础。虽然 GPT-4.5 本身可能不是大多数任务的首选模型,但它可以成为未来建模模型的基础(并且可能已经用于 o3 等模型)。正如 OpenAI 的首席研究官 Mark Chen 在 GPT-4.5 发布后的一次采访中所说,“你需要知识来建立推理。模型不能盲目进入,只是从头开始学习推理。因此,我们发现这两种模式是相当互补的,我们认为它们彼此之间有反馈循环。