GPT-4.5是失败的吗？

OpenAI 终于在 2 月 27 日发布了 GPT-4o 的继任者 GPT-4.5。委婉地说，这个模型是......平淡无奇。

GPT-4.5 是 OpenAI 开发的最大模型。虽然关于模型的架构和训练数据的信息很少，但我们知道训练非常密集，以至于需要 OpenAI 将其分布在多个数据中心才能按时完成。

该模型的定价非常疯狂，比 GPT-4o 贵 15-30 倍，比 o1 贵 3-5 倍，比 Claude 3.7 Sonnet 贵 10-25 倍。它目前仅适用于 ChatGPT Pro 用户（每月 200 美元）和 API 客户端，他们将按令牌支付访问费用。同时，该模型并没有显示出令人印象深刻的结果，比 GPT-4o 略有提高，在推理任务上落后于 o1 和 o3-mini。

公平地说，OpenAI 并没有将 GPT-4.5 作为其最佳模型进行营销（事实上，其博客文章的初始版本表示它不是“前沿模型”）。它也不是一个推理模型，这就是为什么与 o3 和 DeepSeek-R1 等模型进行比较可能不公平的原因。根据 OpenAI 的说法，GPT-4.5 将是其最后一个非思维链模型，这意味着它只是被训练为内化世界知识和用户偏好。

GPT-4.5 有什么用？

更大的模型具有更大的学习知识的能力。GPT-4.5 的幻觉频率低于其他模型，使其适用于遵守事实和上下文信息可能非常重要的任务。它还显示出更好的遵守用户指示和偏好的能力，正如用户在线分享的 OpenAI 演示和实验所表明的那样。

关于它是否能产生更好的内容，也存在争论。OpenAI 的高管们肯定一直在称赞该模型的响应质量。OpenAI 首席执行官 Sam Altman 说：“尝试 GPT-4.5 要比我预期的更像是高品味测试人员的'感受 AGI'时刻！

但网上的反应好坏参半。AI 科学家兼 OpenAI 联合创始人 Andrej Karpathy 表示，他“希望看到那些不繁重推理的任务有所改进，我想说这些任务与 EQ（而不是 IQ）更相关，并受到世界知识、创造力、类比制作、一般理解、幽默等瓶颈。

然而，他后来对结果进行的调查显示，用户通常更喜欢 GPT-4o 的答案而不是 GPT-4.5。写作质量是主观的，通过正确的提示工程技术和调整，你很可能会得到一个小得多的模型来获得你需要的质量输出。

正如 Karpathy 所说，“要么高品味测试者注意到了新的和独特的结构，要么低品味的测试者在民意调查中压倒了一切。或者我们只是在产生幻觉。或者这些例子并不是那么好。或者它实际上非常接近，而且样本量太小了。或者以上所有。

GPT-4.5 值得吗？

在某些方面，GPT-4.5 显示了缩放定律的局限性。在 NeurIPS 2024 的一次演讲中，OpenAI 的另一位联合创始人兼前首席科学家 Ilya Sutskever 表示：“我们所知道的预训练无疑会结束......我们已经实现了峰值数据，不会再有更多了。我们必须处理我们拥有的数据。只有一个互联网。”

GPT-4.5 的收益递减证明了扩展通用模型的局限性，这些模型在互联网数据上进行预训练，并通过来自人类反馈的强化学习（RLHF）进行后训练以进行对齐。下一步LLMs是测试时扩展（或推理时扩展），其中通过生成思维链（CoT）令牌来训练模型“思考”更长时间。测试时缩放提高了模型解决推理问题的能力，是 o1 和 R1 等模型成功的关键。

但是，这并不意味着 GPT-4.5 是失败的。下一代推理模型需要强大的知识基础。虽然 GPT-4.5 本身可能不是大多数任务的首选模型，但它可以成为未来建模模型的基础（并且可能已经用于 o3 等模型）。正如 OpenAI 的首席研究官 Mark Chen 在 GPT-4.5 发布后的一次采访中所说，“你需要知识来建立推理。模型不能盲目进入，只是从头开始学习推理。因此，我们发现这两种模式是相当互补的，我们认为它们彼此之间有反馈循环。

玩酷网

智能真的很好说