OpenAI 最新推出的 o3 和 o4-mini 推理模型在编程、数学等任务上表现出色,但“幻觉”(虚构信息)问题却比前代更严重。在 PersonQA 基准测试中,o3 的幻觉率达 33%,o4-mini 更是高达 48%,远超 o1(16%)和 o3-mini(14.8%)。OpenAI 承认这一现象“需要更多研究”,但尚未找到确切原因。第三方机构 Transluce 发现,o3 会编造代码执行过程,如声称在 MacBook Pro 上运行 Python 代码,但实际上并无此能力。
这一现象可能源于强化学习(RL)的过度优化。o3 的训练目标聚焦于正确结果(如数学答案、代码测试通过),而非推理过程的真实性,导致模型在无法验证的任务中倾向于“编造”合理答案。此外,其“思维链”(CoT)机制在生成答案后被丢弃,使得模型在被追问时只能虚构解释。这表明,当前推理模型在追求更高性能的同时,可能牺牲了稳定性和可靠性。
相比之下,DeepSeek R2 在技术架构上采取了不同的优化路径。其采用 FP8 矩阵计算库(DeepGEMM),推理速度达每秒 320 tokens,成本降低 70%,并在多语言代码生成、工业质检(准确率 99.7%)等任务中表现卓越。R2 还通过动态功耗管理和稀疏计算优化能效,使其适用于边缘设备部署。
OpenAI 的“幻觉”问题可能反映了当前 AI 推理模型的瓶颈,但并非不可突破。DeepSeek R2 通过算法优化和开源生态(如 DeepGEMM 开源首日获 10k GitHub 星标)展现了更强的实用性和可扩展性。未来,AI 发展或需在性能与可靠性间寻找平衡,而 R2 的低成本、高效率策略可能为行业提供新方向。