GPT-5实现多模态医学推理能力质的飞跃

• 首次系统评估GPT-5在统一协议下的零样本链式推理表现，涵盖文本问答与视觉问答任务。

• 在MedXpertQA多模态任务中，GPT-5推理准确率提升29.26%，理解能力提升26.18%，超越预许可人类专家24.23%-29.40%。

• 在USMLE考试样题中，GPT-5平均得分95.22%，显著高于GPT-4o，展现强大临床决策支持潜力。

• 通过集成复杂文本、结构化数据与医学影像，GPT-5能构建连贯诊断推理链，推荐高风险干预措施。

• 小型模型在特定小规模数据集表现优于GPT-5，表明模型规模与推理校准存在权衡，未来需针对性优化。

• 研究表明，GPT-5从近人类水平跃升至超人类专业表现，标志着医学AI临床辅助系统设计的新里程碑。

• 但需注意，当前基准测试为理想化环境，实际临床应用仍需关注不确定性与伦理问题。

详见👉 arxiv.org/abs/2508.08224

人工智能医学AI 多模态推理临床决策支持 GPT5

玩酷网