斯坦福团队大模型医疗应用评估，DeepSeek R1表现最佳！【图1】回答医疗

斯坦福团队大模型医疗应用评估，DeepSeek R1表现最佳！【图1】回答医疗问题哪家模型强？这个问题还真不好说。虽然很多现有模型都能回答医疗问题，但《美国医学会杂志》指出：大部分评估只基于标准化医学考试进行性能测试，很少用真实患者数据，就像用驾照笔试成绩来判断驾驶能力一样。为了解决这个问题，斯坦福大学的研究团队最近又升级了一波早先推出的MedHELM评估框架。【图2】这个新框架有以下特点： 1、医疗场景广泛包含临床决策支持、临床病历生成、患者沟通教育、医学研究辅助、以及行政工作流的5大类、22子类和121项具体临床任务。经过29位执业医师验证，其分类体系非常符合临床实际。【图3】 2、基准测试套件全面包含35个基准测试，涵盖了分类体系中的所有类别和子类别，其中包括17个现有基准测试、5个重新制定的基准测试和13个新基准测试。【图4】 3、评估更准确使用由三个LLM组成的评审团LLM-jury对开放式基准测试进行评估，结果显示与临床医生的评分高度一致（ICC=0.47），甚至超过了临床医生之间的平均一致性。利用这个新评估框架，研究团队再次测试了九个主流前沿大模型，结果如下： DeepSeek R1表现最好：在35个基准测试中，DeepSeek R1和o3-mini等推理模型表现出色，分别获得了66%和64%的胜率。多数模型擅长病历和沟通：大多数模型在临床病历生成（0.73-0.85）和患者沟通教育（0.78-0.83）方面表现强劲。研究辅助一般，决策和行政偏弱：在医学研究辅助方面表现中等，而在临床决策支持和行政工作流程任务中表现较弱。【图5】推理模型虽然性能优越，但计算成本较高。Claude 3.5 Sonnet在较低的估计成本下提供了与顶级模型相当的性能。【图6】项目主页：论文地址：

玩酷网

斯坦福团队大模型医疗应用评估，DeepSeek R1表现最佳！【图1】回答医疗

热门分类

斯坦福团队大模型医疗应用评估，DeepSeek R1表现最佳！【图1】 回答医疗

热门分类

斯坦福团队大模型医疗应用评估，DeepSeek R1表现最佳！【图1】回答医疗