编辑:编辑部
【新智元导读】医疗AI的门槛如此高,如何克服关键痛点?这家互联网医疗公司深耕9年,终于推出国内首个医疗领域大语言模型MedGPT。
ChatGPT带火了大模型之后,全世界大厂都卷了起来。
强大的语言理解能力、生成能力、逻辑推理能力,让大模型在医疗领域大有可为。
是的,硅谷巨头们早已意识到,GPT在医疗领域的无限潜力。
早在今年2月,ChatGPT在美国医学执照考试中,以60%准确度的回答,已经接近真人医生。
话虽如此,但只要深入调查这个行业就会发现,目前市面上真正能够投入使用的医疗大模型,还寥寥无几。
原因就在于,医疗AI的门槛相当之高,在这个交叉领域要想成功做出产品,既要懂医疗,又要懂技术。
国内的医疗大模型之路该如何走?让我们先看看国外大厂的发展路线。
硅谷巨头,纷纷入局医疗GPT
当前,大型语言模型的发展,已经有足够的潜力给医疗保健整个行业带去更加深远、广泛的变革。
比如,远程问诊效率、准确度提升,简化医疗文档,甚至还可以帮助医疗人员减少工作量提高效率。
GPT-4、PALM 2作为当前最先进的语言模型,微软、谷歌等硅谷巨头必然将它的能力拓展到医疗领域。
上个月,微软和Epic Systems宣布,将GPT-4引入医疗保健领域,用于医护人员对患者的消息回复,分析医疗记录,以及寻找新的趋势。
另外,今年夏天,微软和Nuance将把GPT-4引入医疗保健文档技术。微软称,整合后GPT-4提⾼了AI模型的整体准确性,但没有透露准确率。
此外,谷歌过去几年里也一直在探索如何用AI来改善医疗保健,比如帮助早期发现疾病,扩大医疗服务范围等等。
刚刚过去的谷歌I/O大会上,谷歌在医疗领域的微调模型Med-PaLM也升级到了第二代。
值得一提的是,Med-PaLM 2一出手,就成为首个在USMLE(美国医师执照考试)上达到「专家」水平的模型,得分为85.4%。
甚至,它比迭代之前的Med-PaLM性能提高了18%,远超同类AI模型。
那么,现在通用的大语言模型,在回答医学问题方面表现怎样呢?我们来实测一下。
MedPaLM的表现很专业,然而,如果从应用场景看,MedPaLM还没有那么高的实用性,因为它主要还是以做题为主。
要说回答问题,那当然少不了当红大模型ChatGPT。
可以看到,它的回答就比较中规中矩,没有太多惊喜。
而一旦给它上点难度,问一道国家执业医师资格考试真题,它就寄了……
可见,类似ChatGPT这样的通用类LLM,高度依赖文本统计概率生成答案,因此回答的准确性无法保证。
但是,在医疗应用场景中,准确性和一致性是底线,绝不能出错。
垂直医疗大模型,难在哪?
从谷歌和微软做医疗大模型的发展路线,可以看到,要想让LLM在医疗领域充分发挥能力,有一些关键的难点。
1. 数据孤岛
首先,最致命的难点就是,垂直领域的大模型,如何突破数据「卡点」?
而垂直医疗领域AI大模型,只关注医疗这个特定的领域或者场景。它能够利用医疗的数据和知识,提供更精准和高效的解决方案。
然而现实是,整个医疗服务的数据信息碎片化,还有的被严重分割,医疗数据异构性、难流通。
一方面,不同医疗机构采用不同的系统,每个系统标准不一,因此缺乏统一化的数据格式,或交互界面。
另一方面,医疗数据较为敏感与特殊。为更好的保护病人隐私,大多数医院不会为利益交出数据,甚至将数据库只接入局域网。
再加上,患者差异、疾病繁多、医护人员经验识别差异,都导致数据的不完整、不统一。
由此可见,医疗数据具有一定的门槛,而且业内没有统一的的数据标准,都将是训练更专的垂类模型的绊脚石。
2. 复合型人才稀缺
值得注意的是,对于「AI+医疗」这一专业性极强的交叉领域,对复合型人才的需求极大。
医疗专业的知识本身非常精细,再加上与算法的深度融合,AI医疗这一高精尖技术,对人才综合能力要求甚高。
3. 行业标准难统一
除了以上两点,在大量涌入AI医疗的企业中,AI+医疗标准缺失也是一大痛点。
而在医疗领域中,最重要的就是准确度,否则可能会给数百万患者带来风险。
目前,还没有统一的行业标准能证明AI医疗的有效性,如何保证真正的对患者结果负责就成为了行业中的难点。
总而言之,在医疗这一特殊领域,如果没有打通这些痛点,并不是每个大模型的玩家都能玩转的。
国内首款医疗大模型MedGPT
据媒体报道,昨日医联正式发布了国内首个医疗领域自研大语言模型——MedGPT。
具体来说,MedGPT基于Transformer架构,目前参数规模为1000亿,可支持医疗场景下的多模态输入和输出。
其中,预训练阶段使⽤了超过20亿的医学文本数据,微调训练阶段使⽤了800万条的高质量结构化临床诊疗数据,并投入超过100名医⽣参与⼈⼯反馈监督微调训练。
还记得ChatGPT一上来「翻车」了的问题吗?
MedGPT秒秒钟就给出了正确答案,并且还配上了每个选项的详尽分析。
上下滑动查看全部
在经典的医学应试能力评测上,MedGPT顺利过关。
不仅如此,MedGTP的创新之处在于,它不再是简单的AI问答,而是以「治愈」为目的实现有效问诊。
值得注意的是,MedGTP不仅整合了1000+多模态能力,具备强大的技术路径,而且还成功实现了众多首次突破。
- 首次突破了AI医生无法与真实患者连续自由对话的难点。
- 首次开出检验检查单,首次由AI给出准确诊断与治疗方案。
- 首次利用多种医学多模态,首次打通从问诊到医学检查的流程。
- 首次与医联互联网医院打通,实现药品到家的诊疗闭环。
为了保证诊断的准确率,MedGPT采用了一致性校验机制。
也就是说,MedGPT在为患者输出正式答案之前,会先经过临床医学规则器的校验,确保医学的准确性。
这个医学专家系统,采用了一个多维度的诊疗准确性评测体系,从多方面来分析与评测MedGPT在诊疗全过程中的一致性与准确性。
当然,用机器去判断仍然是不够的,这个过程中,还有一个基于专家评议的真实世界医生一致性对标机制。
医联团队会招募真实的医生坐在电脑进行诊断,然后把MedGPT和真实医生的结果交由专家委员会评议,将MedGPT的水平对标真实医生。
有了这样一套完整的体系,我们得到的也就不再是一个做题家,而是真正能帮患者治病的AI。
为了验证MedGTP全流程疾病诊疗的能力,团队通过真实患者的脱敏病例,对诊疗过程进行了模拟。
相比于上一代产品给患者「查知识库」的感觉,通用型LLM ChatGPT急于给结论的表现,以及真实医生在线问诊会卡在检查这一步的问题,MedGTP在这些方面都有了改进。
它会通过多轮问诊引导,收集足够完善的诊断决策因子,足够循序渐进。
在医联专家的要求下,它必须搜集到足够的决策因子,才能给患者建议。
之后,MedGPT还会继续检查、治疗、康复的步骤。
据统计,在第一阶段测试532名院内复诊患者病案中,MedGPT诊断的吻合率超过了97.5%,覆盖了3000种疾病的全科首诊能力。
缺少行业标准,何以壮大并持续发展
标准缺失意味着行业约束和规范的缺失,意味着无法统一规范,也不会被市场所认可。而医疗行业的准确性和⼀致性是医疗底线。
作为致力于疾病全流程诊疗的医疗专业大语言模型,医联MedGPT形成了一套独有的「DIAE」医疗AI建设方法论,分别从Disease(病种覆盖)、Intelligence(智能化)、Accuracy(准确性)、Efficiency(就医效率)四个维度来建设与打磨产品,不断提升MedGPT的实际医疗应用价值。
D:Disease,也就是疾病的覆盖范围
目前医联 MedGPT 已经可以覆盖ICD10的60%疾病病种,并在近期将研发重心倾斜在多发疾病,以提升数字医院的普惠率。预计在2023年底,可以覆盖80%病种的就诊需求。
I:Intelligence,也就是智能化和数字化的程度
在治疗疾病时,会有诊前、诊中、诊后不同的环节。其中,每个大的环节里还有很多小的环节。比如,诊前就包含了预防、筛查、科普、分诊、导诊等。
在此之前,医联已经在整个场景下做了一些多模态插件的应用,现在则可以利用大语言模型把它们都整合起来。
A:Accuracy,也就是诊疗的准确性
准确性对于疾病的治疗来说尤为重要,而医联在这一方面也做了很多的工作。
比如,医联不仅有一整套的测试集和专家系统,并且还会让医生在问诊时直接参与进去,利用基于人类反馈的强化学习,不停地对模型进行调试。
E:Efficiency,也就是就医效率(主要包含时间维度和成本维度)
举个例子,对于一次问询来说,如果跟线下的医生只用了10分钟,而跟AI医生要聊半个小时,那就说明这个AI的效率很低。
9年深耕,终获突破
现如今,大语言模型技术正处于飞速发展阶段,医疗行业也势必因此而发生巨大的变化。而技术的发展需要与产业进行深度融合,才能释放技术带来的红利。
而医联能够成为国内首个推出医疗领域大语言模型的公司,绝非偶然。
2021年,医联成立了互联网医疗行业首个学术委员会,并与多个疾病病种领域的专家共同制定线上疾病管理SOP。
截至目前,共打造了140多个疾病管理SOP,覆盖1000多个病种,并形成了一套全数字化的、覆盖预防、诊断、治疗、康复全流程的线上疾病管理路径。
据了解,医联成立九年以来,已经积累了150万+注册医生与2000万患者,并且凭借着长期的互动,沉淀出了大量有价值的数据。
而这些也为今天医联MedGPT的推出奠定了非常扎实的医疗与数字能力基础。
最后,医联MedGPT项目负责人王磊呼吁,业内AI科技、医学、院校机构、医疗多模态应用等各种类型的合作伙伴,共同开发建设通用型人工智能技术的医疗应⽤场景为医疗行业的技术发展贡献力量。
参考资料: