概述
目的:在本研究中,我们采用大型语言模型来评估骨闪烁扫描放射学报告在识别SAPHO综合征的背景下诊断功效,并进一步检验了这种模型增强诊断程序的潜力。
方法:回顾性分析2007年1月至2022年12月期间因疑似SAPHO综合征而接受骨显像检查的151例患者(105/46 女性/男性,平均年龄:53.5 岁)的影像学数据和临床信息。ChatGPT-4.0被用作大语言模型。通过比较根据简明放射学报告和掌跖脓疱病等皮肤病变判断为符合Kahn分类标准的SAPHO综合征病例与风湿科医生根据所有临床信息。验证了大语言模型的诊断性能。
结果:用于分析骨闪烁扫描放射学报告的大型语言模型的诊断准确性结合有关皮肤症状的信息,如掌跖脓疱病,达到了83. 5%的敏感性、69.4%的特异性和 76.8%的总体准确性。
讨论:虽然这项研究是致力于利用实质性语言模型创建风湿病影像诊断数据库的初步努力,但它表现出值得称赞的诊断准确性,特别是对于具有多种症状的疾病,如SAPHO综合征、预示着后续研究的积极前景。
结论:这项研究表明,广泛的语言模型在检查骨闪烁扫描放射学记录以诊断 SAPHO综合征方面具有前瞻性价值。

介绍
SAPHO综合征是滑膜炎、痤疮、脓疱病、骨质增生和骨炎综合征的缩写,是一种复杂多样的疾病,由Chamot和Benhamou首次提出。受影响最严重的骨骼区域是前胸壁骨炎和关节炎,据报道影响超过80%的患者,其次是椎骨骨炎和骶髂关节炎。由于SAPHO综合征的症状多种多样,诊断可能很困难。相比之下,骨闪烁扫描由于其高灵敏度和评估整个身体的能力,对于诊断SAPHO综合征很有价值。
最近开发的大型语言模型用于根据骨闪烁扫描放射学报告的结果诊断多样化且复杂的SAPHO综合征的适用性尚未得到探索。本研究是建立SAPHO综合征数据库的初步努力,旨在阐明其发病机制并开发诊断方法。具体来说,我们利用大型语言模型来分析骨闪烁扫描放射学报告在诊断SAPHO综合征中的诊断性能,并探讨这样的模型如何支持诊断过程。
方法
研究设计和人群
这项回顾性研究遵循《赫尔辛基宣言》中概述的伦理标准,并获得了东北大学医院机构审查委员会的批准(批准号:2022-1-551)。我们回顾性审查了 2007年1月至2022年12月期间因疑似SAPHO综合征而接受骨显像检查的151名患者(105名女性,46名男性,平均年龄:53.5岁)的放射学报告和临床信息。
为了访问 ChatGPT-4.0(OpenAI,旧金山,加利福尼亚州),研究人员利用 OpenAI 的应用程序编程接口(可在 https://openai.com/ 上找到)作为大型语言模型,使其可以在 Microsoft Excel 中使用应用程序(ChatGPT for Excel、Apps Do Wonders;https://appsdowonders.com/chatgpt-for-excel/)。为了评估诊断性能,我们根据Kahn的分类标准并结合放射学报告和皮肤病变(例如掌跖脓疱病)的简明结果,比较了大语言模型识别SAPHO综合征的病例,以及由遵循卡恩标准的风湿病学家诊断的病例,考虑骨闪烁扫描、其他方式、皮肤观察和临床数据的成像结果。

结果
在151名临床诊断为SAPHO综合征的患者中,79名被诊断为SAPHO综合征。使用日语描述的放射学报告进行分析的敏感性为13.9%,特异性为98.6%,阳性预测值为91.7%,阴性预测值为51.1%,准确度为54.3%,不足以保证诊断准确性。使用英文描述的报告进行分析,敏感性为 83.5%,特异性为 69.4%,阳性预测值为 75.0%,阴性预测值为 79.4%,准确度为 76.8%,表明使用英语大语言模型进行的分析可能更有帮助。当仅用英文描述的放射学报告为在没有有关掌跖脓疱病等皮肤病变信息的情况下进行分析,表明有关掌跖脓疱病等皮肤病变的信息不会影响特异性,但与敏感性提高有关。
讨论
在这项研究中,用于分析骨闪烁扫描放射学报告以及掌跖脓疱病等皮肤症状信息的大型语言模型的诊断准确性达到了83.5%的敏感性、69.4%的特异性和 76.8%的总体准确性。这些结果表明,大语言模型对SAPHO综合征表现出较好的诊断性能。
尽管已有研究证实大语言模型的医学知识,但大语言模型协助诊断成像的应用仍然不发达。尽管一项研究使用大语言模型根据简洁的CT结果生成放射学报告,但没有研究根据骨闪烁扫描结果检查大语言模型的诊断性能。SAPHO综合征的诊断通常涉及多种方式。值得注意的是,我们的研究表明,结合骨闪烁扫描和皮肤病变的临床信息,可以使用大型语言模型相对准确地诊断SAPHO综合征。此外,我们的研究揭示了大型语言模型应用于日语和英语数据集时的诊断性能存在显着差异。这些模型的未来进步可能会缩小语言之间诊断性能的差距,这为进一步研究提供了一个有趣的领域。
观察到的低特异性可能是由于当区分骨炎和年龄相关退化具有挑战性时(如胸锁关节中所见),大型语言模型有时会将病例分类为SAPHO综合征。未来的研究应该扩大数据库,并针对区分骨炎和年龄相关退化存在问题的病例采用多变量评估方法。虽然这是一项初步研究,旨在将大型语言模型应用于构建可用于风湿性疾病影像诊断的数据库,但该研究对具有多种症状的疾病(例如 SAPHO 综合征、因此,该结果对未来的研究很有希望。
当前的研究遵循Kahn的分类标准,调查大型语言模型诊断SAPHO综合征的能力。这是通过分析简明的骨闪烁扫描报告并将其与风湿病学家的影像学解释和从临床数据得出的结论性诊断并列来实现的。标准主要结合了MRI、CT 和骨闪烁扫描以及其他成像技术,以方便医生做出诊断。必须承认,当训练集中缺少必要的数据时,大规模语言模型可能会产生不精确的响应。将深度学习应用于骨闪烁扫描以通过人工智能准确诊断SAPHO综合征的有效性仍然是一个悬而未决的问题;在真实的骨闪烁扫描图像上应用深度学习技术来诊断SAPHO 综合征的前景是一项未来的研究。鉴于SAPHO综合征的罕见性,未来的研究应结合多个医疗机构的病例分析,以提高研究结果的稳健性。
这项研究的局限性是对单个大型语言模型的分析结果,因此它没有与其他大型语言模型进行比较,未来将使用其他大型语言模型进行比较研究。 另一个限制是单个中心研究的病例数量有限,未来应考虑在多中心环境中研究更多病例。总之,本研究强调了大语言模型在分析骨闪烁扫描放射学报告在SAPHO综合征诊断中的潜在效用。