European Radiolog:人工智能在大语言模型辅助脑MRI鉴别诊断中的协作应用

时间:2025-04-03 12:09:11   热度:37.1℃   作者:网络

放射学鉴别诊断在临床医疗中起着至关重要的作用,对诊断和治疗决策有着深远的影响。要从影像检查结果中准确确定相关的鉴别诊断,需要具备高度专业的解剖学和病理生理学知识,同时还要熟练掌握视觉图像模式的识别能力,并能综合分析全面的临床信息。

最近的研究表明,大语言模型(LLMs)在根据病例呈现来进行放射学鉴别诊断方面具有日益显现的潜力。这些研究将大语言模型给出的诊断建议与专家评估或已确诊的诊断结果进行了比较。在最近的一项研究中,在 GPT-4 辅助下的放射科医生表现出诊断性能略有提升,且信心水平显著提高,但有 7.4% 的回复中存在 “幻觉”(即生成不符合事实的信息)现象。然而,在这种情况下,人类用户与大语言模型系统之间复杂的互动关系仍有待更详细地探究。

以往的文献揭示了人机交互在放射学诊断性能方面的关键影响。一项使用基于人工智能的乳腺钼靶图像分类系统的研究表明,无论是经验不足的还是经验丰富的阅片者,都容易受到自动化偏差的影响,自动化偏差是指人类用户倾向于遵循自动化决策系统给出的错误建议。同样,有研究显示,错误的人工智能结果会对放射科医生基于胸部 X 光片检测肺癌的表现产生负面影响。另一项研究则强调了在人工智能辅助膝关节磁共振成像(MRI)阅片过程中,建立有效的人机协作协议的重要性。类似地,人机协作的各个要素可能会影响大语言模型辅助下的鉴别诊断结果。在现实临床实践中,放射科医生或放射科住院医师很可能会将大语言模型用作支持诊断推理的辅助工具,而不是完全依赖其进行自主鉴别诊断。在这种情况下,人类医学专业人员在整合现有临床和影像信息、提出准确的问题、批判性地审查大语言模型的回复以及开展进一步研究以最终得出结论等方面,都起着关键作用。特别是考虑到大语言模型系统存在众所周知的生成事实性错误信息(即所谓的 “幻觉”)的倾向,全面评估用户与这些系统实际的交互方式就显得至关重要。


最近,发表在European Radiology 上的一篇文章探究了人类与大语言模型(LLM)协作对脑部磁共振成像(MRI)鉴别诊断的准确性和效率的影响。

这是一项回顾性研究,将 40 例诊断具有挑战性但已明确诊断结果的脑部 MRI 病例随机分为两组,每组 20 例。六名平均阅脑部 MRI 经验为 6.3 个月的放射科住院医师,分别采用传统互联网搜索(传统方式组)和基于大语言模型的搜索引擎及混合聊天机器人(大语言模型辅助组)来评估其中一组病例。采用交叉设计,以确保每种工作流程对每个病例的检查频率相同。对于每个病例,要求阅片者确定最有可能的三种鉴别诊断。由一组放射科医生对大语言模型给出的回复进行分析。通过观察和参与者反馈,总结出人类与大语言模型交互过程中的优势和挑战。

大语言模型辅助的脑部 MRI 鉴别诊断准确性更高(正确诊断数:大语言模型辅助组为 70/114,占比 61.4%;传统方式组为 53/114,占比 46.5%,卡方检验,p = 0.033)。在诊断时间和信心水平方面未观察到差异。对大语言模型回复的分析显示,在 82.1% 的病例(60/73)中,大语言模型的正确建议能够转化为阅片者的正确诊断。阅片者对病例的不准确描述(占病例的 9.2%)、大语言模型的 “幻觉” 现象(占病例的 11.5%)以及大语言模型回复缺乏足够的背景信息等,被确定为人类与大语言模型交互过程中存在的挑战。


表 与会者对LLM辅助鉴别诊断的评价

本项研究表明,人类与大语言模型的协作有潜力改善脑部 MRI 的鉴别诊断。然而,为确保其有效应用和获得用户认可,仍需解决一些挑战。

原文出处:

Su Hwan Kim,Jonas Wihl,Severin Schramm,et al.Human-AI collaboration in large language model-assisted brain MRI differential diagnosis: a usability study.DOI:10.1007/s00330-025-11484-6

上一篇: European Radiology :...

下一篇: Cancer Res:中山大学黄斌/陈凌...


 本站广告