Schizophrenia:验证大型语言模型在精神分裂症谱系和情绪障碍患者药物诱发帕金森综合征病例报告中的信息提取能力:一项概念验证研究

时间:2025-03-25 12:09:26   热度:37.1℃   作者:网络

近年来,自然语言处理(NLP)技术的创新展示了其在挖掘非结构化临床信息中的潜力。然而,NLP技术仍处于概念阶段,许多模型需要额外的训练数据进行微调。大型语言模型(LLMs)作为一种新兴技术,能够通过提示策略从非结构化临床记录中提取有价值的信息,而无需显式的微调或额外的训练。尽管之前的NLP研究主要集中在电子健康记录(EHR)的数据挖掘上,但在精神病学领域,尤其是对现有病例报告的分析仍然较为罕见。病例报告的分析可能为那些缺乏高质量随机临床试验、Meta分析和大规模现象学研究的领域提供宝贵的临床见解,并有助于在缺乏强大临床试验数据的情况下完善治疗指南。

本研究旨在探讨LLMs是否能够利用已有的临床评分量表(如统一帕金森病评定量表(UPDRS)第三部分(运动检查))及其说明,从未经训练或微调的模型中提取药物诱发帕金森综合征(DIP)病例报告中的信息。通过利用这些已有的说明,我们旨在标准化和改进提示策略,以挖掘精神病学中的临床信息,这对于提高模型性能至关重要。DIP是继帕金森病(PD)之后第二常见的帕金森症状原因,估计在服用抗精神病药物的精神分裂症谱系障碍(SSD)患者中,其患病率在20%至35%之间。此外,其他药物,包括三环类抗抑郁药(TCAs)、选择性5-羟色胺再摄取抑制剂(SSRIs)和情绪稳定剂(如锂盐和丙戊酸盐),也可能引发DIP。尽管DIP的普遍性已被广泛认识,但关于其在SSD和情绪障碍(MOD)患者中的患病率和临床特征的争议仍然存在。因此,利用LLMs分析病例报告可以为DIP的流行病学、现象学和治疗策略提供有价值的见解,尤其是在缺乏随机临床试验、Meta分析和大规模研究的情况下。

在这项研究中,我们使用GPT-4o分析了已识别的DIP病例报告和系列,利用从精神病学评分量表中提取的标准化提示进行评估。通过指示GPT-4o评估其置信水平,我们探讨了这是否可以提高LLM响应与医学专家评估之间的一致性,特别是在考虑到潜在的计算需求和本地性能差异的情况下。总体而言,这种方法可以提高非结构化临床信息的可访问性,通过使用相同的临床评分量表增强与其他现有研究的可比性,并通过使用已有的说明简化提示策略来提高研究的可重复性。通过将LLMs应用于从病例报告中提取DIP相关信息,本研究引入了一种新的方法框架,可以扩展到精神病学的其他领域。这凸显了LLMs作为系统分析叙述性临床数据的强大工具的潜力,超越了传统的流行病学方法。

图1:手动提取与GPT提取的UPDRS运动症状患病率比较

研究结果显示,LLMs能够从DIP病例报告中系统地提取人口统计学和临床数据(如UPDRS项目),并将其转换为结构化格式,利用决策置信水平和已有的说明。定量分析表明,LLMs在识别DIP症状方面具有较高的准确性,尤其是在刚性、震颤和运动迟缓等常见症状的提取上,与文献中的发现一致。然而,人类验证仍然至关重要,特别是在震颤相关项目的评估上,因为严重程度的差异可能导致不一致。通过初步样本评估、明确定义震颤严重程度类别以及彻底评估从非结构化文本中提取的细节,可能会进一步提高准确性和可靠性。

尽管LLMs在自动化数据提取方面表现出色,但其使用必须遵守严格的法律和伦理准则,特别是为了防止敏感数据的无意泄露。本研究的一个关键伦理考虑是,病例报告中描述的患者并未明确同意基于AI的分析。然而,在我们的方法中,由于分析的信息已经公开,并通过LLM处理进一步匿名化,个人数据识别的风险极低。尽管如此,我们承认LLM驱动的病例报告和临床记录分析存在更广泛的伦理问题,特别是当这些数据与外部来源(如健康保险记录或社交媒体数据)结合时,存在重新识别的风险。

图2:GPT基于置信度过滤的重建准确性比较

本研究的局限性包括未系统评估较小的语言模型或探索不同的参数设置(如温度、top_p)以确定最佳配置,尽管90%的一致性率表明其性能足以满足我们的需求。此外,我们假设用户满意度与减少病例报告搜索中的手动劳动相关,但未正式评估可用性或用户体验,未来的研究应解决这一问题。尽管我们在PubMed中进行了系统搜索(仅限于英语和德语),但我们的审查主要是叙述性的,而非严格的系统性,因此可能忽略了其他数据库或语言中的相关数据。此外,我们依赖于每个报告的单次评分,未进行多次评估或一致性检查,未来的工作应纳入评分者间可靠性测试以增强结果的信心。最后,LLMs的持续改进(如最近发布的GPT-o1模型)有望进一步完善自动化数据提取,提供增强的诊断见解,并可能改变对代表性不足疾病的临床实践。

总之,这项概念验证研究强调了LLMs在精神病学研究和临床实践中增强人类专业知识的潜力。通过自动将非结构化医学信息转换为结构化形式,LLMs可能大大支持个性化医疗,并帮助完善诊断标准,特别是在DIP等领域的应用。

原始出处:

Volkmer, S., Glück, A., Meyer-Lindenberg, A., Schwarz, E., & Hirjak, S. (2025). Validating large language models against manual information extraction from case reports of drug-induced parkinsonism in patients with schizophrenia spectrum and mood disorders: a proof of concept study. Schizophrenia, 11, 47. https://doi.org/10.1038/s41537-025-00601-5

上一篇: 论著|首发抑郁患者转相情况及其影响因素分...

下一篇: 病例分享:发现7年了的肺结节,报告说较前...


 本站广告