【神麻人智】机器学习模型对临床医生术后并发症预测的影响:围术期ORACLE随机临床试验
时间:2024-12-21 06:04:21 热度:37.1℃ 作者:网络
背景:准确识别术后并发症高风险患者,可能有助于减轻这些风险,为此,本试验评估了机器学习模型对临床医生风险评估的影响。
方法:这项单中心、前瞻性、随机临床试验招募年龄≥18岁的外科患者。在远程医疗支持下,麻醉医生和麻醉护士分别在有(辅助组)或无(非辅助组)机器学习模型预测的情况下审查患者的电子健康记录(EHR)。临床医生预测术后30天全因死亡率和术后7天内急性肾损伤(AKI)的可能性。主要结果为临床医生预测死亡率和AKI的接受者操作特征曲线下面积(AUROC),并比较辅助评估组和非辅助评估组之间的AUROC。
结果: 研究共分析5071名患者(平均(范围)年龄:58岁(18-100)岁;52%为女性),由89名临床医生进行评估。98名患者(2.2%)在术后30天内死亡,450名患者(11.1%)发生AKI。与非辅助组相比,辅助组的临床医生预测更符合模型(死亡率:加权kappa 0.75 vs 0.62,均值差异为0.13 [95%CI 0.10-0.17];AKI:0.79 vs 0.54,均值差异为0.25 [95%CI 0.21-0.29])。死亡率预测在辅助组(AUROC 0.793)和非辅助组(AUROC 0.780)之间相似(均值差异:0.013 [95% CI -0.070至0.097];P=0.76)。AKI预测在辅助组的AUROC为0.734,非辅助组为0.688(均值差异0.046 [95% CI -0.003至0.091];P=0.06)。
结论: 机器学习辅助并未提高临床医生的预测表现。未来仍需要进一步研究以阐明机器学习在实时围术期风险分层中的作用。
临床试验注册: NCT05042804
关键词:急性肾损伤;麻醉学风险评估;人工智能;临床试验;机器学习;术后并发症;术后死亡
引言
术后死亡仍然是全球范围内的重大问题,每年有超过400万人在手术后30天内死亡。死亡通常由AKI、呼吸衰竭或心血管事件等并发症引发。早期识别相关术后风险能够有助于优化术中或术后管理,以预防并发症或尽快识别并发症。
尽管现有数据能够识别术后并发症的高危患者,但准确的实时风险评估仍然很困难。首先,手术期间可用的数据量常常超过人类的信息处理能力,尤其是考虑到麻醉医生需要同时完成多项临床护理任务。其次,麻醉医生在综合可用数据作出临床决策时,往往受到偏见和其他认知错误的影响。风险评估的难度对同时负责多台手术患者的主治麻醉医生来说尤为明显。
研究人员提出使用机器学习(ML)模型来减轻麻醉医生在风险评估中面临的已知局限。目前已有ML模型可以预测术后死亡、AKI以及其他术后并发症,且具有中到高水平的区分能力。然而,目前尚不清楚麻醉医生是否会将这些模型的预测结果整合到其临床实践中,以识别高风险患者并制定风险缓解策略或加强监测。
本研究的主要目标是确定在有ML模型支持的情况下,麻醉医生是否能够更准确地预测术后并发症。次要目标为量化临床医生在其风险评估中整合ML预测信息的程度。
方法
研究设计
本研究符合CONSORT-AI指南的要求,并遵循《医学器械开发中的机器学习规范》。本研究为一项围术期预后风险评估与计算机学习增强(Perioperative ORACLE)的单中心随机试验(临床试验注册号:NCT05042804,注册日期为2021年9月13日)。该试验嵌套在手术室远程控制塔——导航信息、护理与安全(TECTONICS)随机临床试验(NCT03923699)中。TECTONICS试验评估一个由麻醉师组成的远程术中远程医疗干预(麻醉控制塔,ACT)对术后30天死亡、谵妄、呼吸衰竭和急性肾损伤(AKI)的影响。ACT干预包括对基于规则的生理警报反应性支持,并通过全面的患者案例审查向手术室麻醉科团队传达风险评估和治疗建议。对于共同招募的围术期ORACLE患者,全部患者案例审查随机分配到有(辅助组)或无(非辅助组)使用机器学习模型预测术后并发症的两组(见图1)。
图1. TECTONICS试验与ORACLE试验的关系。ORACLE包括了一个TECTONICS子集中患者。CA3,临床麻醉第三年(住院医师培训的最后一年);CRNA,注册麻醉护士;ML,机器学习。
设置和参与者
该试验在美国密苏里州圣路易斯市的巴恩斯-犹太医院进行。
ORACLE试验纳入标准:1.同时参与了TECTONICS试验;2.在2021年9月13日至2022年9月30日期间接受了全面的患者案例审查。
TECTONICS试验纳入标准:年龄≥18岁;在巴恩斯-犹太医院接受麻醉服务的外科手术患者;手术时间安排在每周一至周五的07:00至16:00之间。
ACT临床医生是TECTONICS研究团队的成员,包括麻醉科主治医生、住院医生和麻醉护士。
机器学习模型干预
该干预包括预测术后30天内任何原因导致的死亡和AKI的机器学习模型。简言之,使用来自同一机构的回顾性外科患者队列训练了不同架构的模型,并选择出在验证集中表现最好的模型。根据预先指定的计划,定期更新模型,并于2022年2月推出了新版本。预测的信息包括每种并发症的预测风险(0-100%)、预测风险随时间的变化图表以及每个输入特征对风险的贡献比例。
程序
作为TECTONICS试验的一部分,ACT临床医生通常在术后60分钟内进行患者案例审查。临床医生审查电子健康记录中的相关数据,如术前记录、实验室结果、诊断研究和当前麻醉记录的起始数据,然后在定制版AlertWatch:OR软件上填写一个电子病例审查表单。该表单中包括(但不限于)用五点Likert量表评分患者发生每项并发症的可能性:非常低风险、低风险、一般风险、高风险、非常高风险。
随机分配
病例审查进行1:1(辅助组:非辅助组)的随机分配。当ACT临床医生打开AlertWatch:OR填写病例审查表单时,随机分配结果显示。如果随机分配到机器学习辅助组,临床医生在完成病例审查表单之前查看机器学习模型输出的预测结果。如果随机分配到非辅助组,临床医生直接开始填写病例审查表单。为了评估随机化遵从性,临床医生自报在病例审查过程中是否使用了机器学习模型输出。如果临床医生使用了机器学习模型输出,他们还需回答是否认为模型预测结果令人惊讶,以及是否赞同机器学习的预测。
主要结果
共同主要结果是临床医生对术后30天全因死亡率和AKI预测的准确性。真实并发症状态通过电子健康记录(EHR)查询定义。术后30天全因死亡率定义为通过EHR记录的生命状态,包括住院期间死亡和任何出院后死亡。AKI的定义为术后48小时内肌酐增加≥0.3 mg/dl,或者术后7天内肌酐增加≥基线的1.5倍。如果术前未检测肌酐,则使用实验室参考范围的上限作为基线值。如果术后未测量肌酐(n=1095),则假定无AKI。如果患者术前肌酐值>4.0 mg/dl,或患者已满足术前AKI的肌酐标准,或术前已接受透析,或正在进行透析通路手术或肾移植,则排除这些患者用于AKI分析。
统计方法
所有分析均使用R语言4.2.3版本进行。
描述性统计包括类别变量的频率(百分比),以及连续变量的均值(标准差)或中位数(四分位数范围),具体取决于数据的分布情况。临床医生预测与机器学习预测的一致性通过加权Kappa系数(使用二次权重)量化。对于每个共同主要结果,构建了两个逻辑回归模型:一个模型使用机器学习辅助组的病例审查数据,另一个模型使用非辅助组的病例审查数据。每个逻辑回归模型将临床医生的预测(五级类别变量)作为自变量,真实的并发症状态作为因变量。使用DeLong检验比较机器学习辅助组和非辅助组模型的AUROC。主分析遵循意向治疗原则,包含所有可获得临床医生预测和真实并发症状态的患者数据。
结果
参与者特征
在2021年9月13日至2022年9月30日之间,研究共纳入5071名患者(见图2),其中2536名患者被随机分配到机器学习辅助组,2535名患者被分配到非辅助组(表1)。总共有89名不同的麻醉科临床医生参与试验。
图2. CONSORT流程图。AKI,急性肾损伤;ML,机器学习。
表1. 随机病例回顾的患者和临床医生特征。ACT,麻醉控制塔;CRNA,注册麻醉护士;ML,机器学习;SRNA,注册学生麻醉护士;TECTONICS,手术室远程控制塔——导航信息、护理与安全。
机器学习模型的前瞻性表现
预测死亡的机器学习模型的AUROC为0.807(95%CI 0.768-0.847),预测AKI的模型的AUROC为0.766(95% CI 0.746-0.787)。这两个模型在表现上有月度波动,但在2022年2月实施新模型版本后有所改善。
临床医生预测模式
当预测死亡时,在机器学习辅助组中临床医生的预测结果与机器学习模型的预测更为一致(即落在相同的五点Likert量表风险类别中),相比之下,非辅助组中的一致性较低(加权Kappa:辅助组0.75 vs 非辅助组0.62,均值差异:0.13 [95%CI 0.10-0.17];AKI:辅助组0.79 vs 非辅助组0.54,均值差异:0.25 [95% CI 0.21-0.29])(见图3和图4)。
图3. 临床医生对术后死亡预测的分布。通过治疗分配(辅助组vs 非辅助组)和ML预测进行分层。蓝条表示临床医生预测与分类ML预测相匹配的病例。ML,机器学习。
图4. 临床医生对术后AKI预测的分布。通过治疗分配(辅助组vs 非辅助组)和ML预测进行分层。蓝条表示临床医生预测与分类ML预测相匹配的病例。ML,机器学习。
主要结果:死亡预测
关于死亡的主要分析包括4459名患者,其中98名(2.2%)在术后30天内死亡。机器学习辅助组的临床医生预测死亡的AUROC为0.793(95%CI 0.735-0.851),而非辅助组的临床医生预测死亡的AUROC为0.780(95%CI 0.717-0.842)(见图5a)。两组之间的AUROC差异为0.013(95%CI -0.070至0.097,P=0.76)。
主要结果:AKI预测
关于AKI的主要分析包括4055名患者,其中450名(11.1%)发生了AKI。机器学习辅助组的临床医生预测AKI的AUROC为0.734(95%CI 0.703-0.766),而非辅助组的临床医生预测AKI的AUROC为0.688(95%CI 0.652-0.725)(见图5b)。两组之间的AUROC差异为0.046(95% CI -0.003至0.091,P=0.06)。
图5. 接受者操作特征曲线下面积。(a)术后30天内死亡预测。(b)术后AKI预测。曲线下面积AUC;ML,机器学习。
讨论
在这项单中心随机临床试验中,临床医生在有无机器学习模型预测算法辅助的情况下,对术后死亡率的预测均表现出较高的区分度。对于急性肾损伤(AKI)的预测,临床医生表现出中等的区分度,并且机器学习辅助组和非辅助组之间的区分度差异没有统计学意义。对于这两个模型,前瞻性预测中的表现较回顾性验证数据集中的表现有所下降。
既往有研究表明机器学习与临床医生在围术期预测任务中的表现。在一项模拟研究中,20名重症监护医生在审查MySurgeryRisk工具后,对于150名患者的六项术后并发症预测表现更为准确。然而,在该工具的实时部署中,外科医生的预测准确性并未发生改变。在另一项模拟研究中,5名麻醉医生在使用机器学习模型预测术中低氧血症时,比未使用时表现出了更高的区分度。最后,68名患者参与的HYPE试验报告显示,在选择性非心脏手术中使用早期警告系统减少了加权平均低血压时间,但在后续的不同研究者评估中未发现差异。这些试验没有明确测量临床医生的预测,但观察到的效果可能是由于临床医生对低血压的预测发生了变化。
本试验与这些先前研究存在一些关键差异。在类似研究中,临床医生除了预测外没有其他任务,而在ORACLE试验中,临床医生在进行术中远程支持的同时,也需要进行病例审查。在一些使用回顾性病例的研究中,通过对阳性病例进行过度抽样,可能人为提高了结果的并发症发生率,从而影响了临床医生的表现。一些试验包含的临床医生较少,他们可能随着时间的推移对机器学习模型输出的使用更加熟练,而ORACLE试验包含了众多具有不同背景和经验的临床医生。总体来看,围术期结果预测的文献与医学其他领域的文献类似,大约50%的研究报告称机器学习辅助的临床医生比非辅助的临床医生表现更好。
重要的是,ORACLE试验中的临床医生在机器学习辅助组中的预测结果更容易与机器学习模型的输出一致。这表明机器学习模型确实影响了临床医生的预测。然而,这种影响无论机器学习预测是否正确都会发生,这引发了“自动化偏差”的担忧,即机器学习的输出很快被接受,而没有经过充分的批判性审查。因此,组间区分度没有统计学显著差异,可能部分源于机器学习模型在前瞻性预测中的表现较回顾性评估差。性能下降的原因可能包括数据漂移或概念漂移。这两种漂移可能会改变输入特征与预测目标之间的关系,导致模型性能下降。前瞻性预测中表现较差也可能是算法开发过程中由于多次实验而无意中过拟合的迹象。
本试验创新点主要如下:首先,嵌套在TECTONICS试验中,使得许多患者案例可以高效审查。其次,患者案例由许多具有不同背景的麻醉科临床医生进行审查,包括麻醉科主治医生、住院医生和麻醉护士。第三,病例审查是在手术过程中实时进行的,并且机器学习模型利用来自电子健康记录(EHR)的实时数据流进行预测。使用实时病例审查使得本试验能够更真实地反映机器学习模型在临床即时使用时的表现。第四,机器学习模型的用户界面是根据麻醉医生的需求设计的。第五,机器学习模型在性能上与临床专家医生相当,甚至更好,尽管它访问的输入特征较少。这表明机器学习在数据审查中可能发挥作用,特别是在团队成员中有些人经验较少或在不同的领域中具备不同的专业知识时。
尽管如此,本试验也存有局限性。首先,机器学习模型在前瞻性预测中的区分度较回顾性测试时有所下降。如前所述,可能限制机器学习模型在辅助组中的预测改善。其次,病例审查是在远程医疗干预的背景下进行的,而不是在患者床边进行的。但是临床医生报告在ACT中使用的评估工作流程与他们在术前为患者提供面对面麻醉护理时使用的工作流程非常相似。第三,研究中无法测量临床医生在审查每个病例时花费的时间。如果机器学习模型可以帮助临床医生更快速地得出相同的风险评估,即使准确度不变,也可能带来价值。第四,临床医生使用五点Likert量表评估风险,而不是连续量表,这可能减少了我们检测组间区分度差异的能力。然而,我们认为五点量表捕捉了最具临床意义的风险评估。第五,可能有一些出院后死亡未被记录,尽管两组可能都会受到同样的影响。第六,本试验在单一的研究医学中心进行,因此结果可能在其他场景中有所不同。第七,机器学习辅助组的区分度稍微低于非辅助组,这可能表明对ML模型的信任不足。第八,结果只是表明使用ML辨别的差异,而不是校准的差异,对临床决策也很重要。第九,如果术后未测量肌酐,则假定AKI不存在。然而,在排除这些患者的敏感性分析中,结果相似。第十,虽然研究规模很大,但区分度差异的置信区间相对较宽,特别是对于死亡,事件数量较少。
总之,这项单中心随机临床试验评估了机器学习模型对临床医生术后死亡率和AKI预测的影响。研究发现机器学习模型在辅助组中未能显著提高临床医生的预测表现。尽管机器学习对临床医生预测结果有影响,但这并未转化为死亡率或AKI预测的准确性提升,表明机器学习在实时围术期风险评估中的作用仍需进一步研究。
未来研究应关注如何提高机器学习模型的前瞻性表现,特别是在多中心设置中进一步验证机器学习辅助预测的有效性。此外,应探索如何设计能更好支持临床医生决策过程的机器学习系统,特别是在考虑到数据漂移和概念漂移的情况下,如何提升机器学习模型的适应性和可靠性。
原文链接:
Fritz BA, King CR, Abdelhack M,et al. Effect of machine learning models on clinician prediction of postoperative complications: the Perioperative ORACLE randomised clinical trial. Br J Anaesth. 2024 Nov;133(5):1042-1050. doi: 10.1016/j.bja.2024.08.004. PMID: 39261226; PMCID: PMC11488162.