医疗保健领域的人工智能(AI)模型是一把双刃剑,模型可以改善某些人群的诊断决策,但当模型吸收了有偏见的医疗数据时,会导致其他人群的决策恶化。
脑机接口——艺术诠释。
考虑到临床决策的现实风险和死亡风险,研究人员和政策制定者正在采取措施确保人工智能模型安全可靠,并且它们的使用将改善结果。
美国食品和药物管理局负责监管人工智能驱动的医疗软件和机器学习。它为开发人员发布了指南,包括呼吁使人工智能模型使用的逻辑透明或可解释,以便临床医生可以审查潜在的推理。
然而,《美国医学会杂志》的一项新研究发现,即使提供了人工智能解释,临床医生也可能会被有偏见的人工智能模型愚弄。
“问题在于临床医生必须理解解释所传达的信息以及解释本身,”第一作者、博士生萨拉·贾布尔(SarahJabbour)说。工程学院计算机科学与工程专业的候选人。
密歇根大学团队研究了急性呼吸衰竭患者的人工智能模型和人工智能解释。
freestar
“确定患者呼吸衰竭的原因可能很困难。在我们的研究中,我们发现临床医生的基线诊断准确率约为73%,”该研究的共同资深作者、密歇根大学医学院内科副教授MichaelSjoding医学博士说道。
“在正常的诊断过程中,我们会考虑患者的病史、实验室检查和影像学结果,并尝试综合这些信息并做出诊断。模型有助于提高准确性是有道理的。”
Jabbour,Sjoding,共同资深作者、计算机科学与工程副教授JennaWiens博士及其多学科团队设计了一项研究,评估457名住院医生、执业护士和医师助理在有或没有协助的情况下的诊断准确性来自人工智能模型。
每位临床医生都被要求根据他们的诊断提出治疗建议。一半被随机接收带有人工智能模型决策的人工智能解释,而另一半则仅收到没有任何解释的人工智能决策。
临床医生获得了呼吸衰竭患者的真实临床情况,以及AI模型对患者是否患有肺炎、心力衰竭或慢性阻塞性肺疾病(COPD)的评级。在随机查看解释的一半中,临床医生获得了人工智能模型在胸部X光照片中查看位置的热图或视觉表示,作为诊断的基础。
研究小组发现,临床医生接受人工智能模型训练后可以做出相当准确的预测,但没有解释,其准确性提高了2.9个百分点。经过解释后,他们的准确率提高了4.4个百分点。
然而,为了测试一种解释是否能让临床医生识别人工智能模型何时明显有偏见或不正确,该团队还向临床医生提供了经过故意训练有偏见的模型,例如,如果患者患有肺炎,则该模型可以预测患肺炎的可能性很高。80岁以上
“人工智能模型很容易受到训练数据中的捷径或虚假相关性的影响。鉴于女性心力衰竭诊断不足的数据集,该模型可能会发现女性与心力衰竭风险较低之间的关联。”Wiens解释道。
“如果临床医生依赖这样的模型,它可能会放大现有的偏见。如果解释可以帮助临床医生识别错误的模型推理,这可能有助于减轻风险。”
然而,当临床医生看到有偏见的AI模型时,他们的准确性下降了11.3个百分点,并且明确强调AI正在查看不相关信息(例如80岁以上患者的骨密度较低)的解释并不能帮助他们从疾病中恢复过来。这种业绩严重下滑。
该团队指出,观察到的性能下降与之前的研究一致,即用户可能被模型欺骗。
“要开发更好的解释工具,以便更好地向临床医生传达模型为何以他们可以理解的方式做出特定决策,还有很多工作要做。这需要与跨学科的专家进行大量讨论,”贾布尔说。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!