评论|使用大型语言模型回复患者信息,或提供广泛的教育、自我管理建议和应急计划

柳叶记事本 2024-05-18 08:18:56

电子健康记录(EHR)系统使临床医生的行政责任不断增加,从而转移了他们对患者直接护理的注意力,并加剧了他们的职业倦怠[1]。为此,人们开始采用大型语言模型(LLMs)来简化临床和行政任务。值得注意的是,Epic目前正在利用Open AI的ChatGPT模型(包括GPT-4)来通过在线门户发送电子信息[2]。在过去的5-10年中患者门户网站信息的数量不断增加[3],医院目前正在部署通用大型语言模型以管理这一负担,其中起草对患者信息的回复是大型语言模型在电子健康记录中最早的应用之一[2]。

以往的研究已经评估了大型语言模型对生物医学和临床知识问题的回复质量[4][5][6]。然而,它们在提高效率和减轻认知负担这方面的能力尚未得到证实,对于临床决策的影响也尚不清楚。为了填补这一知识空白,我们开展了一项概念验证最终用户研究以评估大型语言模型辅助患者信息回复的效果和安全性。这项研究呼吁人们采取一种可衡量的方法来在电子健康记录中实施大型语言模型,包括反映它们如何在临床环境中实际使用并考虑人为因素[7]。

在这项于2023年在美国马萨诸塞州波士顿市布列根和妇女医院(Brigham and Women’s Hospital)开展的两阶段观察性研究中,我们试图了解大型语言模型对电子健康记录中患者电子门户信息的辅助作用(即使用大型语言模型起草回复以供临床医生编辑)将如何影响主观效率、临床建议和潜在危害。整体研究方案见附录(第1页)。

在少许示例的提示下,GPT-4为癌症患者生成了100个情景与症状问题对。这些内容由肿瘤专家(DSB)进行人工审核和编辑,以确保它们反映了真实的临床情况。此外,GPT-4也根据提示生成了对于这些患者问题的回复。提示方法见附录(第2页)。

六位获得委员会认证的放射肿瘤主治医师(SM、FH、HE、BHK、FEC和JL)首先按照他们通常在临床实践中使用的方式回复了患者信息(阶段1:人工回复)。然后他们被要求编辑GPT-4的回复(大型语言模型草稿),使其成为临床上可接受的回复以发送给患者(阶段2:大型语言模型辅助回复)。大型语言模型辅助患者信息回复的效果通过对质量、安全性和有用性的评估和对回复内容的分析来探究。在对医生进行了信息来源的屏蔽后,每位医生评估了两个阶段中的26个场景和信息对,产生了56个双重注释病例和44个单一注释病例。附录中包括了这些情景和调查是如何呈现的以及指示和真实回复的示例(第3-7页)。

为了评估第1阶段和第2阶段生成的回复(人工回复、大型语言模型草稿、大型语言模型辅助回复)在内容上的差异,我们制定了指南来注释10个内容类别(附录第8页)。由两位未参加先前两阶段的医生(DSB和MA)通过基于内容的分类评估对50份回复进行了双重注释;所有类别的Cohen’s kappa都在0.75或以上。剩余的回复则由DSB单一注释。

统计分析使用SciPy v1.10.1中的Python统计包进行。所有的配对比较均采用Mann-Whitney U检验。p小于0.05为具有统计学意义。所有OpenAI应用程序编程接口的回复设置均为temperature=0和Top_p=0。本研究已获得丹娜-法伯/哈佛癌症中心机构审查委员会(Dana-Farber/Harvard Cancer Center Institutional Review Board)的批准。

人工回复的平均词数(34词)少于大型语言模型草稿(168词)和大型语言模型辅助回复(160词;所有比较中p<0.0001)。第1和第2阶段的完整调查结果见附录(第12页)。评估医生认为,在156份回复中,有11份(7.1%)大型语言模型草稿存在严重伤害风险,有1份(0.6%)则存在死亡风险。大多数有害的回复是由于错误地确定或传达了情景的敏锐度和建议采取的行动(附录第19页)。评估医生报告说,在156个案例中,大型语言模型提高了其中120例(76.9%)的主观效率。

医生之间在人工回复临床内容方面的一致性较差(平均Cohen’s kappa为0.10),在大型语言模型辅助下情况则有所改善(平均Cohen’s kappa为0.52)。

大型语言模型辅助回答的内容与大型语言模型草稿(p=0.81)的相似度高于人工回复(p<0.0001;如图)。与人工回复相比,大型语言模型草稿不太可能包含直接临床行动的内容,包括指导患者紧急或非紧急就诊以进行评估,以及描述临床医生针对问题将采取的行动(均为p<0.0001);但它更有可能提供广泛的教育、自我管理建议和应急计划(均为p<0.0001)。

图:回应内容比较

我们的研究结果表明,大型语言模型辅助可以提供所谓的两全其美的方案,在减轻医生的工作量的同时提高医生回复的一致性,并增强回复的信息量和教育价值。这些大型语言模型额外生成的内容通常是可以接受的,且造成的危害风险较少。

然而,我们也发现现有的评估不足以理解临床效用和风险,因为大型语言模型可能会意外地改变临床决策。此外,医生可能会直接采用大型语言模型的评估,而不是利用它们的回复来促进自己评估的交流。在人机协作框架中使用大型语言模型时,它可能会影响临床决策,因此需要对其进行监控并减轻影响。在使用大型语言模型辅助时,医生回复的内容发生了变化,这表明存在自动化偏差和锚定,可能会对患者的治疗效果产生下游影响。在大型语言模型草稿和大型语言模型辅助回复两种情况中医生间一致性和回答内容的相似性都有所提高,这表明医生可能并不只是用大型语言模型来更好地表达他们自己的评估,而是直接采用了大型语言模型的评估。这一发现提出了一个问题:大型语言模型在多大程度上是支持决策而不是制定决策。此外,有少数的大型语言模型草稿在不加编辑的情况下可能会导致严重伤害或死亡。因此,我们需要新的评估和监测方法,尤其是在人们对于大型语言模型的信任度越来越高且临床医生对其的警惕性下降和依赖性增强的情况下[8]。在我们的研究中,有害内容的产生通常与对场景敏锐度认识或沟通不畅有关,而非源于生物医学知识的错误。对编码的一般生物医学知识(如医学考试成绩)进行评估是走向临床应用的第一步,但不应被视为护理患者所需的临床专业知识和敏锐度的替代品。

尽管这只是一项模拟研究,但这些早期发现提供了一个安全信号,表明我们有必要在预期的临床环境中对大型语言模型进行全面评估,以反映精确的任务和人为监督的水平[9]。展望未来,电子健康记录供应商和机构迫切需要提高评估方法的透明度。大型语言模型辅助是减轻临床医生工作量的一个很有前景的途径,但也可能会对患者的治疗效果产生下游影响。在这种情况下,有必要像对待其他医疗设备软件一样对大型语言模型进行严格的评估[10]。在医疗行业逐渐接受这些先进技术时,医生和机构必须要谨慎行事,争取在这些技术的创新潜力和对患者安全和护理质量的承诺之间取得平衡。END

Shan Chen, Marco Guevara, Shalini Moningi, Frank Hoebers, Hesham Elhalawani, Benjamin H Kann, Fallon E Chipidza, Jonathan Leeman, Hugo J W L Aerts, Timothy Miller, Guergana K Savova, Jack Gallifant, Leo A Celi, Raymond H Mak, Maryam Lustberg, Majid Afshar, Danielle S Bitterman

利益声明(上下滑动查看)

DSB reports being an Associate Editor of Radiation Oncology at HemOnc.org (no financial compensation, unrelated to this work, and recieving funding from American Association for Cancer Research, unrelated to this work. HJWLA reports advising and consulting for Onc.AI, Love Health, Sphera, Editas, AstraZeneca, and Bristol Myers Squibb, unrelated to this work. RHM reports being on an Advisory Board for ViewRay and AstraZeneca; Consulting for Varian Medical Systems and Sio Capital Management; and honorarium from Novartis and Springer Nature. JL reports research funding from Viewray, NH Theraguix, and Varian. ML reports advisory and consulting for Pfizer, Gilead, Novartis, and AstraZeneca, unrelated to this work. BHK reports research funding from Botha-Chan Low Grade Glioma Consortium (National institutes of Health [NIH]-USA K08DE030216-01). All other authors declare no competing interests. The authors acknowledge financial support from the Woods Foundation (DSB, RHM, BHK, and HJWLA) NIH (NIH-USA U54CA274516-01A1 (SC, MG, BHK, HJWLA, GKS, and DSB), NIH-USA U24CA194354 (HJWLA), NIH-USA U01CA190234 (HJWLA), NIH-USA U01CA209414 (HJWLA), and NIH-USA R35CA22052 (HJWLA), NIH-NIDA R01DA051464 (MA), R01GM114355 (GKS), NIH-USA R01LM012973 (TM and MA), NIH-USA R01MH126977 (TM), NIH-USA U54 TW012043-01 (JG and LAC), NIH-USA OT2OD032701 (JG and LAC), NIH-USA R01EB017205 (LAC), and the EU European Research Council (HJWLA 866504), all outside of the submitted work. All data collected and generated in this study, after de-identification, are available at https://github.com/AIM-Harvard/OncQA. SC: conceptualisation, data curation, formal analysis, investigation, methodology, visualisation, and writing (original draft, review, and editing). MG: conceptualisation, data curation, and formal analysis. SM, FH EH, BHK, FEC, JL: data curation, investigation, and methodology. RHM: data curation, investigation, methodology, and writing (review and editing). HJWLA: investigation, methodology, resources, and writing (review and editing). JG: formal analysis, investigation, methodology, visualisation, and writing (review and editing). TM and GKS: formal analysis, investigation, methodology, and writing (review and editing). ML data curation, formal analysis, investigation, and methodology. LAC formal analysis, investigation, supervision, and writing (review and editing). MA: conceptualisation, data curation, formal analysis, investigation, methodology, supervision, and writing (review and editing). DSB: conceptualisation, data curation, formal analysis, investigation, methodology, supervision, visualisation, resources, and writing (original draft, review, and editing). SC and DSB directly accessed and verified the underlying data reported in the manuscript. All authors have full access to all the data in the study and accept responsibility to submit for publication.

参考文献(上下滑动查看)

1.Adler-Milstein J Zhao W Willard-Grace R Knox M Grumbach K

Electronic health records and burnout: time spent on the electronic health record after hours and message volume associated with exhaustion but not with cynicism among primary care clinicians.

J Am Med Inform Assoc. 2020; 27: 531-538

2.Epic

Epic and Microsoft bring GPT-4 to EHRs. May 5, 2023.

https://www.epic.com/epic/post/epic-and-microsoft-bring-gpt-4-to-ehrs

Date accessed: March 1, 2024

3.Nath B Williams B Jeffery MM et al.

Trends in electronic health record inbox messaging during the COVID-19 pandemic in an ambulatory practice network in New England.

JAMA Netw Open. 2021; 4: e2131490

4.Chen S Kann BH Foote MB et al.

Use of artificial intelligence chatbots for cancer treatment information.

JAMA Oncol. 2023; 9: 1459-1462

5.Singhal K Azizi S Tu T et al.

Large language models encode clinical knowledge.

Nature. 2023; 620: 172-180

6.Ayers JW Poliak A Dredze M et al.

Comparing physician and artificial intelligence chatbot responses to patient questions posted to a public social media forum.

JAMA Intern Med. 2023; 183: 589-596

7.Sujan M Furniss D Grundy K et al.

Human factors challenges for the safe use of artificial intelligence in patient care.

BMJ Health Care Inform. 2019; 26: e100081

8.Cabitza F Rasoini R Gensini GF

Unintended consequences of machine learning in medicine.

JAMA. 2017; 318: 517-518

9.Bitterman DS Aerts HJWL Mak RH

Approaching autonomy in medical artificial intelligence.

Lancet Digit Health. 2020; 2: e447-e449

10.Meskó B Topol EJ

The imperative for regulatory oversight of large language models (or generative AI) in healthcare.

NPJ Digit Med. 2023; 6: 120

中文翻译仅供参考,所有内容以英文原文为准。

0 阅读:0

柳叶记事本

简介:感谢大家的关注