尽管人工智能软件总体上与两种评分模型(TIMI和HEART)一致,但“在不同场合呈现相同的患者数据时,其不一致引起了对其可靠性的担忧,”作者在描述发表在PLOSOne上的研究结果时写道。
该论文的通讯作者是西雅图华盛顿大学医学院家庭医学临床讲师ThomasHeston博士。合著者劳伦斯·刘易斯博士是圣路易斯华盛顿大学的急诊医学专家。
“近一半的情况下,ChatGPT对同一患者给出的风险评估与现有的临床工具不同。在高风险的临床情况下,高度可变的反应是危险的,也是一个重大危险信号,”赫斯顿说。
他将这些发现描述为“对医疗人工智能炒作的现实检验”。
ChatGPT-4是一个基于互联网的聊天机器人,经过大量文本数据的训练。它旨在对查询提供快速、连贯、适合上下文的响应。
赫斯顿想要研究其评估非创伤性胸痛的潜力,这是急诊室患者的常见症状,其中许多人出于谨慎而住院过夜。这种症状通常是良性的,医院已经认识到这些症状与资源的过度使用有关。
“在一个人流量大的急诊室,你只是第一次看病人,但他们显然病了,你需要快速了解他们的一切,”赫斯顿描述道。“这就是ChatGPT所擅长的。如果您能够以符合HIPAA的方式输入患者的完整医疗记录,那么理想情况下它会在几秒钟内提取出相关数据和危险信号。”
在这项研究中,ChatGPT-4被输入了通常由急诊科临床医生收集的一些信息,例如个人健康史、检查、实验室测试结果和影像学研究的各个方面,并插入到模型中以生成分数预测风险。先前的研究独立表明,TIMI和HEART模型可以可靠地预测胸痛病例中的主要不良心脏事件。
研究人员创建了三组模拟患者数据:一组基于TIMI模型变量,一组基于HEART模型变量,第三组包含44个随机变量,例如年龄和疼痛严重程度,但不包括实验室测试结果。
ChatGPT-4对每个数据集分别进行了五次评分,并将其分数与TIMI和HEART固定分数进行比较。
ChatGPT-4在45%到48%的时间里产生的风险评分与TIMI或HEART评分不同。作者发现,在44变量模型中,ChatGPT-4的五个分数中的大多数只有56%的时间一致,而且风险分数的相关性很差。
“我们的假设是,ChatGPT会更像计算机一样处理数据,当提供完全相同的数据时,每次都会给出完全相同的结果,”Heston说。“我们发现,即使获得与TIMI或HEART完全相同的信息,ChatGPT也会经常出现不同的风险。如果TIMI评分为2的较低风险,ChatGPT将在五次尝试中给出0、1、2或3的风险评分。
“这不是计算器。它有这种随机性因素,”他继续说道。“它将以一种方式处理数据,下一次则以不同的方式处理。”
然而,令赫斯顿感到鼓舞的是,聊天机器人的反应并没有反映出基于模拟患者种族或性别的任何显着偏见——也就是说,倾向于为某些人群分配相对较低的心脏病风险分数——其他研究也不断发现这一点自20世纪90年代以来。
“这是好消息,”他说。“我们的其他发现对所有‘ChatGPT很棒’的研究来说更像是一个警示。”大型语言模型非常擅长给出第二意见,但它们不擅长给出一致准确的诊断。”