自动化系统指导用户何时与人工智能助手协作

发布时间：2023-12-08 11:17:13 来源：

标签：

导读识别图像中的模式的人工智能模型通常比人眼做得更好，但并非总是如此。如果放射科医生使用人工智能模型来帮助她确定患者的X光检查是否显示

识别图像中的模式的人工智能模型通常比人眼做得更好，但并非总是如此。如果放射科医生使用人工智能模型来帮助她确定患者的X光检查是否显示肺炎迹象，她什么时候应该相信模型的建议，什么时候应该忽略它?

麻省理工学院和MIT-IBMWatsonAI实验室的研究人员表示，定制的入职流程可以帮助这位放射科医生回答这个问题。他们设计了一个系统，教用户何时与人工智能助手协作。

在这种情况下，训练方法可能会发现放射科医生相信模型建议的情况，但她不应该相信，因为模型是错误的。系统自动学习她应该如何与人工智能协作的规则，并用自然语言描述它们。

在入职期间，放射科医生使用基于这些规则的训练练习来练习与人工智能合作，并接收有关她的表现和人工智能表现的反馈。

研究人员发现，当人类和AI合作执行图像预测任务时，这种入门程序可将准确性提高约5%。他们的结果还表明，仅告诉用户何时信任人工智能而不进行培训会导致性能下降。

重要的是，研究人员的系统是完全自动化的，因此它学会根据人类和人工智能执行特定任务的数据来创建入职流程。它还可以适应不同的任务，因此可以在人类和人工智能模型协同工作的许多情况下扩展和使用，例如社交媒体内容审核、写作和编程。

“通常情况下，人们在没有经过任何培训的情况下就可以使用这些人工智能工具，以帮助他们弄清楚何时会有所帮助。这并不是我们对人们使用的几乎所有其他工具所做的事情-几乎总是有某种教程“但对于人工智能来说，这一点似乎缺失了。我们正试图从方法论和行为的角度来解决这个问题。”数据研究所社会与工程系统博士项目的研究生HusseinMozannar说道。、系统与社会(IDSS)以及有关此培训过程的论文的主要作者。

研究人员预计，这种入职培训将成为医疗专业人员培训的重要组成部分。

“例如，人们可以想象，在人工智能的帮助下做出治疗决定的医生首先必须进行类似于我们建议的培训。我们可能需要重新考虑从继续医学教育到临床试验设计方式的一切，”说资深作者DavidSontag，EECS教授，MIT-IBMWatsonAI实验室和MITJameelClinic成员，计算机科学与人工智能实验室(CSAIL)临床机器学习组组长。

Mozannar也是临床机器学习小组的研究员，他与电气工程和计算机科学专业的本科生JiminJ.Lee一起参与了这篇论文。DennisWei，IBM研究院高级研究科学家;PrasannaSattigeri和SubhroDas是MIT-IBMWatsonAI实验室的研究人员。该论文可在arXiv预印本服务器上获取，并将在神经信息处理系统会议上发表。

不断发展的培训

现有的人类与人工智能协作的入门方法通常由人类专家针对特定用例制作的培训材料组成，这使得它们难以扩展。莫扎纳尔说，一些相关技术依赖于解释，人工智能会告诉用户它对每个决定的信心，但研究表明解释很少有帮助。

“人工智能模型的功能在不断发展，因此人类可能从中受益的用例随着时间的推移而不断增长。同时，用户对模型的看法也在不断变化。因此，我们需要一个也不断发展的训练程序随着时间的推移，”他补充道。

为了实现这一目标，他们的入职方法是从数据中自动学习的。它是根据包含许多任务实例的数据集构建的，例如从模糊图像中检测交通灯的存在。

该系统的第一步是收集执行此任务的人类和人工智能的数据。在这种情况下，人类会尝试在人工智能的帮助下预测模糊图像是否包含交通信号灯。

系统将这些数据点嵌入到潜在空间中，潜在空间是相似数据点更靠近的数据表示。它使用一种算法来发现该空间中人类与人工智能合作不正确的区域。这些区域捕获人类信任人工智能预测但预测错误的实例，反之亦然。

当图像显示夜间高速公路时，人类可能会错误地相信人工智能。

发现区域后，第二种算法通常会利用大型语言模型，使用自然语言来描述每个区域。该算法通过寻找对比示例来迭代地微调该规则。它可能会将该区域描述为“当夜间高速公路时忽略人工智能”。

这些规则用于构建训练练习。引导系统向人类展示一个示例(在本例中是夜间模糊的高速公路场景)以及人工智能的预测，并询问用户图像是否显示交通灯。用户可以回答是、否，或者使用人工智能的预测。

如果人类错了，他们会看到正确的答案以及人类和人工智能在这些任务实例上的表现统计数据。系统对每个区域执行此操作，并在训练过程结束时重复人类错误的练习。

莫扎纳尔说：“在那之后，人类已经了解了这些区域的一些知识，我们希望他们将来能够利用这些知识来做出更准确的预测。”

入职提高准确性

研究人员在两项任务上对用户测试了该系统：检测模糊图像中的交通信号灯以及回答来自多个领域(例如生物学、哲学、计算机科学等)的多项选择题。

他们首先向用户展示了一张卡片，其中包含有关人工智能模型、其训练方式以及其在广泛类别上的表现的详细信息。用户被分为五组：一些人只看到了卡片，一些人经历了研究人员的入门程序，一些人经历了基线入门程序，一些人经历了研究人员的入门程序，并给出了何时应该或不应该的建议相信人工智能，其他人只得到建议。

只有研究人员在没有建议的情况下的入门程序显着提高了用户的准确性，将他们在交通灯预测任务上的表现提高了约5%，而没有减慢他们的速度。然而，入职培训对于回答问题任务并不那么有效。研究人员认为，这是因为人工智能模型ChatGPT为每个答案提供了解释，表明它是否值得信任。

但在没有引导的情况下提供推荐会产生相反的效果——用户不仅表现更差，而且需要更多时间来做出预测。

“当你只给某人建议时，他们似乎会感到困惑，不知道该做什么。这会破坏他们的流程。人们也不喜欢被告知该做什么，所以这也是一个因素，”莫扎纳尔说。

他补充说，如果这些建议是错误的，单独提供建议可能会伤害用户。另一方面，对于新手入门来说，最大的限制是可用数据量。他说，如果没有足够的数据，入职阶段就不会那么有效。

未来，他和他的合作者希望进行更大规模的研究，以评估入职的短期和长期影响。他们还希望在入职流程中利用未标记的数据，并找到有效减少区域数量而不遗漏重要示例的方法。

猜你喜欢

最新文章