美国能源部橡树岭国家实验室的研究人员与国家癌症研究所(NCI)合作,利用可扩展人工智能(MOSSAIC)进行监测的建模结果,正在开展突破性工作,以规避全国癌症报告的信息日志堵塞问题。
通过使用先进的人工智能模型,橡树岭国家实验室的研究人员建立了一种从癌症病理报告中提取有价值信息的方法,以简化将数据上传到NCI数据库的过程。这种数据提取对于癌症研究人员更好地了解社区如何受到该疾病的影响至关重要,进而对于专家制定和实施预防策略至关重要。
这项研究发表在《生物医学和健康信息学杂志》上,详细介绍了团队对各种注意力机制的评估,这些机制通过机器学习训练人工智能模型,使其仅关注所需的信息。注意力机制通常用于使用MIMIC-III数据库提供的医疗代码对临床文档(例如出院摘要笔记)进行自动编码的模型中。然后,MOSSAIC团队利用这些发现来改进模型,从电子癌症病理报告中提取关键癌症数据元素的信息。
“我们正在开发可以读取原始癌症病理报告以查找有用信息的模型,”田纳西大学博士生兼开发团队成员ChristophMetzner说。“在这些报告中,我们找到了人体癌细胞的位点、亚位点、组织学或相对行为等信息。”
从病理报告中提取关键癌症数据元素并将其上传到人口级数据库可能需要长达两年的时间。有了人工智能,这个过程可以加速到实时。
为了提高模型的效率,多元化团队使用注意力机制来识别临床文档中的关键词并提取所需的信息。
“要理解注意力机制,你必须想象你的眼睛是如何工作的,”梅茨纳说。“当你观察周围的环境时,你的眼睛会聚焦在某些东西上,而模糊掉其他一切。这就是注意力机制的工作原理。他们成功地在癌症病理报告中识别出特定癌症类别的一系列重要的相关单词。”
通过比较不同的注意力机制策略,该团队能够评估不同的架构,例如卷积神经网络、循环神经网络和变压器,与模型的性能相关,这有助于确定在通常庞大的医院中定位有用信息的最佳框架出院总结笔记。
该研究的注意力机制研究结果侧重于全局单词级关系,使Metzner能够探索将注意力机制的接受域增加到短语级(而不是单词级上下文信息)的想法。实验表明,使用预训练信息初始化标签注意力可以提高所有模型的分类性能。
通过量化具有不同注意力机制的不同类型文本编码器架构的输出,该团队希望他们的研究能够帮助其他机器学习研究人员通过医学文本的自动分析来推动医学发展。
这些实验是使用橡树岭领导计算设施峰会超级计算机和橡树岭国家实验室的科学计算和数据环境在MIMICIII数据集上进行的。该项目由ASCRBrAVE和NCI-DOEMOSSAIC项目赞助,由ORNL生物统计和生物医学信息学组组长HeidiHanson领导。OLCF是美国能源部科学办公室的用户设施。
德克萨斯大学巴特尔分校为能源部科学办公室管理橡树岭国家实验室。作为美国物理科学研究的最大支持者,科学办公室正在努力解决当今时代一些最紧迫的挑战。欲了解更多信息,请访问energy.gov/science。