考虑可转移跨模态表示学习的对齐高效图像句子检索

  • 发布时间:2024-02-28 16:39:28 来源:
标签:
导读 图像句子检索任务旨在搜索图像中给定的句子并从图像查询中检索句子。目前的检索方法都是有监督的方法,需要大量的标注进行训练。然而,考虑...

图像句子检索任务旨在搜索图像中给定的句子并从图像查询中检索句子。目前的检索方法都是有监督的方法,需要大量的标注进行训练。然而,考虑到劳动力成本,在许多应用(例如医学检索)中很难重新对齐大量多模态数据,这导致了无监督的多模态数据。

杨阳领导的研究团队在《计算机科学前沿》上发表了最新研究成果。

为了解决这个问题,团队努力通过设计对齐传输向非并行图像句子检索迈出一步,并提出了一种新颖的对齐高效图像句子检索方法(AEIR)。

在研究中,AEIR使用具有多模态一致性的其他辅助并行数据作为源域,以及缺失一致性的非并行数据作为目标域。与单模态迁移学习不同,AEIR将语义表示和模态一致性关系一起从源域迁移到目标域。

首先,AEIR使用源域中的跨模态并行数据学习跨模态一致性表示。然后AEIR联合优化基于对抗性学习的语义转移约束和基于度量学习的结构转移约束来学习跨域跨模态一致性表示,实现一致性知识从源域到目标域的迁移。

在不同迁移场景下进行的大量实验表明,语义迁移和结构迁移可以有效地学习跨领域的跨模态的不变特征。所提出的高效的基于对齐的图像句子检索网络验证了AEIR比当前的跨模态检索方法、半监督跨模态检索方法和跨模态转移方法更具优势。

考虑到域差异,未来的工作可以集中于进行积极的跨模式转移。

  • 免责声明:本文由用户上传,如有侵权请联系删除!