计算机科学家引入了一种减少多语言语言模型大小的新方法

  • 发布时间:2023-12-08 11:17:13 来源:
标签:
导读 多语言语言模型(MLM)是一种机器学习模型,可以预测、生成和提取多种语言的文本。它们对于跨语言交流、翻译等很有用,但当它们只专注于几种

多语言语言模型(MLM)是一种机器学习模型,可以预测、生成和提取多种语言的文本。它们对于跨语言交流、翻译等很有用,但当它们只专注于几种语言时往往效果最好。

随着语言模型变得越来越大,它们的性能也会提高——只要它们只以单一语言运行。尽管增加了模型的大小,但添加更多语言可能会由于“语言干扰”而降低其性能,即控制其在一种语言中的行为的模型参数(或变量)对其在另一种语言中的性能产生负面影响。

然而,约翰·霍普金斯大学计算机科学家团队开发了一种针对多种语言优化MLM的新方法。他们的方法被称为特定于语言的矩阵综合,减少了模型在每种新语言中运行所需的参数数量。

研究人员将于本周在新加坡举行的2023年自然语言处理经验方法会议上展示他们的工作。

“我们的重点是在使用更少的参数的情况下实现可比的性能,”团队成员、怀廷工程学院计算机科学系的博士生徐浩然解释道,他的建议是由合著者菲利普·科恩(PhilippKoehn)提供的建议。语言和语音处理中心以及人类语言技术卓越中心的研究科学家、CLSP成员KentonMurray。

与为传销中的每种附加语言设计单独的密集神经网络(松散地模仿人脑工作的计算系统)的传统方法相反,该团队选择使用低秩矩阵,该矩阵通过将数据压缩为减少适应新语言所需的参数数量。

这使得团队可以在不需要太多参数的情况下添加新语言,从而避免了Xu所说的大规模“参数爆炸”。

“想象一个有100名孩子的教室,每个孩子代表一种不同的语言,”Xu解释道。

“给每个孩子一套完整的颜料来表达自己,或者用他们的语言执行任务,将需要大量的颜料或模型参数。相反,如果你让他们只共享红色、黄色和蓝色,孩子们仍然可以创造“全色谱,同时使用更少的颜料和参数。而且由于一次只有一个孩子可以绘画,所以所有100个孩子都可以共享单一的三色调色板,从而大大减少了参数需求。”

该团队在使用能够理解多达95种不同语言的模型的测试中证明,他们的方法在多语言设置中实现了卓越的性能,同时使用更少的参数。至关重要的是,这可以显着减小语言模型的大小,而不会影响其性能。

该团队预测,由于部署较小语言模型所需的硬件要求降低,使用特定于语言的矩阵合成方法的单个便携式人工智能应用程序可能很快就能够处理数百种语言,而不是仅仅几种语言。

“我们的研究结果表明在各种尺寸的设备中部署真正的多语言人工智能模型的可行性,”徐补充道。

研究人员表示,他们的目标是将他们的方法应用于笨重的传销,并开发强大的人工智能系统,该系统可以理解多种语言,同时像英语一样有效地执行任务。

  • 免责声明:本文由用户上传,如有侵权请联系删除!