软件工程师开发出一种无需矩阵乘法即可运行AI语言模型的方法

  • 发布时间:2024-06-27 17:39:25 来源:
标签:
导读 加州大学的一个软件工程师团队与苏州大学的一位同事和 LuxiTec 的另一位同事合作,开发出了一种无需使用矩阵乘法即可运行 AI 语言模型

加州大学的一个软件工程师团队与苏州大学的一位同事和 LuxiTec 的另一位同事合作,开发出了一种无需使用矩阵乘法即可运行 AI 语言模型的方法。该团队在arXiv预印本服务器上发表了一篇论文,描述了他们的新方法以及它在测试过程中的效果如何。

随着 ChatGPT 等 LLM 的功能不断增强,它们所需的计算资源也随之增加。运行 LLM 的过程的一部分涉及执行矩阵乘法 (MatMul),其中数据与神经网络中的权重相结合,以提供查询的最佳答案。

早期,AI 研究人员发现图形处理单元 (GPU) 非常适合神经网络应用,因为它们可以同时运行多个进程,在本例中即多个 MatMul。但现在,即使拥有庞大的 GPU 集群,随着 LLM 的功能和使用人数的增加,MatMul 也已成为瓶颈。

在这项新研究中,研究团队声称已经开发出一种无需执行 MatMuls 即可运行 AI 语言模型的方法,而且效率同样高。

为了实现这一壮举,研究团队采用了一种新的数据加权方法——他们用仅使用三个浮点数{-1,0,1} 的方法取代了当前依赖 16 位浮点数的方法,同时还使用了执行与以前方法相同类型作的新函数。

他们还开发了有助于提高性能的新量化技术。权重越少,需要的处理就越少,从而需要的计算能力就越少。但他们也彻底改变了 LLM 的处理方式,使用他们所描述的无 MatMul 线性门控循环单元 (MLGRU) 代替传统的变压器块。

在测试他们的新想法时,研究人员发现,采用新方法的系统性能与目前使用的最先进的系统相当。同时,他们发现他们的系统消耗的计算能力和电力比传统系统要少得多。

  • 免责声明:本文由用户上传,如有侵权请联系删除!