人工智能研究人员推出了一款能够生成多达10,000个单词的文本输出的LLM

发布时间：2024-08-20 16:50:11 来源：

标签：

导读清华大学的人工智能研究团队与智普人工智能的同事合作，开发了一种名为LongWriter的大型语言模型(LLM)，他们声称该模型能够生成多达10,000

清华大学的人工智能研究团队与智普人工智能的同事合作，开发了一种名为LongWriter的大型语言模型(LLM)，他们声称该模型能够生成多达10,000个单词的文本输出。该团队撰写了一篇论文，描述了他们的努力和新的LLM，该论文可在arXiv预印本服务器上找到。

随着LLM成为主流，许多人注意到它们无法生成非常长的答案，例如整本书或手稿——目前的限制似乎是大约2,000个字。研究人员认为这是因为它们都是在短文档上进行训练的。在他们的新研究中，他们发现如果对LLM进行轻微的改变，然后使用更长的文档进行训练，它们就能够生成更长的文档。

为了测试他们的想法，研究团队首先使用传统数据集训练了一个90亿参数的LLM，其中包括大多数长度少于2,000字的文档。正如预期的那样，当查询时，它无法创建长度超过2,000字的文本。

接下来，该团队使用一个名为AgentWrite的管道修改了传统的LLM，以便在处理训练材料时将其分解为子任务。然后，他们组建了一个名为“LongWriter-6k”的数据集，该数据集包含6,000份书面文档，长度从2,000到32,000字不等。然后，他们使用新的数据集LongWriter-6k训练了修改后的LLM，发现这样做可以将其生成的文档字数增加到大约10,000字。

在审查法学硕士项目生成的新长篇文档时，该团队发现这些文档条理清晰，适用于各种情况。他们已将模型的开源代码发布在GitHub上，此举将使其他人能够借鉴中国团队所做的工作。他们还发布了一段视频，展示了LongWriter如何为在中国旅行的人制作一本10,000字的旅游指南。

研究人员承认，既然已经发现法学硕士学位可以生成完整的研究论文、书籍、手稿甚至电影剧本，那么必须考虑道德方面的考虑。

猜你喜欢

最新文章