标签:
导读 清华大学的人工智能研究团队与智普人工智能的同事合作,开发了一种名为LongWriter的大型语言模型(LLM),他们声称该模型能够生成多达10,000
清华大学的人工智能研究团队与智普人工智能的同事合作,开发了一种名为LongWriter的大型语言模型(LLM),他们声称该模型能够生成多达10,000个单词的文本输出。该团队撰写了一篇论文,描述了他们的努力和新的LLM,该论文可在arXiv预印本服务器上找到。
随着LLM成为主流,许多人注意到它们无法生成非常长的答案,例如整本书或手稿——目前的限制似乎是大约2,000个字。研究人员认为这是因为它们都是在短文档上进行训练的。在他们的新研究中,他们发现如果对LLM进行轻微的改变,然后使用更长的文档进行训练,它们就能够生成更长的文档。
为了测试他们的想法,研究团队首先使用传统数据集训练了一个90亿参数的LLM,其中包括大多数长度少于2,000字的文档。正如预期的那样,当查询时,它无法创建长度超过2,000字的文本。
接下来,该团队使用一个名为AgentWrite的管道修改了传统的LLM,以便在处理训练材料时将其分解为子任务。然后,他们组建了一个名为“LongWriter-6k”的数据集,该数据集包含6,000份书面文档,长度从2,000到32,000字不等。然后,他们使用新的数据集LongWriter-6k训练了修改后的LLM,发现这样做可以将其生成的文档字数增加到大约10,000字。
在审查法学硕士项目生成的新长篇文档时,该团队发现这些文档条理清晰,适用于各种情况。他们已将模型的开源代码发布在GitHub上,此举将使其他人能够借鉴中国团队所做的工作。他们还发布了一段视频,展示了LongWriter如何为在中国旅行的人制作一本10,000字的旅游指南。
研究人员承认,既然已经发现法学硕士学位可以生成完整的研究论文、书籍、手稿甚至电影剧本,那么必须考虑道德方面的考虑。