清华唐杰团队新作：一口气生成2万字，大模型开卷长输出

据说关注我的人都财运连连！赶紧加入我们，一起走向财富自由！

当AI提笔：2万字的罗马帝国衰落史是“公式化”还是“新纪元”？

图片来源于网络

夕阳的余晖透过图书馆的窗户，洒在桌面上摊开的书籍和凌乱的草稿纸上，历史系学生小李无力地趴在桌上，眉头紧锁，对着电脑屏幕上闪烁的光标长吁短叹，2万字的罗马帝国衰落史论文，如同横亘在他面前的一座高山，让他感到窒息般的压力

这样的场景

，或许是许多学生时代都曾有过的幻想，而如今，随着人工智能技术的飞速发展，这个幻想似乎正在慢慢变成现实，近年来，AI写作技术取得了突破性进展，从简单的新闻稿件到优美的诗歌创作，AI似乎无所不能，在长文本创作领域，AI始终面临着输出长度受限的瓶颈

图片来源于网络

直到清华大学和智谱AI的联合研究成果

，为AI写作领域带来了新的突破，他们成功地让大模型的输出长度实现了质的飞跃，一口气生成2万字的长文也不再是难题

从“短句”到“长篇”的突破

图片来源于网络

“我的天

，8B模型就能写出上万字的罗马帝国衰落史，这也太强了吧！”一位网友在社交媒体上分享着自己的惊叹之情，并附上了一张AI生成文本的截图

这位网友所使用的，正是由清华&智谱AI团队开发的LW-31-8模型，这款模型的出现，打破了以往大模型在文本生成长度上的限制，让AI写作从“短句”时代迈向了“长篇”时代

图片来源于网络

在此之前，大多数大模型的生成长度都被限制在2000字以内，这对于需要创作长篇内容的用户来说，无疑是一个巨大的限制，在撰写长篇报告、论文、小说等内容时，AI往往无法满足用户的需求

为了解决这一难题，清华&智谱AI团队的研究人员付出了巨大的努力，他们首先利用LW-R工具对多个大模型进行了测试，发现所有模型在生成超过2000字的文本时都遇到了困难

图片来源于网络

经过分析用户与大模型的交互日志，研究人员发现，只有极少数用户明确要求生成超过2000字的文本，这也就意味着，现有的训练数据集中缺乏足够多的长文本样本，导致模型在生成长文本时缺乏足够的“经验”

为了克服这一限制，研究人员创造性地提出了AW方案，该方案的核心思想是将长文本生成任务分解成多个子任务，每个子任务负责生成一段相对较短的文本

图片来源于网络

LW如何让AI“文思泉涌”？

AW方案的实现过程，就像是一位经验丰富的作家在指导新手写作一样，它会首先根据用户的指令制定一个详细的写作计划，将长文本划分成多个段落，并为每个段落设定主题和目标字数

图片来源于网络

接下来，AW会像一位耐心的编辑一样，依次指导模型生成每个段落的内容，在生成过程中，AW还会根据模型的输出结果进行调整和优化，确保最终生成的文本符合用户的要求

为了让模型在生成长文本时更加“得心应手”

，研究团队还利用GPT-4生成了包含6000个长输出样本的SFT数据集LW-6，这些样本的长度从2000字到32000字不等，涵盖了各种不同的主题和文风

图片来源于网络

通过在训练过程中加入LW-6数据集，模型的输出长度和生成质量都得到了显著提升，在LB-W评估体系中，使用AW方案训练的GLM-4-9B模型表现出色，成为了生成长文本的“佼佼者”

AI长文创作是“公式化”还是“新纪元”？

图片来源于网络

尽管LW模型的出现，为AI长文创作带来了新的希望，但也有一些网友对其生成内容的质量提出了质疑

“虽然内容很丰富

，但总感觉缺乏一些文采，结构和节奏也比较公式化，”一位体验过LW模型的网友这样评价道

事实上

，AI生成内容的“公式化”问题，一直是困扰着研究人员的难题，由于模型的训练数据大多来自互联网上的文本，而这些文本往往具有一定的规律性和格式，因此模型在生成文本时也容易受到这些规律性的影响

如何让AI生成更加富有创造力、更具个性化的文本，是未来AI写作领域需要重点突破的方向

尽管AI长文创作还面临着一些挑战

，但其发展前景依然十分广阔，随着技术的不断进步，我们有理由相信，AI写作将逐渐摆脱“公式化”的束缚，在更多领域发挥重要作用

或许在不久的将来，像小李这样为论文而苦恼的学生，真的可以借助AI的力量，轻松完成各种写作任务，而AI与人类的关系，也将从简单的工具与使用者的关系，发展成为更深层次的合作关系

在AI技术飞速发展的今天，我们不禁要思考：AI长文创作，究竟是“公式化”的产物，还是一个全新纪元的开始？或许，这个问题的答案，就掌握在我们每个人的手中

本文倡导积极健康的网络环境，杜绝低俗内容，如有侵权请联系我们删除。

玩酷网