AI写作还有救吗？通过编辑减轻特异性并改善写作过程中的人机对齐

这篇论文的标题是《Can AI writing be salvaged? Mitigating Idiosyncrasies and Improving Human-AI Alignment in the Writing Process through Edits》，由 Salesforce AI Research 的 Philippe Laban 和 Chien-Sheng Wu 两位作者撰写。

摘要：本文探讨了基于大型语言模型（LLM）的应用程序如何帮助人们写作，以及这些模型生成的文本如何进入社交媒体、新闻和课堂。然而，LLM生成的文本与人类写作的文本之间的差异仍然不明确。为了探索这一点，研究者聘请专业作家编辑了几个创意领域的段落。研究发现，作家们一致认为LLM生成的文本中存在一些不良特征，并将这些特征正式归类为一个七类分类法（例如，陈词滥调、不必要的阐述）。其次，研究者策划了LAMP语料库：由专业作家根据我们的分类法编辑的1057个LLM生成的段落。对LAMP的分析表明，在我们的研究中使用的LLM（GPT4o、Claude-3.5-Sonnet、Llama-3.1-70b）在写作质量方面没有相互超越，揭示了不同模型家族的共同局限性。第三，研究者探索了自动编辑方法以改善LLM生成的文本。大规模偏好注释确认，尽管专家更倾向于其他专家编辑的文本，但自动编辑方法在改善LLM生成和人类写作文本之间的一致性方面显示出潜力。

研究背景：人工智能（AI）有潜力彻底改变我们的写作、沟通和表达思想的方式。最近的研究已经展示了大型语言模型（LLM）在协助各种写作任务方面的潜力，包括争论性（argumentative）、科学（scientific）和创意写作（creative writing）。然而，为了让AI写作助手真正造福社会，它们必须增强人类的创造力和表达能力，而不是使内容同质化或减少语言多样性。

主要贡献：

1. 提出了一个由专家写作实践指导的全面编辑分类法，作为识别和减轻LLM生成文本中特有特征的有用框架。

2. 发布了LAMP（Language model Authored, Manually Polished）语料库，包含1057个由专业作家编辑的指令和响应对，这些响应最初由LLM生成，然后使用上述分类法进行了编辑，产生了8035个细粒度的编辑。

3. 提供了编辑LLM生成文本的详细分析，提供了专业作家如何编辑它们的见解，编辑在数量上的差异程度，编辑类别的分布在不同模型家族生成的文本中的变化，以及LLM生成的文本是否包含任何特定的风格特征。

4. 进行了实证调查，测试LLM是否可以自动检测并重写它们自己的特有特征。统计上显著的结果表明，编辑提高了写作过程中的人-AI一致性。

研究方法：研究者首先创建了一个基于专家写作实践的全面编辑类别分类法。然后，他们聘请了18位作家使用我们的分类法中的类别编辑LLM生成的文本。研究者将编辑定义为改变、替换或细化文本中特定短语、从句或句子的更改。他们将重点放在生成文学小说和创意非小说的文本上，因为这些体裁以它们的创造力、情感细微差别和复杂语言使用挑战LLM。

实验结果：研究者发现，尽管专家作家编辑的文本在偏好排名中自然优于原始LLM生成的响应，但自动编辑方法在改善LLM生成和人类写作文本之间的一致性方面显示出希望。大规模偏好注释确认，尽管专家更倾向于其他专家编辑的文本，但自动编辑方法在提高LLM生成文本的一致性方面显示出潜力。

结论：通过专家编辑可以分析和减少LLM生成文本中的特有特征，但需要自动化方法来解决更大规模的问题。研究者开发的技术可以自动检测和重写LLM生成文本中的不良特征，尽管这些方法在匹配人类专家性能方面还有改进的空间。

一句话总结：这篇论文研究了如何通过专业编辑和自动化编辑方法来提高LLM生成文本的质量和人-AI在写作过程中的一致性。

论文链接https://arxiv.org/abs/2409.14509

项目链接https://github.com/salesforce/creativity_eval/tree/main/Writing_Alignment

玩酷网

AI写作还有救吗？通过编辑减轻特异性并改善写作过程中的人机对齐

成天评科技文化