#Meta大模型能复述四成哈利波特内容##Meta大模型陷版权风波# Meta的Llama 3.1大模型,居然能“记住”《哈利波特》42%的内容。 斯坦福等研究人员,选了五个开源大模型进行测试,看看这些模型会不会重复有版权内容的书籍。 他们的测试方法是: - 把36本书切成100个token的片段; - 用前50个token提示模型,看它能不能复现后50个token; - 如果命中率超过50%,就算“记住了”。 结果发现,Meta早在2024年7月发布的Llama 3.1 70B,能准确复现《哈利波特》第一部42%的段落。 对比之下,2023年的Llama 1 65B只能复现4.4%。除了《哈利波特》,热门书《霍比特人》等书籍也能记住,而冷门书如《Sandman Slim》仅被记住0.13%。 研究者指出几种可能原因: - Meta训练时可能重复使用了Books3,它是一个非官方图书数据集,收录了大约19万本英文书籍,包括一些版权书记; - 数据中可能包含了粉丝论坛、书评、读书笔记等含有原文引用的非官方内容; 这项研究引发了关于“AI记忆是否侵权”的争论。模型如果能复述原文,那可能已经不是“学习”,而是“复制”。而这也让Meta更难撇清法律责任。 有网友表示:开源的透明,这回可能成了把双刃剑。 测试论文在这: