为什么AI时代人人都在讨论语料库？

比尔·盖茨、Reddit的CEO和其他科技领导者越来越多地谈论他们的“语料库”。什么是“语料库”？为什么现在AI领域的所有人都在谈论它？[Photo: MirageC/Getty Images]由于ChatGPT和类似平台的出现，人工智能的兴起成为2023年最引人注目的话题之一。

几乎每天都有新的文章讨论AI技术如何对创意领域、工作或人类带来毁灭或救赎。如果你一直在阅读这些文章，你可能注意到科技高管们最近常提到一个特定的词：“语料库”。Reddit的CEO提到过它；维基百科的创始人吉米·威尔士提到过它；微软创始人比尔·盖茨也提到过它。这里是它的含义，以及它为何对理解像ChatGPT和Midjourney这样的人工智能平台至关重要。

什么是AI语料库？那些在学校学习过拉丁语的人会立刻知道，corpus意思是“身体”（现代词“尸体”就源自corpus）。其他人可能会因为一个仍在使用的法律机制而熟悉这个词：人身保护令（habeas corpus）。这个短语字面意思是“你应有其身体”，它确保任何被逮捕的人都有权出现在法官面前（因此，法官“有”被逮捕者的“身体”）以确定逮捕是否合法。但在人工智能领域使用时，“语料库”一词并不指物理身体。相反，它指的是用于训练AI的数据“体”或集合。这种语料库是AI审查的材料，使其在设计的任务上变得智能。每个AI的语料库都是不同的，因为人类决定了他们希望用什么样的数据来训练AI。人类决定用来训练AI的语料库将取决于他们希望AI擅长什么。

语料库的类型语料库（corpus的复数形式是corpora）的类型没有限制。AI的语料库由AI的创建者希望其执行的任务决定。例如，Midjourney是一个流行的生成艺术平台，用于使用AI创建图像。因为Midjourney让用户仅使用文本提示创建图像，所以其AI需要训练一系列图像和相关的文本描述。例如，为了让Midjourney生成一个瀑布的图像，其语料库必须包括瀑布的图像和将落水墙标记为“瀑布”的伴随文本。

还有一些AI平台，如ChatGPT，一种被称为大型语言模型（LLM）的AI。强大的LLM具有与人进行文本聊天的能力——前提是其语料库足够大且丰富。根据其语料库的内容，LLM还可以回答复杂问题，甚至生成原创作品，如短篇小说或创建太空射击游戏的代码。其能力完全取决于用于训练AI的语料库中包含的数据。在ChatGPT的情况下，我想知道是什么组成了它的语料库，所以我直接问了它。“[ChatGPT的语料库]由来自互联网的各种文本组成，包括网站、书籍、文章和其他公开可用的资源，”它回答道。

不满足于这个模糊的回答，我让ChatGPT详细说明其语料库中的数据类型。这次ChatGPT更详细：- 网站：来自不同领域和主题的网站文本。- 书籍：涵盖各种类型和主题的书籍文本。- 文章：新闻文章、杂志特写和博客文章的文本。- 研究论文：科学论文和出版物的文本。- 对话数据：对话、交流和互动的文本。- 社交媒体：来自Twitter、Reddit和在线论坛等平台的文本。- 维基百科：涵盖众多主题的维基百科文章文本。

注意，ChatGPT的语料库中有一个显著的遗漏：图像。这是因为ChatGPT是一个基于文本的AI生成器。它不能生成图像，因为其语料库中从未包含任何图像进行训练。被注入到Midjourney和ChatGPT中的数据只是构成语料库的两种示例。但语料库可以由任何类型的数据组成。例如，如果你想创建一个可以创作音乐的AI，只需在其语料库中包含音频歌曲。

或者如果你想让AI以海明威简洁的风格写小说，你可以使用一个只包含海明威作品的语料库。语料库的合法性如果你没有语料库来喂给AI，AI就无法学习。你的语料库越大，AI就越熟练或智能。但构成AI语料库的实际数据在涉及版权和知识产权法时，会打开一罐新的麻烦。那些基于受版权保护材料的语料库训练的AI的所有者是否违反了法律？

例如，如果我创建一个可以生成类似班克西艺术作品的AI，并且我用班克西作品的语料库训练它，我是否侵犯了班克西的版权或知识产权？我的AI不复制他的艺术作品，只是他的风格，这仍然算侵权吗？或者说，我创建一个包含蕾哈娜歌曲语料库的AI。AI可以生成全新的原创歌曲，但声音或类似于蕾哈娜的声音。这合法吗？今年早些时候，在AI生成的Drake和The Weekend的歌曲在流媒体服务中广泛传播后，环球音乐集团已经给出了一个明确的“否定”答案。但使用AI工具的创作者可能会说不同。

最终，无论是关于AI生成的音频、视觉还是基于文本的媒体，这都是一个可能在全球法院占用多年时间的问题，因为生成式AI程序如ChatGPT和Midjourney变得更加普遍。与此同时，各国政府已经在计划立法，以对生成式AI模型进行监管。例如，欧盟正提议一项法律，要求AI的所有者披露其语料库是否包含受版权保护的材料。这种透明度将使版权持有人更容易识别他们的作品被用在哪些语料库中，从而寻求赔偿。

在美国，国会研究服务处最近建议国会在更新版权立法之前“采取观望态度”，建议其监控未来几年法院对AI生成的版权案件的反应。语料库作为收入来源当然，一些内容创作者会选择拥抱AI带来的创收机会——只要他们有足够大的作品集。假设一位在世的画家想赚些额外的钱。她可以简单地将其作品集打包成一个语料库，并将其出售给生成式AI公司。作者可以出售其小说的语料库；杂志出版商可以出售其过刊的语料库；歌手可以出售其声乐的语料库——或者要求从任何AI生成的作品中获得部分收益，正如Grimes已经提议的那样。

如果埃隆·马斯克想为其摇摇欲坠的Twitter找到一个新的收入来源，他可以考虑将平台上的所有推文打包成一个语料库出售给AI初创公司。Meta的Facebook也可以在这方面找到新的收入来源（前提是Twitter和Meta可以声称拥有用户帖子所有权）。

事实上，Reddit的用户帖子语料库已被用来帮助训练ChatGPT，在《纽约时报》最近的一次采访中，Reddit的CEO史蒂夫·霍夫曼表示他知道该语料库的价值。“Reddit的数据语料库非常有价值。但我们不需要免费将所有价值都给世界上一些最大的公司。”

从这个意义上说，随着越来越多的公司扩展到AI领域，预先包装好的语料库可能会在科技界变得像淘金热时期的镐一样重要，并可能出现一整个新的语料库销售行业。如果是这样，在未来的几个月和几年里，“语料库”一词在我们谈论和讨论AI时，将成为日常词汇的一部分。

玩酷网

为什么AI时代人人都在讨论语料库？

热门分类