为应对AI训练数据“枯竭”科技巨头们各显神通

自从OpenAI挑起人工智能竞赛后，各大科技公司一直在拼尽全力训练大模型。但是随着训练的模型越来越大，这些科技巨头正在面临一个新的问题，即训练语料和数据的“枯竭”。

训练数据的“枯竭”

2020年11月，OpenAI推出的GPT-3接受的数据训练为3,000亿个token。而到2023年，谷歌推出的新一代语言模型PaLM 2的token已经突破3.6万亿。

随着训练的规模越来越大，科技公司发现可以用于训练的语料和数据已经不多了。

人工智能研究机构Epoch根据训练数据集大小和数据库存的增长预测，到2026年，高质量的语言数据将耗尽。并表示：“如果我们的假设是正确的，那么数据将成为扩展ML（Machine Learning，机器学习）模型的主要瓶颈，我们可能会因此看到人工智能的发展放缓。”

去年，OpenAI的首席执行官萨姆·奥尔特曼（Sam Altman）在一次技术会议上的演讲中也承认，人工智能公司将耗尽互联网上所有可行的数据。

为了能够找到更多新的数据源以供模型不断训练，各大科技公司正在绞尽脑汁。

谷歌

作为硅谷中的AI领头羊之一，谷歌正在考虑利用谷歌文档、表格和幻灯片中提供的消费者数据。

据报道，去年6月，谷歌开始要求员工扩大使用消费者数据的范围。一些员工被告知，该公司希望使用免费消费者版本的谷歌Docs、Sheets、Slides，甚至Maps上的餐厅评论中的数据。

谷歌于2023年7月更新了隐私政策，但该公司表示并没有扩大用于训练人工智能模型的数据类型。

此外，谷歌还把盯上了旗下视频平台YouTube。

有爆料称，谷歌使用YouTube视频的文字记录来训练其人工智能模型。由于这种做法可能侵犯了YouTube创作者的版权，所以谷歌内部对此选择秘而不宣。

目前，谷歌的规则允许其利用YouTube用户数据为平台开发新功能。但目前尚不清楚谷歌是否可以将YouTube上的数据用于视频平台之外的商业服务，例如聊天机器人。

Berger Singerman律师事务所的知识产权律师杰弗里·洛滕伯格（Geoffrey Lottenberg）表示，谷歌对于YouTube视频记录可以做什么、不能做什么的说法含糊其辞。他说：“这些数据是否可以用于新的商业服务，还有待解释，并可能引发诉讼。”

OpenAI

无独有偶，利用YouTube上的数据来训练的还有OpenAI。

据了解，OpenAI的研究人员创建了一款名为Whisper的语音识别工具。该工具可以转录YouTube视频中的音频，来生成新的对话文本。最终OpenAI团队转录了超过100万小时的YouTube视频。转录的文本被“喂”给了GPT-4，该模型是当前世界上最强大的AI大模型之一。

有消息称，在转录YouTube视频的团队中，还包括OpenAI总裁格雷格·布罗克曼（Greg Brockman），知情人士称，布罗克曼亲自帮助收集了这些视频。

目前，YouTube是禁止将其视频用于“独立”于该视频平台的应用程序。OpenAI此举可能已经违反YouTube的规则。

知情人士表示，一些谷歌员工已经知道OpenAI收集了YouTube视频作为数据，但却没有选择阻止。不阻止的原因自然是谷歌也在利用YouTube的数据来训练其人工智能模型。如果谷歌选择对OpenAI“追究到底”，那么自己的行为也可能会被曝光，进而遭到公众的强烈抗议。

此外，OpenAI还有一个办法来应对训练数据的减少，那就是利用合成数据（Synthetic Data）来训练大模型。

合成数据是指通过数学模型、算法或随机过程生成的数据，这些数据在某些方面与真实数据相似，但并不是从真实环境中直接采集的。合成数据通常用于数据预处理、模型训练、数据集增强等场景。

去年5月，奥尔特曼就曾表示：“只要你能越过合成数据事件视界，模型就足够智能，可以生成良好的合成数据，一切都会好起来的。”

利用合成数据训练人工智能系统的问题在于，它可能会强化人工智能的一些错误和局限性。据报道，OpenAI正在研究一种解决此问题的流程，即一个人工智能模型生成数据，另一个人工智能模型对相关数据进行判断。

一些人工智能专家却警告称，应谨慎使用合成数据，因为它是真实数据的“扭曲版本”。然而，这种使用合成数据的趋势似乎难以扭转。咨询公司Gartner估计，到2030年，人工智能模型中的合成数据将超过真实数据。

玩酷网