大模型遭遇数据荒！OpenAI被曝转录油管百万小时视频训练GPT-4

文丨Congerry

OpenAI、Meta、Google 无形之中收割了一波“网友”！

本周早些时候，《华尔街日报》报道称，人工智能公司在收集高质量训练数据方面遇到了困难。

今天，《纽约时报》发文揭示了包括 OpenAI、谷歌和 Meta 在内的人工智能头部公司是如何收集数据的。

比如，GPT-4 的训练数据是哪里来的？

根据《纽约时报》报道，除了已经用掉的英文文本数据，OpenAI 的研究人员创建了一个名为 Whisper 的语音识别工具，转录了 100 多万小时的 YouTube 视频中的音频来训练 GPT-4。

三位知情人士中的两人说，OpenAI 总裁 Greg Brockman 也亲自帮助收集视频。

即使 OpenAI 的一些员工讨论了此举可能违反 YouTube 规则的问题，但是为了获得训练数据，包括OpenAI、谷歌和Meta在内的科技公司都在无视公司政策，改变了自己的规则，并讨论规避版权法。

也就是说，“偷数据”已经成了 AI 公司的常规操作。

OpenAI、谷歌如此操作

去年 5 月，OpenAI 首席执行官 Sam Altman 在一次技术会议上发表演讲时说，人工智能公司将耗尽互联网上所有可用的数据。

在 OpenAI，研究人员多年来一直在收集数据、清理数据并将其输入庞大的文本池，以训练公司的语言模型。他们挖掘了计算机代码库 GitHub，吸纳了国际象棋棋谱数据库，并从 Quizlet 网站上获取了描述高中考试和家庭作业的数据。

根据八位未经授权公开发言的知情人士透露，到2021年底，OpenAI已经耗尽了可用于训练AI模型的大部分高质量在线数据。但是为了开发下一代旗舰系统GPT-4，他们迫切需要获取更多数据资源。

多名内部人士表示，面对数据短缺，OpenAI员工们曾讨论过多种补给方案。其中包括转录播客、有声读物和YouTube视频内容，从中"剥离"出文本进行训练；他们还探讨过利用现有的AI系统，从头开始生成全新的"合成数据"；另一个选择则是收购掌握大量数字数据的初创公司。

尽管OpenAI员工清楚利用YouTube视频训练AI系统存在法律风险，但他们认为这种做法属于"合理使用"的范畴。OpenAI总裁Greg Brockman不仅在一篇研究论文中被列为语音识别工具Whisper的创造者，更是亲自参与了从YouTube"转录"视频的行动。

OpenAI对此只承认使用了"多种来源"的数据，却并未直接回应相关指控。

但有迹象表明，去年发布的GPT-4系统确实利用了通过Whisper转录自超过100万小时YouTube视频的文本资源，而Greg Brockman领导的团队正是GPT-4的核心开发人员。

令人惊讶的是，尽管谷歌掌握YouTube版权，但它并未阻止OpenAI的做法。原因在于，谷歌自身也曾利用YouTube视频内容训练AI模型，触犯了创作者的版权。如果公开批评OpenAI，很可能会引发公众对谷歌同样手段的强烈不满。

谷歌方面虽然否认知情OpenAI的行为，并表示禁止"未经授权搜刮或下载YouTube内容"，但该公司的政策确实允许利用YouTube用户数据为视频平台开发新功能。

谷歌是如何使用用户数据的？直接修改隐私权限！

去年，超过1万个行业协会、作家、公司等向美国版权办公室提交评论，就人工智能时代下作品的使用提出自身诉求。影视制作人 Justine Bateman) 痛斥AI公司："这是全美国有史以来最大的盗窃案"。

Meta 为获得数据不惜被告

这样的事情也在 Meta 身上发生。

根据三名现任和前任员工的透露，Meta首席执行官扎克伯格在2022年ChatGPT出现后，意识到自己在人工智能领域已经落后，因此决心赶上并超越OpenAI。他不分昼夜地与高管和工程师通话，推动公司开发出能与ChatGPT媲美的AI产品。

然而，到了2023年初，Meta与竞争对手面临的一大共同障碍浮出水面：缺乏足够的训练数据。

Meta人工智能副总裁 Ahmad Al-Dahle 坦言，他的团队已经耗尽了互联网上可用的大部分英语书籍、论文、诗歌和新闻文章，但仍然无法匹敌ChatGPT的能力水平。

为解决数据短缺问题，Meta高层在2023年3月和4月几乎每天都召开专题会议。他们辩论是否值得为获取新书的完全版权支付每本10美元的费用；也讨论过是否收购拥有大量版权作品的西蒙与舒斯特出版社；还探讨了如何在未经授权的情况下，从互联网上总结摘录书籍、论文等内容，哪怕这可能招致诉讼。

他们说，与出版商、艺术家、音乐家和新闻行业谈判许可证将耗费太长时间。

根据内部录音和员工爆料，尽管Meta运营着庞大的社交网络平台，但并未拥有大量可用于训练人工智能系统的用户生成内容。

这主要是由于许多用户已删除旧帖子，而Facebook和Instagram主要是图片视频分享平台，而非专门用于撰写长文章的地方。此外，2018年剑桥分析公司丑闻后推出的新隐私政策也限制了Meta获取用户数据。

面临训练数据短缺，Meta高层决定通过一些"非正规"途径获取所需素材。他们在非洲聘请承包商汇总小说摘要，其中包括一些版权作品内容；"因为我们无法不收集这些"。有高管直言，OpenAI已经未经许可使用了版权材料，Meta也可以遵循这一"市场先例"。

对他们而言，在算力和人才领先的情况下，取得训练数据并通过算法"改造"似乎成了跨越法律红线的"通行证"。尽管有两名员工对侵犯知识产权以及不公平待遇表示担忧，但公司高管似乎已有决心突破版权限制。

怎样获得更多训练数据？

面对外部质疑和愤怒声讨，科技巨头们至今鲜有回应。他们仍在卯足全力开发AI技术，汲取网络上的一切可获取资源。

据路透社报道，Photobucket 和其他互联网老牌公司现在正通过向科技公司授权其旧数据档案来训练人工智能模型，从而从旧数据档案中赚钱。

谷歌、Meta、微软和 OpenAI 等大型科技公司目前正在大规模授权图片、视频和其他内容来训练它们的人工智能模型。他们为每张照片支付 5 美分到 1 美元不等的费用，为每段视频支付 1 美元以上的费用，具体取决于买家和数据类型。

Shutterstock 已经与苹果、Meta、谷歌和亚马逊签署了数亿张图片、视频和音乐文件的使用协议。最初的交易金额为 2500 万至 5000 万美元，但后来有所扩大。据路透社报道，OpenAI 是首批客户之一。

另一方面，Sam Altman 提出了一个应对日益严峻数据短缺问题的大胆计划：最终，人工智能系统将主要使用自身生成的"合成数据"来持续训练和提升自身。

Altman认为，由于人工智能已能产生与人类水平相当的文本输出，因此系统理论上可以不断创造更多的训练数据，用于开发更先进的自身版本。这将有助于突破对有限的版权数据的依赖，助推AI技术的持续迭代式发展。

为解决这个问题，OpenAI等公司正在研究训练两个配合使用的人工智能模型：一个模型生成数据，另一个模型对数据质量进行评判和筛选。但研究人员对这种方法的可行性仍存在分歧。

尽管如此，人工智能公司的高管们对"合成数据"的未来依然持乐观态度。Altman 表示:"应该不会有什么大问题。"

玩酷网