这些巨头在“偷”YouTube数据！

文丨俊俊

大数据、大算力推动了人工智能发展走向大模型时代，此时出现现象级的AI产品并不奇怪。像火出圈的ChatGPT，萝卜驾驶。

大模型本质是从海量的数据里抽取、凝练出的模型，非常依赖高质量数据，数据也正在成为制约大模型发展的瓶颈。

AI大模型都在接受公共数据的训练，但这些数据通常是在未经同意的情况下收集的，更会带来一系列的责任归属问题。

所以，为了规避潜在的法律纠纷，GPT、Gemini、Claude等商业模型在发布时往往选择对训练数据“三缄其口”，从不提及其来源、构成、使用许可等信息。

然而，这个问题早就引起了创作者和各种媒体平台越来越强烈的不满。

近日，《连线》杂志联合非营利新闻工作室ProofNews进行了一项调查，发现这些科技巨头们大量窃取了Youtube上的视频字幕用于训练，来自48000个频道的173536个视频的字幕，在博主不知情的情况下，被喂给了世界上最先进的AI们。

这次被发现涉嫌违规使用油管数据的公司有：苹果、英伟达、Anthropic、Saleforeces、Databricks 等。

范围波及可汗学院、MIT、华尔街日报、吉米秀以及大V博主等频道。

追根溯源

ProofNews 甚至制作了一个在线搜索工具，对这种行为进行持续地“公开处刑”。哪些创作者和视频被偷偷纳入数据库，一搜就知道。

网页地址：https://www.proofnews.org/youtube-ai-search/

虽然“证据确凿”，但油管现在可能还没法直接起诉这些公司……

因为追根溯源发现，他们不是自己上手去扒数据，而是通过一个公开数据集Pile。

作为非营利组织，Eleuther AI 建立Pile 项目，收集这些数据的初衷本是帮助小型组织和研究人员，促进AI 研究的民主化，没想到最后也成为了大公司的囊中之物——本来是为反巨头而生的Pile ，反而让巨头用得不亦乐乎。

像EleutherAI 这样辛辛苦苦爬数据还开源的NPO，怀抱着促进数据共享和技术公平的初衷，结果只落得被大公司利用、被创作者批判的境地，实在有些让人大跌眼境。

Anthropic 方面已对此做出回应：

这个数据集确实包含油管上的一小部分字幕。但是油管的规定是直接使用会侵权，这和使用数据集不是一个性质，我们建议去询问数据集的作者。

Salesforce 表示确实使用该数据集训练了用于学术研究目的的模型，并强调该数据集是公开可用的。

该数据集的提供方是Eleuther AI，他们曾推出了60亿参数的GPT-J，在当时被认为是最接近于GPT-3的开源模型。

在2020年，他们发布了一个名为“Pile”的开源数据集，包含油管、维基百科等数据，供AI研究人员和开发者使用。如上几家公司提到的数据集，说的就是它。

目前英伟达拒绝置评，苹果未予回应，Eleuther AI也未对此事作出回应。

受伤的网友

此前也有类似的情形发生——当初艺术家因不满自己的作品被用于AI 模型训练，但数据集也不是AI公司自己上手扒的，而是来自非营利机构LAION。

有人就觉得，这也不是大型公司在背后操控，现在似乎没有很好的解决办法。

大模型出现以来，几乎所有模型都是在未经授权情况下使用数据训练。

如果能让更多人意识到数据所有权的问题，肯定算件好事。

对于更加直接的侵权事件，比如《纽约时报》指控OpenAI违规使用其作品训练模型，官司现在也还没有结果，battle不断：OpenAI要求《纽约时报》证明其作品的原创性，还要查看采访笔记等来证明每篇文章的原创性；《纽约时报》进行了反驳……没完没了了。

在创作者眼中，没有经过本人同意就抓取创作内容用于训练AI，实质上是一种剽窃，甚至剥削。

ProofNews的调查发现，被Pile 搜刮的创作者中不乏粉丝千万的YouTube 网红，甚至一些官方账号也未能幸免。

生成式人工智能会尽可能多地取代艺术家的恐慌也让创作者不安，AI能够生成与他们制作的内容类似的内容，在拥有足够多的数据计算后，也只是时间问题。

一些全职YouTube用户会巡查他们的作品是否被未经授权使用，定期提交删除通知，不能心无旁骛地创作。

在这个未形成共识的灰色地带，似乎所有利益相关方都在困境中，但所有人都无解。

众矢之的

此前，新闻出版商越来越担心科技巨头在未经许可的情况下从其网站上窃取数据来帮助训练人工智能。

BBC 、CNN、卫报、纽约时报、每日邮报等采取相关举措，阻止大模型如ChatGPT ，谷歌等访问其网站，使用其内容。

数千种科学期刊明令禁止或限制投稿人使用 ChatGPT 撰写或编辑论文。

在他们看来，人工智能产生的大量假新闻有“污染人类知识”的风险。

很明显，如果利用不当，生成式人工智能可能会带来新的重大风险。其中包括道德问题、法律和版权挑战，以及围绕错误信息和偏见产生的重大风险。

确实，这些风险是真实存在的，不能被低估。这波创新浪潮同样需要提高警惕并提前考虑未来可能出现的危机。

AI治理相关法规也在完善过程中。

2024年7月11日，美国相关议员提出了《编辑和深度伪造内容来源保护完整性法案》（简称“COPIED法案”）。该法案将保护创意作者人员及其内容不被人工智能及其开发人员未经授权使用。

该法案法案让记者、艺术家和音乐家控制其内容，赋予个人起诉违规者的权利，禁止篡改或禁用AI来源信息。

AI 领域，算法算力都可以通过硬件和砸钱来实现，只有数据成为品牌一较高下的试炼场，数据的质量和规模将对 AI 的研究和落地产生重要影响。

好数据才能打造高品质的智能产品。

如何通过优质数据提升AI性能，以避免走入“糟糕”的误区是所有品牌都在思考和寻找的道路。

大模型和AIGC在为数字经济开创了无限的可能的同时，我们更需要高质量数据推动AI行业的正向发展。

要打破数据间的行业壁垒，在符合国家法律法规的前提下，共享、利用、开发好数据。

玩酷网

这些巨头在“偷”YouTube数据！

趣唠科技不打烊