大模型“偷数据”,惹争议

趣唠科技不打烊 2024-08-11 07:40:41

文丨俊俊

被认为是OpenAI最强竞对的Anthropic 的Claude 一度以拥有“自主意识”,理解力接近人类出圈,但最近却引起众怒。

起因是Anthropic 违反多家网站的服务条款,抓取网站数据以训练其 AI 系统,这一行为引发了网站所有者的强烈不满和担忧。

被用户普遍认为拥有“自主意识”的Claude,知道自己是靠“偷”数据堆起来的话,会作何感想?

事实上,并不是只有Anthropic 在数据问题上引起大家广泛关注,数据问题或许会伴随后AI时代始终。

“偷”数据,正当时

事件起因是Claude 在24小时内访问iFixit 服务器100万次,触发了其流量警报,直接把iFixit 网站CEO Kyle Wiens 逼得在X上跟Anthropic 对线,进而引发网友广泛关注。

iFixit 其实有写声明:

未经iFixit明确事先书面许可,严禁因为任何其他目的复制(包括训练机器学习或人工智能模型)、复制或分发本网站上的任何内容、材料或设计元素。

但Claude 的爬虫程序ClaudeBot 硬是在几个小时内,每分钟数千次对其进行请求访问。据统计,Claude 一天内访问了10 TB的文件,整个5月份总计访问了73 TB。

Anthropic 不仅明目张胆无视了“禁止爬取”的公告,还强行占用了服务器资源的行径引起众怒,网友直接建议用“偷”,并支持声讨,要求Claude 付费。

令人愤怒的是,Anthropic并未向iFixit道歉,而是给了 Kyle Wiens 一篇有甩锅意味的博文。博文里写道:

“根据行业标准,Anthropic 使用各种数据源进行模型开发,如通过网络爬虫收集的公开可用数据。”“我们的爬取不应具有侵入性或干扰性。我们通过考虑在相同域中爬取速度和尊重适当的Crawl-delay 来实现最小化的干扰。”

听君一席话,胜听一席话。应该说,几乎所有的AI公司都不会遵守网站的服务条款。

尽管数据抓取通常是合法的,但这种做法具有争议性,很明显违反网站的服务条款,并给网站主机带来了额外成本。

Anthropic 表示正在调查这些指控,并称其尊重出版商的要求,旨在不造成干扰或破坏。

Anthropic 下手的并不是只有iFixit ,Freelancer.com 的首席执行官 Matt Barrie 也表示,Anthropic 是“目前最具侵略性的数据抓取者。”

在短短 4 小时内,Anthropic 的网络爬虫对 Freelancer.com 进行了 350 万次访问,是第二大 AI 爬虫访问量的约 5 倍。即使在 Freelancer.com 试图拒绝其访问请求后,来自 Anthropic 的访问仍在增加。

数据问题,争议不断

内容网站与 AI 爬虫之间是一场“猫鼠游戏。”

以Anthropic 公司为例。一些知名网站(如Reuters 或 Condé Nast Publications Inc)的 robots.txt 文件仍在阻挡 Anthropic 已停用的两个爬虫机器人:ANTHROPIC-AI 和CLAUDE-WEB。

然而,Anthropic 当前活跃的爬虫名为CLAUDEBOT,却未被这些网站阻挡。这导致数百个复制粘贴旧阻挡列表的网站实际上并未成功阻挡 Anthropic 的爬虫。

iFixit 也已修改了robots.txt 文件,专门用来阻止Anthropic 的爬虫机器人。

当然也有人认为,Anthropic 就是故意给爬虫改名字,进而可以无视禁止规则。

当CLAUDEBOT 也被普遍屏蔽之后,再改名换姓新的爬虫依旧能够继续抓取——AI 公司不断推出新名称的爬虫机器人,使得网站所有者难以及时更新阻挡列表。

事实上,众多网站试图阻挡 AI 公司抓取其内容,却因使用过时的 robots.txt 指令而阻挡了错误的机器人。

爬虫代理的生态系统变化迅速,网站所有者几乎不可能手动跟上更新步伐。

例如,苹果(Applebot-Extended)和 Meta(Meta-ExternalAgent)分别在上月和上周新增了爬虫代理。

这种混乱状态给网站所有者带来了巨大挑战。

iFixit 与 Freelancer.com 受到高频访问的困扰,Read the Docs 则表示某爬虫在一天内访问了 10TB 的文件,导致超过 5000 美元的带宽费用。

为应对这种情况,一些网站开始全面阻挡爬虫或只允许少数特定爬虫(如 Reddit 目前只允许 Google 爬取)。然而,这可能影响搜索引擎、互联网存档工具和学术研究的正常运作。

其实不仅Anthropic 爬取数据存在争议,近期 X 平台默认开启用户“数据共享”也引发了用户隐私和数据使用的争议。

Elon Musk 旗下的社交平台 X(原 Twitter)最近悄悄推出了一项新功能,默认允许使用用户数据来训练其 AI 模型 Grok。

Musk 此前宣称 xAI 公司正在使用“世界上最强大的 AI 训练集群”来训练 Grok,这一做法引发了对 AI“合成数据”的担忧,即 AI 模型可能受到自身重复数据的影响。

X 平台在隐私设置中新增了“Data Sharing”选项,默认勾选允许使用用户的帖子、互动、输入和结果来训练 Grok AI。用户只能通过网页版设置来关闭此功能,移动应用暂不支持修改。

据悉,该做法可能违反欧盟的隐私法规。隐私专家质疑 X 的做法可能违反欧盟《通用数据保护条例》(GDPR),该法规要求公司在收集或使用个人数据前必须获得用户同意。

比较严重的是Meta。

路透社报道称,Meta 公司因非法收集生物识别数据,已同意向德克萨斯州支付 14 亿美元和解金,以解决该州指控 Facebook 母公司非法使用面部识别技术收集数百万德州人生物识别数据的诉讼。

这项和解金额创下了单个州获得的最高纪录。

德州指控 Facebook 在用户上传的照片和视频中“数十亿次”捕获生物识别信息,作为一项名为“标签建议”的免费功能的一部分。该诉讼于 2022 年提起,是德克萨斯州 2009 年生物识别隐私法案下的首个重大案件。

Meta 发言人表示,公司很高兴解决此事,并期待“探索未来在德克萨斯州深化业务投资的机会,包括可能开发数据中心。”

但在此过程中,Meta 仍然否认任何不当行为。

确实,大型语言模型的最新进展依赖于更高质量、更丰富的训练数据集。数据不仅是AI的“石油”,更是提升AI表现的核心动力。

在语言模型方面,语言数据的质量有好坏,互联网用户生成的语言数据质量往往低于书籍、科学论文等更专业的语言数据,高质量数据训练出的模型性能更好。

AI大模型需要高质量、大规模、多样性的数据集,高质量数据的发展势在必行。

但目前我们面临着数据存量的增长速度远远低于数据集规模的增长速度,如果当前的趋势继续下去,数据集最终将由于数据耗尽而停止增长。

从另一个角度看,万物皆有限度,或许最后大家会发现大模型对资本来说就是个坑,模型越大成本越高,除了英伟达这些硬件服务商和云服务厂商,其他环节并不能跑通商业模式。如果AI数据相关规则完善,优质的内容公司是不是也可以躺着赚钱了?

无论服务商还是用户,应该如何正确面对AI所带来的数据以及商业闭环呢?欢迎在评论区讨论。

0 阅读:0

趣唠科技不打烊

简介:感谢大家的关注