
(来源:MIT Technology Review)
日常生活中,我们对互联网的使用早已习以为常,它就像一片近在咫尺的信息海洋。然而,这一系统的正常运行依赖于大量的“爬虫”,这些机器人在网络中穿梭,每天访问数百万个网站,并反馈它们的“所见所闻”。
谷歌就是通过这种方式为其搜索引擎提供数据支持,亚马逊借此设定具有竞争力的价格,而 Kayak 则依靠它汇总旅游信息。
除了商业领域,爬虫对于监控网络安全、启用辅助工具和保存历史档案也至关重要,学者、记者和民间团体在开展重要调研时同样离不开它们。
如今,爬虫已经无处不在。这种看不见的“网络地铁”日夜不停地在各个网络站点之间传递信息。目前它们产生的流量已占据互联网总流量的一半,很快还会超过人类产生的流量。
而现在,爬虫又有了一个新的用途:像 OpenAI 这样的公司使用网络爬取的数据来训练其人工智能系统,比如 ChatGPT。
可以理解的是,网站现在开始进行反击,担心这些“入侵物种”(AI 爬虫)会取代它们。但问题在于,这种抵制行为也在威胁着互联网的透明性和开放性,而这些特性正是非 AI 应用蓬勃发展的基础。
如果不慎重思考解决办法,未来的网络将充斥着登录限制、访问收费等一系列障碍,这不仅会阻碍 AI 的发展,还会限制真实用户的体验以及各类有益爬虫的 “生态多样性”。
动荡中的网络系统
要理解这个问题,就需要先了解网络的运行机制。长期以来,爬虫和网站都以一种“相对共生”的模式协同运作。
在大多数情况下,爬虫的运行不会受到干扰,甚至还对网站有益,它们把人们从谷歌、必应等搜索引擎引导至各个网站作为交换获取数据;反过来,网站对爬虫的限制很少,有的甚至还会帮助它们导航网站。
一直以来,网站都会使用一种机器可读文件(称为 robots.txt 文件)来指定哪些内容希望爬虫不要访问。但是,过去很少有人严格执行这些规则,也不会特意识别无视规则的爬虫。当时风险似乎较低,所以网站也不会投入资源精力去阻止这些爬虫。
然而现在,AI 的广泛应用扰乱了整个爬虫生态系统。
就像入侵物种一样,AI 爬虫对各种数据有着贪婪且不加筛选的“胃口”,吞噬维基百科文章、学术论文、Reddit 帖子、评论网站和博客上的内容,几乎所有形式的数据都在它们的“菜单”上,包括文本、表格、图像、音频和视频等等。
由此训练出的 AI 模型(当然并非总是如此),可能会以与数据源直接竞争的方式被使用。比如,新闻网站担心 AI 聊天机器人会抢走读者;艺术家和设计师担心 AI 图像生成器会抢走客户;编程论坛则担心 AI 代码生成器会取代贡献者。
为此,网站开始将爬虫“拒之门外”。而这背后的动机很明确:AI 及其依赖的爬虫可能会利用网站自身的数据,进而损害网络内容发布者的经济利益。这种担忧引发了一系列暗潮涌动的“爬虫大战”。
网站的反击手段
网络发布者对 AI 的反击采取了三管齐下的策略:诉讼、立法和技术手段。
从《纽约时报》提起的一系列版权侵权诉讼开始,现在已经演变为对网站数据使用的限制浪潮,以及像欧盟《人工智能法案》这样旨在保护版权所有者拒绝 AI 使用其数据进行训练的立法。
然而,法律和立法的裁决可能需要数年时间,而 AI 发展带来的影响却是立竿见影的。因此,数据创作者开始把目光聚焦在源头,即限制网络爬虫。
自 2023 年年中以来,超过 25% 的高质量数据所在网站都设置了爬虫访问限制。然而,许多限制很容易被绕过。
尽管像 OpenAI 和 Anthropic 这样的 AI 开发公司声称会遵守网站的限制,但它们也被指控无视规则,甚至强行突破网站限制。例如,技术支持论坛 iFixit 就曾提出此类指控。
现在,网站开始采用最后一招,即反爬虫技术。
许多新兴初创公司(比如 TollBit、ScalePost 等)以及像 Cloudflare(据估计,Cloudflare 承载了全球 20% 的网络流量)这样的网络基础设施公司已经开始提供用于检测、阻止非人类流量,以及对其收费的工具。
这些工具设置了重重障碍,使得网站更难被爬虫访问,有些还要求爬虫进行注册。
这些措施确实能提供即时保护。毕竟,不管法院对版权和合理使用如何裁决,AI 公司都无法使用它们无法获取的数据。
但问题在于,大型网站、论坛和站点往往会对所有爬虫进行“一刀切”,即使有些爬虫并不会构成威胁。
而且,一旦它们与那些希望独占数据的 AI 公司达成利润丰厚的交易,这种情况就更为明显。最终,互联网被分割成一个个对爬虫“不太友好的数据孤岛”。
共同面对损失
随着这场“猫鼠游戏”的不断升级,大玩家往往比小玩家更具持久力。大型网站和出版商有能力在法庭上捍卫自己的内容,或者通过协商签订合同;大型科技公司也有足够的实力获取大型数据集的使用许可,或者开发强大的爬虫来突破限制。
但对于小型创作者,比如视觉艺术家、YouTube 教育博主或普通博主而言,他们可能只有两个选择:要么把内容放置到付费专区中,要么直接停止在网络上发布内容
这对于普通用户而言,想要访问新闻文章、查看创作者发布的作品或者浏览网页,就变得更加困难,因为需要不断点击登录、满足订阅要求和输入验证码。
更令人担忧的是,AI 公司与网站签订的大型独家合同正在重塑网络格局。每一笔这样的交易,都让网站变得更保持数据的独占性,阻止其他任何人访问数据,无论对方是否是竞争对手。这很可能会导致权力进一步集中在少数 AI 开发者和数据发布者手中。
如果未来只有大公司能够获取关键网络数据的使用许可或进行爬取,竞争将会受到抑制,普通用户和众多版权所有者的利益也将无法得到保障。
简而言之,照此发展下去,网络的 “生态多样性” 将会降低。来自学术研究人员、记者和非 AI 应用的爬虫可能会越来越难以获得开放访问权限。
除非构建一个针对不同数据用途制定不同规则的生态系统,否则网络可能会出现严格的边界,开放性和透明度将成为牺牲品。
虽然要避免这种情况并不容易,但互联网开放的捍卫者可以推动法律、政策和技术基础设施的完善,明确保护网络数据的非竞争性使用,使其免受排他性合同的影响,同时也要保障数据创作者和发布者的权益。
当然,这两者并非相互矛盾。在这场围绕网络数据访问权的斗争中,我们得失攸关。当网站寻求应对之策时,绝不能为了商业 AI 的发展而牺牲开放互联网的未来。
原文链接:
https://www.technologyreview.com/2025/02/11/1111518/ai-crawler-wars-closed-web/
