AI爬虫大战让互联网变得更封闭

（来源：MIT Technology Review）

日常生活中，我们对互联网的使用早已习以为常，它就像一片近在咫尺的信息海洋。然而，这一系统的正常运行依赖于大量的“爬虫”，这些机器人在网络中穿梭，每天访问数百万个网站，并反馈它们的“所见所闻”。

谷歌就是通过这种方式为其搜索引擎提供数据支持，亚马逊借此设定具有竞争力的价格，而 Kayak 则依靠它汇总旅游信息。

除了商业领域，爬虫对于监控网络安全、启用辅助工具和保存历史档案也至关重要，学者、记者和民间团体在开展重要调研时同样离不开它们。

如今，爬虫已经无处不在。这种看不见的“网络地铁”日夜不停地在各个网络站点之间传递信息。目前它们产生的流量已占据互联网总流量的一半，很快还会超过人类产生的流量。

而现在，爬虫又有了一个新的用途：像 OpenAI 这样的公司使用网络爬取的数据来训练其人工智能系统，比如 ChatGPT。

可以理解的是，网站现在开始进行反击，担心这些“入侵物种”（AI 爬虫）会取代它们。但问题在于，这种抵制行为也在威胁着互联网的透明性和开放性，而这些特性正是非 AI 应用蓬勃发展的基础。

如果不慎重思考解决办法，未来的网络将充斥着登录限制、访问收费等一系列障碍，这不仅会阻碍 AI 的发展，还会限制真实用户的体验以及各类有益爬虫的 “生态多样性”。

动荡中的网络系统

要理解这个问题，就需要先了解网络的运行机制。长期以来，爬虫和网站都以一种“相对共生”的模式协同运作。

在大多数情况下，爬虫的运行不会受到干扰，甚至还对网站有益，它们把人们从谷歌、必应等搜索引擎引导至各个网站作为交换获取数据；反过来，网站对爬虫的限制很少，有的甚至还会帮助它们导航网站。

一直以来，网站都会使用一种机器可读文件（称为 robots.txt 文件）来指定哪些内容希望爬虫不要访问。但是，过去很少有人严格执行这些规则，也不会特意识别无视规则的爬虫。当时风险似乎较低，所以网站也不会投入资源精力去阻止这些爬虫。

然而现在，AI 的广泛应用扰乱了整个爬虫生态系统。

就像入侵物种一样，AI 爬虫对各种数据有着贪婪且不加筛选的“胃口”，吞噬维基百科文章、学术论文、Reddit 帖子、评论网站和博客上的内容，几乎所有形式的数据都在它们的“菜单”上，包括文本、表格、图像、音频和视频等等。

由此训练出的 AI 模型（当然并非总是如此），可能会以与数据源直接竞争的方式被使用。比如，新闻网站担心 AI 聊天机器人会抢走读者；艺术家和设计师担心 AI 图像生成器会抢走客户；编程论坛则担心 AI 代码生成器会取代贡献者。

为此，网站开始将爬虫“拒之门外”。而这背后的动机很明确：AI 及其依赖的爬虫可能会利用网站自身的数据，进而损害网络内容发布者的经济利益。这种担忧引发了一系列暗潮涌动的“爬虫大战”。

网站的反击手段

网络发布者对 AI 的反击采取了三管齐下的策略：诉讼、立法和技术手段。

然而，法律和立法的裁决可能需要数年时间，而 AI 发展带来的影响却是立竿见影的。因此，数据创作者开始把目光聚焦在源头，即限制网络爬虫。

自 2023 年年中以来，超过 25% 的高质量数据所在网站都设置了爬虫访问限制。然而，许多限制很容易被绕过。

尽管像 OpenAI 和 Anthropic 这样的 AI 开发公司声称会遵守网站的限制，但它们也被指控无视规则，甚至强行突破网站限制。例如，技术支持论坛 iFixit 就曾提出此类指控。

现在，网站开始采用最后一招，即反爬虫技术。

许多新兴初创公司（比如 TollBit、ScalePost 等）以及像 Cloudflare（据估计，Cloudflare 承载了全球 20% 的网络流量）这样的网络基础设施公司已经开始提供用于检测、阻止非人类流量，以及对其收费的工具。

这些工具设置了重重障碍，使得网站更难被爬虫访问，有些还要求爬虫进行注册。

这些措施确实能提供即时保护。毕竟，不管法院对版权和合理使用如何裁决，AI 公司都无法使用它们无法获取的数据。

但问题在于，大型网站、论坛和站点往往会对所有爬虫进行“一刀切”，即使有些爬虫并不会构成威胁。

而且，一旦它们与那些希望独占数据的 AI 公司达成利润丰厚的交易，这种情况就更为明显。最终，互联网被分割成一个个对爬虫“不太友好的数据孤岛”。

共同面对损失

随着这场“猫鼠游戏”的不断升级，大玩家往往比小玩家更具持久力。大型网站和出版商有能力在法庭上捍卫自己的内容，或者通过协商签订合同；大型科技公司也有足够的实力获取大型数据集的使用许可，或者开发强大的爬虫来突破限制。

但对于小型创作者，比如视觉艺术家、YouTube 教育博主或普通博主而言，他们可能只有两个选择：要么把内容放置到付费专区中，要么直接停止在网络上发布内容

这对于普通用户而言，想要访问新闻文章、查看创作者发布的作品或者浏览网页，就变得更加困难，因为需要不断点击登录、满足订阅要求和输入验证码。

更令人担忧的是，AI 公司与网站签订的大型独家合同正在重塑网络格局。每一笔这样的交易，都让网站变得更保持数据的独占性，阻止其他任何人访问数据，无论对方是否是竞争对手。这很可能会导致权力进一步集中在少数 AI 开发者和数据发布者手中。

简而言之，照此发展下去，网络的 “生态多样性” 将会降低。来自学术研究人员、记者和非 AI 应用的爬虫可能会越来越难以获得开放访问权限。

除非构建一个针对不同数据用途制定不同规则的生态系统，否则网络可能会出现严格的边界，开放性和透明度将成为牺牲品。

虽然要避免这种情况并不容易，但互联网开放的捍卫者可以推动法律、政策和技术基础设施的完善，明确保护网络数据的非竞争性使用，使其免受排他性合同的影响，同时也要保障数据创作者和发布者的权益。

当然，这两者并非相互矛盾。在这场围绕网络数据访问权的斗争中，我们得失攸关。当网站寻求应对之策时，绝不能为了商业 AI 的发展而牺牲开放互联网的未来。

原文链接：

https://www.technologyreview.com/2025/02/11/1111518/ai-crawler-wars-closed-web/

玩酷网