「赛博菩萨」降临：Cloudflare如何重塑AI时代的数据经济

Cloudflare的“Pay Per Crawl”服务正试图终结AI巨头免费获取网络内容的时代，通过引入按次付费机制，赋予内容创作者对数据使用和变现的全新控制权，预示着一个更加公平但也可能更加封闭的数字未来。

过去一年多以来，生成式AI的爆发式发展，在彻底改变我们与信息互动方式的同时，也引发了互联网核心经济模式的深层动荡。一边是AI大模型贪婪地吞噬着海量网络数据以进行训练，另一边却是内容创作者们流量锐减、收益枯竭的困境。这场围绕“AI免费午餐”的版权与价值争议愈演愈烈，甚至演变为旷日持久的法律诉讼。如今，一家掌握全球约20%网络流量的互联网基础设施巨头——Cloudflare，正以其最新的实验性产品“Pay Per Crawl”介入这场博弈，试图为失衡的数字生态建立一套新的秩序：要么获得许可，要么付费。

失衡的数字生态：AI时代的“免费午餐”终结

长久以来，互联网内容生产与分发遵循着一套心照不宣的“隐形契约”：网站默认开放可爬取，搜索引擎通过抓取内容、提供链接为网站导流，网站则通过随之而来的流量进行广告变现或订阅销售。这是一种建立在“内容换流量”基础上的互惠模式。然而，AI时代的到来，彻底打破了这一脆弱的平衡。

当用户直接在AI聊天机器人中提问并获得总结好的答案时，他们不再需要点击数十个蓝色链接跳转到原始网站。即便是谷歌这样的传统搜索巨头，也已在其搜索页面推出“人工智能概述”，据称75%的用户无需点击任何链接即可获得解答。这种用户行为的根本性转变，导致了内容网站流量的骤降，使得传统的“内容换流量”模式变得越发亏本。

Cloudflare在2025年7月发布的最新数据显示，这种失衡达到了惊人的程度：谷歌的爬虫大约每6到7次抓取能为网站带回1次点击，而OpenAI的比例是1500次抓取才换来1次跳转，Anthropic的数字更是高达73300次才换来1次点击 ¹。这意味着，AI巨头几乎是在“吸血式”地利用全网内容作为训练燃料，却鲜有流量反哺创作者。

“有了OpenAI，网站流量获取难度比谷歌时代高出750倍，而有了Anthropic，难度更是高达3万倍。原因很简单：我们越来越不再消费原创内容，而是消费它们的衍生品。”Cloudflare CEO Matthew Prince在一篇博文中直言，“这不是一个公平的交易。” ¹

这种“不对等交易”不仅导致内容生产者的收入模式难以为继，也引发了全球范围的版权诉讼潮，其中以《纽约时报》起诉OpenAI最为引人关注。AI公司因此面临巨大的法律风险。正是在这样的背景下，Cloudflare推出了“Pay Per Crawl”——一个旨在让内容创作者掌握议价权，并开辟全新收入来源的解决方案。

技术解构：「付费爬取」机制的运作原理

“Pay Per Crawl”的问世并非偶然，它深刻根植于Cloudflare独特的网络基础设施地位。作为一家全球性的CDN（内容分发网络）和安全服务提供商，Cloudflare在全球300多个城市部署了节点，承载着全球约五分之一的Web流量。这种“中间人”的地位，使其能够在访问请求到达网站源服务器之前，就能识别并处理AI爬虫流量。

该功能的核心是为网站内容创作者提供一个在Cloudflare后台设定的“开关”：

允许（Allow）： 允许AI爬虫自由访问，维持现状。
收费（Charge）： 对AI爬虫的每次访问进行收费。
封锁（Block）： 完全禁止AI爬虫访问。

所有新加入Cloudflare的网站默认对AI爬虫采取封锁策略，除非站长主动修改。只有与Cloudflare建立合作关系的AI公司才能参与支付机制并获得访问权限。当AI爬虫向一个设置为“收费”的URL发起请求且尚未付费时，Cloudflare会返回一个HTTP 402 Payment Required状态码。这是一个在HTTP协议中专门为“网络支付”预留但过去极少被使用的状态码。AI爬虫可以在后续请求中带上支付信息，表明同意支付配置的价格，一旦匹配，Cloudflare便会放行并返回HTTP 200 OK，同时自动完成结算。Cloudflare本身则扮演着这个交易市场的“收银台”，负责聚合账单和分发收益 ¹。

值得注意的是，Cloudflare的这套机制并非简单地依靠User-Agent字符串识别。它要求AI公司注册密钥，并通过数字签名来验证身份，从而有效防止“山寨爬虫”冒充合规者逃避支付。这与过去依赖于robots.txt这一“礼貌建议”的文件形成了鲜明对比，后者对不遵守规则的AI爬虫几乎没有任何约束力。据Cloudflare统计，目前排名前10000的域名中，也仅有约37%拥有robots.txt文件 ¹。Cloudflare的方案，是将传统的“软约束”升级为技术层面上的“硬闸门”。

目前，“Pay Per Crawl”仍处于内测阶段，早期参与者包括BuzzFeed、《大西洋月刊》和《财富》等大型出版商。Cloudflare表示，未来设想包括根据内容类型、AI应用的用户数量，甚至训练、推理、搜索等不同用途进行动态定价。该公司还预言，这种按次付费爬虫的真正潜力，可能将在AI Agent智能代理的世界中充分显现，使智能代理能够以程序化方式协商访问数字资源。

行业震荡与未来格局：一次互联网的十字路口

Cloudflare的这一举动，无疑是AI和广大内容创作者之间一场“重新谈判分账”的开端。过去，只有少数头部媒体如《纽约时报》拥有足够影响力与AI公司进行授权谈判；而绝大多数中小网站、论坛乃至个人创作者，其内容都被默默爬取，却无力反抗或从中获益。Cloudflare的方案，旨在将这种议价能力普及到更广泛的网站，赋予它们在AI时代的数据使用权和变现权。

从支持者的角度看，“Pay Per Crawl”模式在理念上具有显著的“公平性”：创作者获得应有回报，AI公司则规避了法律风险。这有望推动整个产业走向更加合规的内容许可和数据使用模式。Cloudflare CEO Matthew Prince认为，如果能够根据内容对知识的促进程度，而非其产生的流量来衡量价值，这不仅能加速AI引擎的进步，更有可能促进“高价值内容创作的新黄金时代” ¹。

然而，这枚硬币也存在另一面。对于AI公司而言，互联网数据不再是免费的午餐，这意味着在算力之外，数据获取成本将成为新的考量要素。虽然这可能促使AI模型开发者在数据选择上更加审慎，侧重购买高价值、高质量的内容，而非无差别地“一股脑”爬取，但也引发了关于AI创新门槛的担忧。

数字权利倡导者可能会提出质疑：小型AI创业团队、独立研究者以及开源社区，能否承担得起这样的数据成本？学术研究、公益存档等“良性爬虫”是否会因此寸步难行，只能访问有限且低价值的数据源？在一个广告收益下滑、流量成本高涨的现实面前，会有多少网站仍愿意无偿开放给AI爬虫“吸血”？这种趋势会不会无意中加剧“大厂垄断”，毕竟财力雄厚的大型科技公司更容易承担高昂的数据费用？

“Pay Per Crawl”模式，在试图解决AI“吸血”内容却不反哺问题的同时，也可能在无意中抬高AI创新的门槛，使互联网失去其自由与共享的早期精神。当然，Cloudflare强调，他们只是赋予网站更多自主权，网站所有者仍然可以选择对公益、非营利项目免费开放。权力，最终仍在创作者手中。

Cloudflare CEO Matthew Prince表示，这场变革的目标是“构建更美好的互联网”。“我们尚不知道所有答案，但我们正在与一些顶尖的经济学家和计算机科学家合作寻找答案。” ¹

尽管“Pay Per Crawl”目前看起来只是Cloudflare的一个CDN新功能，但从某种意义上说，它可能是互联网走到一个分岔口的信号。AI不能无限透支创作者的耐心，并在“开放”的名义下把人的劳动变成免费的燃料。无论“Pay Per Crawl”最终能否大规模普及，它的出现无疑是向行业发出了一个明确信号：网络正在变革，其商业模式也必将随之改变。正如Cloudflare自己承认的那样，“这仅仅是个开始。” ¹

引用

「赛博菩萨」发威，AI 巨头的「免费午餐」时代终结了·极客公园·芯芯（2025/7/2）·检索日期2025/7/2 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎