Cloudflare的“Pay Per Crawl”服务正试图终结AI巨头免费获取网络内容的时代,通过引入按次付费机制,赋予内容创作者对数据使用和变现的全新控制权,预示着一个更加公平但也可能更加封闭的数字未来。
过去一年多以来,生成式AI的爆发式发展,在彻底改变我们与信息互动方式的同时,也引发了互联网核心经济模式的深层动荡。一边是AI大模型贪婪地吞噬着海量网络数据以进行训练,另一边却是内容创作者们流量锐减、收益枯竭的困境。这场围绕“AI免费午餐”的版权与价值争议愈演愈烈,甚至演变为旷日持久的法律诉讼。如今,一家掌握全球约20%网络流量的互联网基础设施巨头——Cloudflare,正以其最新的实验性产品“Pay Per Crawl”介入这场博弈,试图为失衡的数字生态建立一套新的秩序:要么获得许可,要么付费。
失衡的数字生态:AI时代的“免费午餐”终结
长久以来,互联网内容生产与分发遵循着一套心照不宣的“隐形契约”:网站默认开放可爬取,搜索引擎通过抓取内容、提供链接为网站导流,网站则通过随之而来的流量进行广告变现或订阅销售。这是一种建立在“内容换流量”基础上的互惠模式。然而,AI时代的到来,彻底打破了这一脆弱的平衡。
当用户直接在AI聊天机器人中提问并获得总结好的答案时,他们不再需要点击数十个蓝色链接跳转到原始网站。即便是谷歌这样的传统搜索巨头,也已在其搜索页面推出“人工智能概述”,据称75%的用户无需点击任何链接即可获得解答。这种用户行为的根本性转变,导致了内容网站流量的骤降,使得传统的“内容换流量”模式变得越发亏本。
Cloudflare在2025年7月发布的最新数据显示,这种失衡达到了惊人的程度:谷歌的爬虫大约每6到7次抓取能为网站带回1次点击,而OpenAI的比例是1500次抓取才换来1次跳转,Anthropic的数字更是高达73300次才换来1次点击 1。这意味着,AI巨头几乎是在“吸血式”地利用全网内容作为训练燃料,却鲜有流量反哺创作者。
“有了OpenAI,网站流量获取难度比谷歌时代高出750倍,而有了Anthropic,难度更是高达3万倍。原因很简单:我们越来越不再消费原创内容,而是消费它们的衍生品。”Cloudflare CEO Matthew Prince在一篇博文中直言,“这不是一个公平的交易。” 1
这种“不对等交易”不仅导致内容生产者的收入模式难以为继,也引发了全球范围的版权诉讼潮,其中以《纽约时报》起诉OpenAI最为引人关注。AI公司因此面临巨大的法律风险。正是在这样的背景下,Cloudflare推出了“Pay Per Crawl”——一个旨在让内容创作者掌握议价权,并开辟全新收入来源的解决方案。
技术解构:「付费爬取」机制的运作原理
“Pay Per Crawl”的问世并非偶然,它深刻根植于Cloudflare独特的网络基础设施地位。作为一家全球性的CDN(内容分发网络)和安全服务提供商,Cloudflare在全球300多个城市部署了节点,承载着全球约五分之一的Web流量。这种“中间人”的地位,使其能够在访问请求到达网站源服务器之前,就能识别并处理AI爬虫流量。
该功能的核心是为网站内容创作者提供一个在Cloudflare后台设定的“开关”:
- 允许(Allow): 允许AI爬虫自由访问,维持现状。
- 收费(Charge): 对AI爬虫的每次访问进行收费。
- 封锁(Block): 完全禁止AI爬虫访问。
所有新加入Cloudflare的网站默认对AI爬虫采取封锁策略,除非站长主动修改。只有与Cloudflare建立合作关系的AI公司才能参与支付机制并获得访问权限。当AI爬虫向一个设置为“收费”的URL发起请求且尚未付费时,Cloudflare会返回一个HTTP 402 Payment Required状态码。这是一个在HTTP协议中专门为“网络支付”预留但过去极少被使用的状态码。AI爬虫可以在后续请求中带上支付信息,表明同意支付配置的价格,一旦匹配,Cloudflare便会放行并返回HTTP 200 OK,同时自动完成结算。Cloudflare本身则扮演着这个交易市场的“收银台”,负责聚合账单和分发收益 1。
值得注意的是,Cloudflare的这套机制并非简单地依靠User-Agent字符串识别。它要求AI公司注册密钥,并通过数字签名来验证身份,从而有效防止“山寨爬虫”冒充合规者逃避支付。这与过去依赖于robots.txt
这一“礼貌建议”的文件形成了鲜明对比,后者对不遵守规则的AI爬虫几乎没有任何约束力。据Cloudflare统计,目前排名前10000的域名中,也仅有约37%拥有robots.txt
文件 1。Cloudflare的方案,是将传统的“软约束”升级为技术层面上的“硬闸门”。
目前,“Pay Per Crawl”仍处于内测阶段,早期参与者包括BuzzFeed、《大西洋月刊》和《财富》等大型出版商。Cloudflare表示,未来设想包括根据内容类型、AI应用的用户数量,甚至训练、推理、搜索等不同用途进行动态定价。该公司还预言,这种按次付费爬虫的真正潜力,可能将在AI Agent智能代理的世界中充分显现,使智能代理能够以程序化方式协商访问数字资源。
行业震荡与未来格局:一次互联网的十字路口
Cloudflare的这一举动,无疑是AI和广大内容创作者之间一场“重新谈判分账”的开端。过去,只有少数头部媒体如《纽约时报》拥有足够影响力与AI公司进行授权谈判;而绝大多数中小网站、论坛乃至个人创作者,其内容都被默默爬取,却无力反抗或从中获益。Cloudflare的方案,旨在将这种议价能力普及到更广泛的网站,赋予它们在AI时代的数据使用权和变现权。
从支持者的角度看,“Pay Per Crawl”模式在理念上具有显著的“公平性”:创作者获得应有回报,AI公司则规避了法律风险。这有望推动整个产业走向更加合规的内容许可和数据使用模式。Cloudflare CEO Matthew Prince认为,如果能够根据内容对知识的促进程度,而非其产生的流量来衡量价值,这不仅能加速AI引擎的进步,更有可能促进“高价值内容创作的新黄金时代” 1。
然而,这枚硬币也存在另一面。对于AI公司而言,互联网数据不再是免费的午餐,这意味着在算力之外,数据获取成本将成为新的考量要素。虽然这可能促使AI模型开发者在数据选择上更加审慎,侧重购买高价值、高质量的内容,而非无差别地“一股脑”爬取,但也引发了关于AI创新门槛的担忧。
数字权利倡导者可能会提出质疑:小型AI创业团队、独立研究者以及开源社区,能否承担得起这样的数据成本?学术研究、公益存档等“良性爬虫”是否会因此寸步难行,只能访问有限且低价值的数据源?在一个广告收益下滑、流量成本高涨的现实面前,会有多少网站仍愿意无偿开放给AI爬虫“吸血”?这种趋势会不会无意中加剧“大厂垄断”,毕竟财力雄厚的大型科技公司更容易承担高昂的数据费用?
“Pay Per Crawl”模式,在试图解决AI“吸血”内容却不反哺问题的同时,也可能在无意中抬高AI创新的门槛,使互联网失去其自由与共享的早期精神。当然,Cloudflare强调,他们只是赋予网站更多自主权,网站所有者仍然可以选择对公益、非营利项目免费开放。权力,最终仍在创作者手中。
Cloudflare CEO Matthew Prince表示,这场变革的目标是“构建更美好的互联网”。“我们尚不知道所有答案,但我们正在与一些顶尖的经济学家和计算机科学家合作寻找答案。” 1
尽管“Pay Per Crawl”目前看起来只是Cloudflare的一个CDN新功能,但从某种意义上说,它可能是互联网走到一个分岔口的信号。AI不能无限透支创作者的耐心,并在“开放”的名义下把人的劳动变成免费的燃料。无论“Pay Per Crawl”最终能否大规模普及,它的出现无疑是向行业发出了一个明确信号:网络正在变革,其商业模式也必将随之改变。正如Cloudflare自己承认的那样,“这仅仅是个开始。” 1