Cloudflare 设定 2026 年 9 月截止期限，要求 AI 爬虫与搜索爬虫分离

Cloudflare 正在迫使 AI 公司在广告支持网站中二选一——是进行搜索索引，还是训练模型。这一转变可能重塑价值两千亿美元的数字内容的访问和变现方式。

Cloudflare 将从 2026 年 9 月 15 日起，默认阻止广告支持页面上的混合用途网络爬虫，迫使 AI 公司将搜索索引与模型训练分开，否则就必须向出版商付费获取访问权限。该政策针对的是将传统搜索、AI 代理使用和模型训练合并到同一个爬虫中的混合型机器人。

"绝大多数客户希望 AI 能够接触他们的内容，"Cloudflare 首席战略官 Stephanie Cohen 表示。"然而，对于那些依赖广告和订阅收入的客户来说，挑战截然不同：他们希望在保持可被发现的同时，不必将自己的作品白白送人。"

这一默认设置适用于新加入的 Cloudflare 客户、现有客户新建的网站，以及所有现有的免费用户，用户可以通过仪表盘调整设置。Cloudflare 同时将其"按爬取付费"实验升级为更广泛的"按使用付费"模式：当内容出现在 AI 搜索结果中，或当 AI 代理购买付费信息时，出版商将获得报酬。Ceramic.ai 和 You.com 是该计划的首批合作伙伴。Cloudflare 的数据显示，超过 50% 的 AI 爬虫流量是重新抓取未发生变化的页面，这对出版商和 AI 公司来说都是带宽浪费。

此举直指网络经济模式的结构性断裂。AI 答案引擎提取信息并直接提供摘要，而不将用户引向原始来源。根据 Adexchanger 的数据，Anthropic 每爬取 11,122 页才能带来一次推荐点击，而 AI 聊天机器人带来的流量比传统搜索大约少 96%，用户点击引用来源的比例仅约 1%。过去一年中，出版商的流量和收入下降了 20% 至 90%，建立新的补偿框架已迫在眉睫。

Cloudflare 特别点名了 Google，称其获取的信息量大约是其他 AI 公司的两倍，原因是这家搜索巨头让客户很难在保持可被发现的同时不被用于 AI 训练。Google 提供名为 Google Extended 的爬虫，网站所有者可以选择退出 AI 使用；但其旗舰产品 Googlebot 仍会为搜索爬取数据，包括 AI 概述和 AI 模式等 AI 功能。"如今互联网上大部分流量已不再是人类产生，我们必须走得更远、行动得更快，才能让可持续的生态系统得以建立，"Cloudflare 联合创始人兼 CEO Matthew Prince 在宣布该政策时表示。

这家基础设施提供商并非唯一瞄准内容许可机会的公司。TollBit、ProRata 和微软均已进入这一领域，各自的策略在对条款控制权的分配上有所不同。Really Simple Licensing 则推动在单一公司锁定规则之前建立一个开放标准。据 Press Gazette 报道，近 70% 的出版商预计，未来三年内 AI 许可协议将至少带来部分收入，尽管目前多数人仍认为这只是一个小众收入来源。

Cloudflare 计划推出一款"归属业务洞察"仪表盘，展示 AI 机器人如何访问内容、内容被引用在何处，以及不同 AI 平台能带来多少人类流量。这一工具将使"答案引擎优化"——即让内容对 AI 而非仅仅对搜索引擎可见——首次变得可量化。

Cloudflare 的做法也伴随重大风险。该公司可能掌控爬虫识别、权限层、使用计量和支付基础设施，从而将权力集中到一个单一中介手中。归属问题也仍未解决：AI 生成的答案可能综合数十个来源，或对原创观点进行改写而不显示引用。付费访问还可能进一步固化资金充裕的 AI 平台的优势，同时让初创公司、研究人员和开源开发者更难负担网络接入成本。

Cloudflare 目前的交易价格约为远期收益的 45 倍，反映出市场预期其基础设施地位将转化为新的收入来源。该公司的"按使用付费"模式如果被广泛采用，可能会带来一条与 AI 内容消费挂钩的经常性收入线——这是目前没有任何一家云基础设施提供商能够大规模验证的商业模式。

本文仅供参考，不构成投资建议。