CloudflareがAIクローラーに対する新しい制御機能を発表した。その背景には、GoogleのAI検索機能がウェブサイト運営者の利益を損なっているという問題がある。今回の動きは、コンテンツ制作者とAI開発者の間で高まる緊張関係を象徴するものとなっている。
Cloudflareの新しい取り組み
Cloudflareは2025年9月、「コンテンツシグナルポリシー」という新しい仕組みを発表した。この仕組みにより、ウェブサイト運営者はAIクローラーによるコンテンツの使用方法を詳細に制御できるようになる。
具体的には、robots.txtファイルに3つのシグナルを追加できる。「search」は検索インデックス作成を許可するが、AI生成サマリーは除外する。「ai-input」はリアルタイムのAI回答への使用を制御する。「ai-train」はAIモデルのトレーニング用途を制限する。
Cloudflareは10月、この新しいポリシーを380万以上のドメインに自動適用した。これにより、ウェブ全体の約20%が新しいルールの下に置かれることになった。
問題の背景
従来、検索エンジンとウェブサイト運営者の間には暗黙の了解があった。検索エンジンはコンテンツをクロールし、その見返りとしてウェブサイトに訪問者を送る。ウェブサイト運営者はその訪問者から広告収入を得る。この関係は30年間維持されてきた。
しかし、GoogleのAIオーバービュー機能はこの関係を変えた。AIが検索結果画面で直接回答を生成するため、ユーザーは元のウェブサイトを訪問する必要がなくなった。ウェブサイト運営者にとっては、コンテンツは使われるが訪問者は減る、という状況が生まれている。
Cloudflareのデータによると、2025年1月から3月の間に、ニュースサイトへのGoogleからの紹介は約9%減少した。一方、AIクローラーによるアクセスは急増している。Anthropicのクローラーの「クロール対紹介」比率は73,000:1、OpenAIは約1,700:1に達している。対照的に、従来のGoogle検索は14:1にとどまっている。
Googleの立場と問題点
Googleは検索インデックス作成とAIデータ収集の両方に、同じクローラー「Googlebot」を使用している。これにより、ウェブサイト運営者は困難な選択を迫られる。AIオーバービューでのコンテンツ使用を拒否するには、Googlebotを完全にブロックする必要がある。しかし、それは従来の検索結果からも除外されることを意味する。
Cloudflareのコンテンツシグナルポリシーは、この2つを分離することを目的としている。ウェブサイト運営者は検索インデックスへの掲載を許可しながら、AI生成サマリーでの使用を拒否できる。
一方、OpenAIやAnthropicは異なるアプローチを取っている。OpenAIはモデルトレーニング用に「GPTBot」、検索機能用に「OAI-SearchBot」と、目的ごとに別のクローラーを使用している。Anthropicも同様に、「ClaudeBot」「Claude-User」「Claude-SearchBot」を使い分けている。Cloudflareはこれらの企業の取り組みを「責任あるクローリング」として評価している。
Googleは新しいシグナルを尊重するかどうか、明確な立場を表明していない。技術的には、検索用とAI用で別々のインデックスを維持するか、都度robots.txtをチェックする必要がある。いずれも追加コストが発生する。
新しいビジネスモデルの可能性
Cloudflareは「Pay-per-Crawl」という仕組みも導入している。これにより、ウェブサイト運営者はAIクローラーに対してアクセス料金を請求できる。現在はプライベートベータ版として提供されている。
この仕組みでは、HTTP 402「支払いが必要」というステータスコードを使用する。ブロックされたクローラーは、アクセスを継続するために支払い意思を示す必要がある。Cloudflareは認証、計測、請求を仲介する。
この動きは、AP通信、コンデナスト、Dotdash Meredith、TIMEなど、主要なメディア企業から支持を得ている。彼らは長年、AIクローラーによる無償でのコンテンツ使用に懸念を表明してきた。
企業への影響
この状況は、ウェブサイトを運営する企業にいくつかの選択肢を提示している。
Cloudflareのサービスを利用している場合、新しい制御機能を活用することで、AIクローラーへの対応方針を明確にできる。プロモーション用のコンテンツはアクセスを許可し、独自性の高いコンテンツは保護する、といった使い分けも可能になる。
一方、AIの回答に引用されることは、企業の認知度向上につながる可能性もある。将来的に、AI回答が情報発見の主要な手段となった場合、トレーニングデータに含まれていないサイトは認知されにくくなる、という懸念もある。
どちらの方針を選ぶかは、企業の状況により異なる。大手メディア企業は自社コンテンツの保護を優先する傾向がある。一方、認知度向上を重視する企業は、AIからのアクセスを許可する選択もある。
今後の展望
この問題は、より大きな流れの一部と見られる。インターネット技術タスクフォース(IETF)では、AI時代に向けたrobots.txtプロトコルの標準化作業が進んでいる。「AI Preferences(AIPREF)」ワーキンググループが設立され、業界全体でのルール作りが始まっている。
Cloudflareの動きは、この標準化プロセスに影響を与える可能性が高い。すでに380万のドメインに適用されており、事実上の業界標準となりつつある。
さらに長期的には、自律型AIエージェントの時代に向けた準備という側面もある。将来、AIエージェントがユーザーに代わってウェブを閲覧し、製品を比較し、購入を行うようになった場合、今回のような仕組みがデータアクセスの基盤となる。
ウェブサイトとAIの関係は、新しい段階に入った。今後数か月の間に、Googleの対応やIETFでの標準化作業が明らかになる見込みだ。BKK IT Newsとしては、この動きがウェブエコシステム全体に与える影響を注視していく必要があると考える。
参考記事リンク
- Cloudflare Just Changed How AI Crawlers Scrape the Internet-at-Large; Permission-Based Approach Makes Way for A New Business Model
- Cloudflare Challenges Google’s AI Dominance With New Web Content Policy – CircleID
- Giving users choice with Cloudflare’s new Content Signals Policy
- Introducing pay per crawl: Enabling content owners to charge AI crawlers for access
- The crawl-to-click gap: Cloudflare data on AI bots, training, and …