AIクローラーをブロックしても引用を防ぐことはできない？

トップページ > AIクローラーをブロックしても引用を防ぐことはできない？

AIクローラーをブロックしても引用を防ぐことはできない？

AIクローラーブロックの現実 — robots.txtでは引用を止められない

BuzzStreamの調査（3,600件のプロンプト、400万件の引用を分析）が明らかにした事実は衝撃的です。GPTBotをrobots.txtでブロックしているサイトの88.2%が、依然としてAIに引用されています。さらに深刻なのは、ブロックしたサイトは月間総訪問数が23.1%減少し、人間のトラフィックも13.9%減少するという副作用です。つまり、引用は止まらないのにトラフィックだけが減る。

なぜブロックしても引用されるのか？

AIシステムが引用を行う仕組みを理解すると、robots.txtだけでは対策として不十分な理由が見えてきます。なお、LLMボット（GPTBot、ClaudeBot等）のクロール量はGooglebotの3.6倍に達しています。

学習済みデータの存在: ブロック前にクロール・インデックスされたコンテンツは、既にAIの学習データに含まれている。robots.txtは「今後のクロール」を止めるだけで、過去のデータを消去することはできません
間接的な引用経路: 他サイトがあなたのコンテンツを引用・要約している場合、AIはその二次ソースから情報を取得します。直接クロールを止めても、情報は間接的に流通します
Common Crawlなどの公開データセット: 多くのAIモデルはCommon Crawl（数十億ページのアーカイブ）を学習に使用。robots.txtの設定に関係なく、過去のスナップショットが学習データに含まれます

主要AIクローラーの現状（2026年4月時点）

クローラー名	運営元	robots.txt準拠	備考
GPTBot	OpenAI	準拠	ブロックしてもChatGPTの引用は止まらない
ClaudeBot	Anthropic	準拠	CCBot（学習用）とは別
Google-Extended	Google	準拠	AI学習のみブロック、検索は影響なし
Bytespider	ByteDance	一部無視の報告あり	最も攻撃的なクローラーの1つ

WEB担当者が取るべき現実的な対策

「引用される前提」でコンテンツを設計する: ブロックより「正しく引用される」ことを目指す。構造化データ、引用ブロック、著者情報の明示がAI引用の正確性を高めます
llms.txtで情報提供を制御する: ブロックではなく、AIに「読んでほしい情報」を指定する。llms.txtはAIとの対話を拒否ではなく交渉に変えるツールです
独自データ・一次情報を武器にする: AIが再現できない価値 — 独自調査、実体験、ケーススタディ — が引用元として選ばれる最大の要因です。Authoritas社の調査では、一次情報を含むページのAI引用集中度が92%増加しています

2026年5月の最新データ — 「読まれるのに来ない」不均衡が極端化

AIクローラーの活動はさらに加速し、ブロックの是非を考える前提が変わってきました。Cloudflareの2026年5月18日時点のデータでは、GPTBotがClaudeBotを抜いてAIクローラー第3位（GPTBot 11.97% / ClaudeBot 10.67%）に浮上。最大はMeta（36.10%）で、こちらはリファラーを返す製品を持ちません。

そして最も重要なのが「クロール対リファラー比」——AIに何ページ読まれて、何件の流入が返ってくるかの比率です。この不均衡は想像を超えています。

AIボット	クロール対リファラー比	意味
ClaudeBot	約23,951 : 1	2.4万ページ読まれて流入1件
GPTBot	約1,276 : 1	読まれる量に対し流入は僅か
Perplexity	約111 : 1	比較的リファラーを返す
DuckDuckGo	約1.5 : 1	従来型検索に近い還元率

つまり、AIに大量に読まれても返ってくる流入はごく僅か。だからこそ「ブロックして流入も学習も両方失う」より、引用される一文にブランド名と固有の主張を埋め込み、僅かな還元を確実に自社へ向ける設計が現実解になります。robots.txtの判断は、この不均衡を理解した上で行うべきです。

📌 関連コンテンツ

🔧 構造化データ生成ツール「コウゾウ」 — AIに正しく認識される構造化データを自動生成
🔧 WEBサイト総合分析ツール — robots.txtの設定状況をチェック
📝 あなたのサイトを30分で"AI対応"にする — llms.txt設置を含む5ステップガイド
📝 GEOの落とし穴 — AI最適化で自滅しないための正しいアプローチ
📝 100本のSEO記事を補強して見えた5つの現実 — ゼロクリック93%時代の戦略

2026-06-29 追記 — IETF webbotauth WG が Active 化・標準化が動き始めた

2026 年、AI クローラーと Web サイトの「身元確認」を標準化する動きが、IETF（インターネット技術タスクフォース）で正式に始動しました。robots.txt の「お願いベース」から、暗号署名による「検証ベース」への大転換です。WEBディレクターが robots.txt と AI クローラー対策を見直す前提が、根本から変わろうとしています。

IETF webbotauth WG の正式構成

WG 名: webbotauth Working Group（Chartered Working Group・Active）
Chairs: David Schinazi（Google）+ Rifaat Shekh-Yusef
AD（Area Director）: Mike Bishop
主要 draft: draft-meunier-web-bot-auth-architecture-05（2026-03-02）
共著: Thibault Meunier（Cloudflare）+ Sandor Major（Google）
マイルストーン: 2026-04-30 Standards Track / 2026-08-31 BCP

ベース技術と意味

Web Bot Auth は RFC 9421（HTTP Message Signatures）と Ed25519 公開鍵暗号をベースに、AI クローラーが「自分は本物の Anthropic / OpenAI / Google の bot です」と暗号署名で証明する仕組みです。robots.txt の「準拠してくれることを願う」という従来モデルから、「署名がなければサーバが拒否する」検証モデルへの移行が、Cloudflare と Google の業界 2 大プレイヤーが共著で進めている点に注目すべきです。

Cloudflare Verified AI Agent 19体 launch — robots.txt の役割が再定義される

Cloudflare は 2026 年 6 月の公式 blog「Signed agents」で、Verified AI Agent 19 体の launchを発表しました。robots.txt が「未検証クローラーの排除」役割を担い、Verified カテゴリが「検証済みエージェントの allow」を担う、二層構造への再編成です。

Verified AI Agent 19 体の代表例

ChatGPT Atlas（OpenAI のブラウザ × AI 一体型）
Claude in Chrome（Anthropic の Chrome 拡張 agent）
Perplexity Browser（Perplexity Comet 系の自律エージェント）
Gemini Agent Mode（Google Spark 系の自律エージェント）
Brave Leo（Brave 標準搭載 AI agent）
Arc's Browse for Me（Arc ブラウザの自律閲覧 agent）
他 13 体（公式 blog「Signed agents」で全リスト公開）

新ルールアクション「Challenge Agent」の登場

Cloudflare は同時に Challenge Agent という新しい WAF ルールアクションを追加しました。これは「未検証の AI エージェントには CAPTCHA / 署名要求を返す」動作で、robots.txt とは独立した検証層として機能します。WEBディレクターは、robots.txt（広域お願い）+ Verified allow（検証済み許可）+ Challenge Agent（未検証チャレンジ）の 3 層を組み合わせる時代に入りました。

WEBディレクターが今すぐ確認すべき3つの設定

設定 1: Cloudflare で Verified AI Agent カテゴリの allow を確認する

Cloudflare の WAF Custom Rules で cf.verified_bot_category eq "Verified AI Agent" という条件を allow（skip Bot Management）に設定します。これにより、ChatGPT Atlas / Claude in Chrome / Perplexity Browser など 19 体の verified agent が、Bot Fight Mode の影響を受けずにサイトへアクセスできます。当サイト archives/86「Cloudflareのデフォルト『AI bots ブロック』があなたのGEOを殺している」で実装手順を完全公開しました。

設定 2: robots.txt の役割を「未検証クローラーの境界線」に整理し直す

従来の robots.txt は「全 AI クローラーへのお願い」でしたが、Verified カテゴリの登場で 「未検証クローラー向け境界線」に役割が変わります。GPTBot / ClaudeBot などの個別 User-Agent ブロック設定を見直し、Cloudflare の Verified allow と矛盾しないよう整理します。

設定 3: Web Bot Auth 標準化に備えた継続観察

IETF webbotauth WG は 2026-04-30 に Standards Track、2026-08-31 に BCP のマイルストーンを設定しています。2026 年下半期から 2027 年にかけて、Web Bot Auth が「サイトが対応していないと AI agent が来ない」段階に進む可能性があります。WEBディレクターは IETF の draft 進捗を月次でレビューし、CMS / WAF / CDN の対応状況を把握しておくべきです。

・BuzzStreamの分析によると、AIクローラーをrobotstxtでブロックしても、コンテンツがAIに引用されるのを防ぐのは難しい。
・調査では、3600件のプロンプトから得た400万件の引用を分析し、約75%のブロックサイトが依然としてAIに引用されていることが判明。
・AIシステムは過去のデータに依存している可能性があり、クローラーがブロックされても引用が続く理由とされる。
・パブリッシャーは、クローラーのブロックに頼りすぎず、質の高いコンテンツと広いリーチを重視すべき。
・調査方法に問題があり、信頼性が低い可能性が指摘されている。

この記事でこんな事が
学べそうですね

SEO|AI|マーケティング

ポイント要約

AIクローラーをrobots.txtでブロックしても、コンテンツがAIに引用されるのを防ぐのは難しい。質の高いコンテンツと広い配信が重要。

このトピックで身につけるべきスキル

1
AIクローラーのブロックが引用を防げない理由を理解すること。
SEOにおけるrobots.txtの役割見てみる
robots.txtの基本とその影響を学ぶための公式リソース
2
コンテンツの質と配信の重要性を認識すること。
コンテンツマーケティングの戦略見てみる
質の高いコンテンツ作成のための統計と戦略を学ぶ
3
AIシステムのデータ依存性について学ぶこと。
AIとSEOの関係見てみる
AIがSEOに与える影響についての洞察を得る
4
robots.txtの役割と限界を理解すること。
デジタルPRの基礎見てみる
デジタルPRの基本と最新トレンドを学ぶためのリソース
5
デジタルPR戦略を見直す必要性を考えること。
AIシステムのトレーニングデータ見てみる
AIのトレーニングデータに関する研究と情報を得る

学習の要点

1
質の高いコンテンツを作成し、広く配信する戦略を立てること。
見てみる
コンテンツマーケティングの実践的な戦略を学ぶコース
2
AI引用を防ぐための新しいアプローチを模索すること。
見てみる
AIを活用したマーケティング戦略を学ぶコース
3
デジタルPRチームと連携し、効果的な戦略を構築すること。
見てみる
デジタルPR戦略を構築するための実践的なリソース

重要キーワード・学習リソース

本記事の参照元

AIクローラーをブロックしても引用を防ぐことはできない？

出典: 海外SEO情報ブログ

元記事を読む外部サイト

2025/05/31

THU

00:00:00

ブラウザ・OS 最新バージョン

毎日更新：2026-07-10 調査更新済

Android（stable） 未取得
Chrome Android（stable） 150.0.7871.114
Chrome iOS（stable） 150.0.7871.113
Chrome（beta） 151.0.7922.10
Chrome（dev） 152.0.7928.2
Chrome（stable） 150.0.7871.115
Edge（stable） 150.0.4078.48
Firefox（stable） 152.0.5
Opera（stable） 133.0.5932.34
Safari iOS（stable） 未取得
Safari（stable） 未取得
iOS（stable） 未取得

現在の貴方のIPアドレス

216.73.216.17

このサイトで書いている人

株式会社ツクルン

Webアドバイジング・クリエイター

池田南美夫

もうすぐ●●歳。ずっーと現役SE。日本にインターネットが上陸してから、ずっーと携わる。ほんとは超アナログ人間のギター弾き、バンドマン。でも音楽活動とSE、案外似てる。

AIクローラーをブロックしても引用を防ぐことはできない？