Googlebotの2MB制限とは? クロール制約とSEOベストプラクティスまとめ
Googlebotの2MB制限とは? クロール制約とSEOベストプラクティスまとめ
▼ 2026年5月最新:Googlebot 2MB制限 完全ガイド — HTTP Archive 67倍データ + Core Web Vitals 2026 閾値 + Mueller/Splitt 公式発言
結論:Googlebot の HTML 取得上限は 2MB(非圧縮)。HTTP Archive 2025 Web Almanac のデータでは、モバイル HTML の中央値は 約30KB で、2MB は実に 67倍。99.7% のページは制限に当たらない(DebugBear 調査)が、Base64 画像埋め込み・インラインSVG・商品フィード全件HTML 出力では超過リスクあり。さらに 2026年は Core Web Vitals が更新され、LCP の Good 閾値が 2.5秒 → 2.0秒 に厳格化議論中、VSI(Visual Stability Index)が第4軸として静かに追加された。John Mueller / Martin Splitt の 2026年 Bluesky 発言と合わせて、クロールバジェット最適化の正しい優先順位を整理する。
1. Googlebot 2MB制限とは — 2026年公式仕様(2026-02-03 ドキュメント整理)
2026年2月以前、多くの SEO 担当者は Googlebot のファイル上限を「15MB」と認識していた。これは Google のヘルプドキュメントに記載されていた「その他クローラー」のデフォルト値が混同されたためだ。2026年2月3日、Google が公式ドキュメントを更新し、HTML ファイルは 2MB(非圧縮データ基準) と明示した。これは 挙動変更ではなくドキュメントの明確化(Google 公式・Mueller 明言)。
| ファイル種別 | Googlebot for Search 取得上限 | 備考 |
|---|---|---|
| HTML(および対応ファイル種別) | 先頭 2MB | 超過分は静かに切り捨て(rejected ではなく truncated) |
| 先頭 64MB | バイナリ形式のため別枠で処理 | |
| Google の広域クローリングインフラ全体 | 15MB | HTMLの Search 用途とは別系統 |
| HTMLページ中央値(HTTP Archive 2025) | 30KB(モバイル) | 2MB は中央値の 67倍、通常は問題なし |
核の表現:「Google の 2MB HTML 制限は、平均的ウェブの 67倍。普通のサイトは絶対に当たらない」。Spotibo の実地テストでは、3MB の HTML が 2MB 手前の約 15,210 行目で mid-word に途切れ、以降は完全に破棄されたことが確認されている。
2. HTTP Archive 2025 Web Almanac — ページサイズ ベンチマーク
HTTP Archive が公開した「2025 Web Almanac」(2026年1月刊行)の最新数字。WEB ディレクターが自分のサイトのページサイズを判断する基準として、これを覚えておく。
| 指標 | 値 | 備考 |
|---|---|---|
| HTML 中央値(モバイル) | 30KB | 2MB の 67分の1 |
| モバイルホームページ総ウェイト中央値 | 2.6MB | 前年 +8.4% |
| デスクトップホームページ総ウェイト中央値 | 2.9MB | 前年 +7.3% |
| JavaScript 中央値 | 664KB | インナーページ 690KB |
| 10年前(2015年)モバイル中央値 | 845KB | 約3倍化 |
| ファイル数(モバイル平均) | 合計 66 | HTML 2 / フォント 3 / CSS 8 / 画像 16 / JS 22 / その他 |
注意点:「総ページウェイト 2.6MB(モバイル中央値)」と「HTML 単体 30KB」は明確に区別する。Googlebot の 2MB 制限は HTML 単体のファイルに対する制限で、画像・CSS・JS は別計算。HTML 単体で 2MB を超えるサイトは、CMS の異常な吐き出しか、Base64 画像埋め込みなど特殊なパターンに限られる。
3. 商品フィード全件 HTML 出力 — 超過リスクの実例と対処法
EC サイトで最も多い超過パターン。サーバーサイドで全商品データを HTML 内に直接レンダリングすると、商品数に比例して HTML サイズが増大する:
- 1,000商品 × 商品データ2KB = 約2MB → 制限ギリギリ
- 5,000商品 × 商品データ2KB = 約10MB → 確実に超過
対処法:ページネーション(1ページ20〜50件)、Ajax/API による遅延ロード(fetch('/api/products?page=2'))、または無限スクロール(Intersection Observer API使用)に切り替える。
4. HTML軽量化の代替手法 — 外部CSS・JavaScript化の具体的手順
4.1 インラインCSSの外部化
<!-- 修正前(インラインCSS、HTMLサイズ増大の原因)-->
<div style="font-size:16px;color:#333;line-height:1.8;padding:20px;">...</div>
<!-- 修正後(外部CSSクラスを使用)-->
<div class="article-body">...</div>
<!-- styles.cssに追記: .article-body{font-size:16px;color:#333;} -->
4.2 Base64画像の外部化(HTMLサイズ削減の最大効果)
<!-- 修正前(Base64埋め込み、数百KBになることも)--> <img src="data:image/png;base64,iVBORw0KGgoAAAANS..."> <!-- 修正後(通常のimg参照)--> <img src="/images/product-thumbnail.png" loading="lazy" width="200" height="200">
5. サーバーログで Googlebot クロール状況を確認する方法
Search Console に警告が出ない「サイレント切り捨て」を検知するには、サーバーログが唯一の手がかりだ:
# Googlebotのアクセスと転送サイズを抽出(Apache)
grep "Googlebot" /var/log/httpd/access_log | awk '{print $7, $10}' | sort -k2 -rn | head -20
# 出力例: /product-list 1897432 (1.8MB → 要注意)
# レスポンスサイズが大きいページを優先的に確認
# 2MB = 2,097,152 bytes に近い値があれば切り捨てリスクあり
# Google Search Console → URL検査 → 「クロール済みページを表示」
# GooglebotがフェッチしたHTMLの実際のサイズを確認できる
6. 構造化データの <head> 配置 — body末尾での切り捨てリスク対策
JSON-LD を <body> 末尾に配置している場合、2MB 超過時に構造化データが丸ごと切り捨てられる。リッチスニペット(FAQ・パンくず・商品)の消失原因になるため、全ての構造化データは <head> 内に配置する。当サイトでは全1,090ページで <head> 内配置済み。コウゾウ で生成した構造化データは <head> 内に貼り付けること。
7. Core Web Vitals 2026 — 閾値の最新動向
2026年3月18日、Google 公式ブログで INP が LCP/CLS と完全に同等の Ranking Signal になったと明示された。さらに LCP の Good 閾値が 2.5秒 → 2.0秒に厳格化議論中。Core Web Vitals 2.0 として「Visual Stability Index(VSI)」が第4軸として静かに導入された。
| 指標 | Good | Needs Improvement | Poor |
|---|---|---|---|
| LCP(Largest Contentful Paint) | ≤ 2.5秒(2.0秒に厳格化議論中) | 2.6 〜 4.0秒 | > 4.0秒 |
| INP(Interaction to Next Paint) | ≤ 200ms | 201 〜 500ms | > 500ms |
| CLS(Cumulative Layout Shift) | < 0.1 | 0.1 〜 0.25 | > 0.25 |
| VSI(Visual Stability Index, 2026年新規) | 「Core Web Vitals 2.0」第4軸として静かに導入 | — | — |
評価基準は 75パーセンタイル(p75)の実ユーザーデータでパス判定(CrUX = Chrome User Experience Report)。ラボツールのスコア(PageSpeed Insights の Lighthouse)ではなく、実訪問者の実測値で判定される点が重要。
8. John Mueller / Martin Splitt 2026年 公式発言
8.1 John Mueller(Bluesky, 2026年4月)
- 「2MB の HTML はかなりの量だ。サイトがこの制限に当たるケースは極めて稀」
- 「制限は最近変わったわけではない。我々はより詳しくドキュメント化したかっただけ」
- 「Google には複数のクローラーがある。だから分割している」
- 「JS で Googlebot を過負荷にするな。SSR か prerendering で対応せよ」
8.2 Martin Splitt(2026年)
- 「サイトレベルのサイズが意味を持つかどうか議論は不毛で、ページ単位のサイズこそ議論すべき」
- 「構造化データはページウェイトを増やすトレードオフ」(Gary Illyes 言及)
- 「将来的にページウェイト削減ガイダンスを Google から出す予定」
9. インデックスされない典型 6 パターン
- faceted navigation URL の無秩序生成(EC サイトの絞り込みパラメータ等)
- リダイレクトチェーン(複数の 301 連鎖)
- soft 404(200を返すが内容は「見つかりません」)
- 重複パラメータ生成ページ
- 遅いサーバー応答:サーバー応答 100ms 改善ごとに、1セッションで約 15% 多いページがクロールされる
- JS 依存の本文:2MB 超過部分は Googlebot に届かない
10. Crawl Budget 重要閾値 — 2026年の最適化判断
- 10,000 URL 超え または 新規コンテンツ生成がインデックス速度を上回るサイト → Crawl Budget 最適化が必須
- 2026年は AI クローラー(GPTBot, ClaudeBot, PerplexityBot 等)がサーバーリソースを食う比率が増加 → Crawl Budget 管理が一層重要
- 当サイトでは AIクローラーをブロックしても引用は止まらない で書いた通り、無闇な block より「クロール頻度設定 + サーバー応答速度改善」のほうが効果的
11. 当サイトの実証データと接続
当サイトの全 1,090 ページは HTML 単体で平均 約 45KB(最大 180KB)に収まっており、Googlebot 2MB 制限の 2.5% 程度。これは「軽量化が SEO の前提条件である」という方針で 2025年に コード圧縮ツール を使った全ページの minify(HTML/CSS/JS 28.6% 削減)を実施した結果。LCP は p75 で 1.8秒、INP は 80ms、CLS は 0.02。Core Web Vitals 2026 の厳格化議論中の 2.0秒 LCP 閾値もクリアできている。
計測の継続については LCRS は 10.7%、GA4 referrer は 0 ── 第4軸(引用率) で詳述した「3層計測(公式・第三者・自前)」を実装している。速度 → bounce → 信頼性 → AI 引用率という連鎖の起点が速度であることは、業界共通の理解になりつつある。
📌 関連コンテンツ
- PVが下がった日に見るべき5つの数字 — 連休期に慌てない判断軸
- AIクローラーをブロックしても引用は止まらない
- LCRS は 10.7%、GA4 referrer は 0 — AI 検索時代の第4軸
- Search Console の数字が示す本当の SEO 状況とは
- 表示速度チェッカー — HTML サイズを含む速度診断
- コード圧縮ツール — HTML/CSS/JS の minify(当サイトで28.6%削減実績)
- コウゾウ — <head> 配置用 JSON-LD 自動生成
- AI対応診断ツール — 構造化データの配置を含む20項目診断
- Googlebotは単一のクローラーではなく、複数のGoogleプロダクトが共有するクローリングインフラの一部。
- 取得制限は1URLあたり2MBで、PDFの場合は64MB。
- 制限を超えたコンテンツは無視され、取得は中断地点で停止。
- SEOのベストプラクティスとして、HTMLを軽量に保ち、重要な要素を上部に配置することが推奨される。
この記事でこんな事が
学べそうですね
ポイント要約
Googlebotのクロールサイズ制限は2MBであり、SEOにおける最適化手法やサーバーログの重要性を解説しています。
このトピックで身につけるべきスキル
- 1Googlebotのクロールサイズ制限を理解するGooglebotのクロールに関する公式ドキュメント見てみるGooglebotのクロール制限について詳しく学べる公式リソース
- 2HTMLや外部リソースの最適化方法を学ぶSEOにおけるHTML最適化のベストプラクティス見てみるHTMLの最適化手法を学ぶためのMozのリソース
- 3重要な要素をHTMLの上部に配置する理由を理解するサーバーログの解析とSEOへの影響見てみるサーバーログの重要性と解析方法についてのAhrefsのガイド
- 4サーバーログを監視する重要性を認識するレンダリングとSEOの関係見てみるGoogleのレンダリングサービスに関する詳細な情報
- 5レンダリング環境の制約を理解するSEOベストプラクティスの包括的ガイド見てみるSEOの基本から応用までを学べるHubSpotのリソース
学習の要点
重要キーワード・学習リソース
本記事の参照元
Googlebotの2MB制限とは? クロール制約とSEOベストプラクティスまとめ
出典: 海外SEO情報ブログ
現在の貴方のIPアドレス
このサイトで書いている人
WEBサイト