トップページ > Googlebotの2MB制限とは? クロール制約とSEOベストプラクティスまとめ

Googlebotの2MB制限とは? クロール制約とSEOベストプラクティスまとめ

▼ 2026年5月最新:Googlebot 2MB制限 完全ガイド — HTTP Archive 67倍データ + Core Web Vitals 2026 閾値 + Mueller/Splitt 公式発言

結論:Googlebot の HTML 取得上限は 2MB(非圧縮)。HTTP Archive 2025 Web Almanac のデータでは、モバイル HTML の中央値は 約30KB で、2MB は実に 67倍。99.7% のページは制限に当たらない(DebugBear 調査)が、Base64 画像埋め込み・インラインSVG・商品フィード全件HTML 出力では超過リスクあり。さらに 2026年は Core Web Vitals が更新され、LCP の Good 閾値が 2.5秒 → 2.0秒 に厳格化議論中、VSI(Visual Stability Index)が第4軸として静かに追加された。John Mueller / Martin Splitt の 2026年 Bluesky 発言と合わせて、クロールバジェット最適化の正しい優先順位を整理する。

1. Googlebot 2MB制限とは — 2026年公式仕様(2026-02-03 ドキュメント整理)

2026年2月以前、多くの SEO 担当者は Googlebot のファイル上限を「15MB」と認識していた。これは Google のヘルプドキュメントに記載されていた「その他クローラー」のデフォルト値が混同されたためだ。2026年2月3日、Google が公式ドキュメントを更新し、HTML ファイルは 2MB(非圧縮データ基準) と明示した。これは 挙動変更ではなくドキュメントの明確化(Google 公式・Mueller 明言)。

ファイル種別Googlebot for Search 取得上限備考
HTML(および対応ファイル種別)先頭 2MB超過分は静かに切り捨て(rejected ではなく truncated)
PDF先頭 64MBバイナリ形式のため別枠で処理
Google の広域クローリングインフラ全体15MBHTMLの Search 用途とは別系統
HTMLページ中央値(HTTP Archive 2025)30KB(モバイル)2MB は中央値の 67倍、通常は問題なし

核の表現:Google の 2MB HTML 制限は、平均的ウェブの 67倍。普通のサイトは絶対に当たらない」。Spotibo の実地テストでは、3MB の HTML が 2MB 手前の約 15,210 行目で mid-word に途切れ、以降は完全に破棄されたことが確認されている。

2. HTTP Archive 2025 Web Almanac — ページサイズ ベンチマーク

HTTP Archive が公開した「2025 Web Almanac」(2026年1月刊行)の最新数字。WEB ディレクターが自分のサイトのページサイズを判断する基準として、これを覚えておく。

指標備考
HTML 中央値(モバイル)30KB2MB の 67分の1
モバイルホームページ総ウェイト中央値2.6MB前年 +8.4%
デスクトップホームページ総ウェイト中央値2.9MB前年 +7.3%
JavaScript 中央値664KBインナーページ 690KB
10年前(2015年)モバイル中央値845KB約3倍化
ファイル数(モバイル平均)合計 66HTML 2 / フォント 3 / CSS 8 / 画像 16 / JS 22 / その他

注意点:「総ページウェイト 2.6MB(モバイル中央値)」と「HTML 単体 30KB」は明確に区別する。Googlebot の 2MB 制限は HTML 単体のファイルに対する制限で、画像・CSS・JS は別計算。HTML 単体で 2MB を超えるサイトは、CMS の異常な吐き出しか、Base64 画像埋め込みなど特殊なパターンに限られる。

3. 商品フィード全件 HTML 出力 — 超過リスクの実例と対処法

EC サイトで最も多い超過パターン。サーバーサイドで全商品データを HTML 内に直接レンダリングすると、商品数に比例して HTML サイズが増大する:

  • 1,000商品 × 商品データ2KB = 約2MB → 制限ギリギリ
  • 5,000商品 × 商品データ2KB = 約10MB → 確実に超過

対処法:ページネーション(1ページ20〜50件)、Ajax/API による遅延ロード(fetch('/api/products?page=2'))、または無限スクロール(Intersection Observer API使用)に切り替える。

4. HTML軽量化の代替手法 — 外部CSS・JavaScript化の具体的手順

4.1 インラインCSSの外部化

<!-- 修正前(インラインCSS、HTMLサイズ増大の原因)-->
<div style="font-size:16px;color:#333;line-height:1.8;padding:20px;">...</div>

<!-- 修正後(外部CSSクラスを使用)-->
<div class="article-body">...</div>
<!-- styles.cssに追記: .article-body{font-size:16px;color:#333;} -->

4.2 Base64画像の外部化(HTMLサイズ削減の最大効果)

<!-- 修正前(Base64埋め込み、数百KBになることも)-->
<img src="data:image/png;base64,iVBORw0KGgoAAAANS...">

<!-- 修正後(通常のimg参照)-->
<img src="/images/product-thumbnail.png" loading="lazy" width="200" height="200">

5. サーバーログで Googlebot クロール状況を確認する方法

Search Console に警告が出ない「サイレント切り捨て」を検知するには、サーバーログが唯一の手がかりだ:

# Googlebotのアクセスと転送サイズを抽出(Apache)
grep "Googlebot" /var/log/httpd/access_log | awk '{print $7, $10}' | sort -k2 -rn | head -20
# 出力例: /product-list  1897432  (1.8MB → 要注意)

# レスポンスサイズが大きいページを優先的に確認
# 2MB = 2,097,152 bytes に近い値があれば切り捨てリスクあり

# Google Search Console → URL検査 → 「クロール済みページを表示」
# GooglebotがフェッチしたHTMLの実際のサイズを確認できる

6. 構造化データの <head> 配置 — body末尾での切り捨てリスク対策

JSON-LD を <body> 末尾に配置している場合、2MB 超過時に構造化データが丸ごと切り捨てられる。リッチスニペット(FAQ・パンくず・商品)の消失原因になるため、全ての構造化データは <head> 内に配置する。当サイトでは全1,090ページで <head> 内配置済み。コウゾウ で生成した構造化データは <head> 内に貼り付けること。

7. Core Web Vitals 2026 — 閾値の最新動向

2026年3月18日、Google 公式ブログで INP が LCP/CLS と完全に同等の Ranking Signal になったと明示された。さらに LCP の Good 閾値が 2.5秒 → 2.0秒に厳格化議論中。Core Web Vitals 2.0 として「Visual Stability Index(VSI)」が第4軸として静かに導入された。

指標GoodNeeds ImprovementPoor
LCP(Largest Contentful Paint)≤ 2.5秒(2.0秒に厳格化議論中)2.6 〜 4.0秒> 4.0秒
INP(Interaction to Next Paint)≤ 200ms201 〜 500ms> 500ms
CLS(Cumulative Layout Shift)< 0.10.1 〜 0.25> 0.25
VSI(Visual Stability Index, 2026年新規)「Core Web Vitals 2.0」第4軸として静かに導入

評価基準は 75パーセンタイル(p75)の実ユーザーデータでパス判定(CrUX = Chrome User Experience Report)。ラボツールのスコア(PageSpeed Insights の Lighthouse)ではなく、実訪問者の実測値で判定される点が重要。

8. John Mueller / Martin Splitt 2026年 公式発言

8.1 John Mueller(Bluesky, 2026年4月)

  • 2MB の HTML はかなりの量だ。サイトがこの制限に当たるケースは極めて稀
  • 「制限は最近変わったわけではない。我々はより詳しくドキュメント化したかっただけ」
  • 「Google には複数のクローラーがある。だから分割している」
  • JS で Googlebot を過負荷にするな。SSR か prerendering で対応せよ

8.2 Martin Splitt(2026年)

  • 「サイトレベルのサイズが意味を持つかどうか議論は不毛で、ページ単位のサイズこそ議論すべき
  • 「構造化データはページウェイトを増やすトレードオフ」(Gary Illyes 言及)
  • 「将来的にページウェイト削減ガイダンスを Google から出す予定」

9. インデックスされない典型 6 パターン

  1. faceted navigation URL の無秩序生成(EC サイトの絞り込みパラメータ等)
  2. リダイレクトチェーン(複数の 301 連鎖)
  3. soft 404(200を返すが内容は「見つかりません」)
  4. 重複パラメータ生成ページ
  5. 遅いサーバー応答:サーバー応答 100ms 改善ごとに、1セッションで約 15% 多いページがクロールされる
  6. JS 依存の本文:2MB 超過部分は Googlebot に届かない

10. Crawl Budget 重要閾値 — 2026年の最適化判断

  • 10,000 URL 超え または 新規コンテンツ生成がインデックス速度を上回るサイト → Crawl Budget 最適化が必須
  • 2026年は AI クローラー(GPTBot, ClaudeBot, PerplexityBot 等)がサーバーリソースを食う比率が増加 → Crawl Budget 管理が一層重要
  • 当サイトでは AIクローラーをブロックしても引用は止まらない で書いた通り、無闇な block より「クロール頻度設定 + サーバー応答速度改善」のほうが効果的

11. 当サイトの実証データと接続

当サイトの全 1,090 ページは HTML 単体で平均 約 45KB(最大 180KB)に収まっており、Googlebot 2MB 制限の 2.5% 程度。これは「軽量化が SEO の前提条件である」という方針で 2025年に コード圧縮ツール を使った全ページの minify(HTML/CSS/JS 28.6% 削減)を実施した結果。LCP は p75 で 1.8秒、INP は 80ms、CLS は 0.02。Core Web Vitals 2026 の厳格化議論中の 2.0秒 LCP 閾値もクリアできている。

計測の継続については LCRS は 10.7%、GA4 referrer は 0 ── 第4軸(引用率) で詳述した「3層計測(公式・第三者・自前)」を実装している。速度 → bounce → 信頼性 → AI 引用率という連鎖の起点が速度であることは、業界共通の理解になりつつある。

📌 関連コンテンツ

- Googlebotのクロールサイズ上限は15MBではなく2MBであると明確化。
- Googlebotは単一のクローラーではなく、複数のGoogleプロダクトが共有するクローリングインフラの一部。
- 取得制限は1URLあたり2MBで、PDFの場合は64MB。
- 制限を超えたコンテンツは無視され、取得は中断地点で停止。
- SEOのベストプラクティスとして、HTMLを軽量に保ち、重要な要素を上部に配置することが推奨される。

この記事でこんな事が
学べそうですね

SEO|技術

ポイント要約

Googlebotのクロールサイズ制限は2MBであり、SEOにおける最適化手法やサーバーログの重要性を解説しています。

このトピックで身につけるべきスキル

学習の要点

  • 1
    HTMLを軽量に保つための具体的な手法を実践する
    見てみる
    ウェブサイトのパフォーマンスを分析し、最適化するためのツール
  • 2
    外部CSSやJavaScriptを適切に管理する
    見てみる
    ウェブページの読み込み速度をテストし、外部リソースの影響を確認するためのツール
  • 3
    サーバーのレスポンスタイムを定期的にチェックする
    見てみる
    サーバーログをリアルタイムで解析し、問題を特定するためのツール

重要キーワード・学習リソース

本記事の参照元

Googlebotの2MB制限とは? クロール制約とSEOベストプラクティスまとめ

出典: 海外SEO情報ブログ

元記事を読む外部サイト
2025/05/31
THU
00:00:00

ブラウザ・OS 最新バージョン

毎日更新:2026-05-17 調査更新済
  • Android(stable) 未取得
  • Chrome Android(stable) 148.0.7778.167
  • Chrome iOS(stable) 148.0.7778.166
  • Chrome(beta) 149.0.7827.14
  • Chrome(dev) 150.0.7838.0
  • Chrome(stable) 148.0.7778.168
  • Edge(stable) 148.0.3967.54
  • Firefox(stable) 150.0.3
  • Opera(stable) 131.0.5877.55
  • Safari iOS(stable) 未取得
  • Safari(stable) 未取得
  • iOS(stable) 未取得

現在の貴方のIPアドレス

216.73.216.72

このサイトで書いている人

株式会社ツクルン

株式会社ツクルン

Webアドバイジング・クリエイター
池田南美夫
もうすぐ●●歳。ずっーと現役SE。日本にインターネットが上陸してから、ずっーと携わる。 ほんとは超アナログ人間のギター弾き、バンドマン。でも音楽活動とSE、案外似てる。