トップページ > Googlebot の内部: クロール、フェッチ、処理バイトの謎を解き明かす

Googlebot の内部: クロール、フェッチ、処理バイトの謎を解き明かす

【2026年最新】Googlebotの内部構造 — 2MB制限・15MBフェッチ・WRSの処理フローを完全解説

2026年3月、Google Search Central Blogが「Inside Googlebot」を公式公開し、クロール→フェッチ→レンダリングの内部アーキテクチャを初めて詳細に説明しました。最大の注目点はフェッチ15MB / インデックス2MBという二段階制限。これを正しく理解しないと、ページ後半のコンテンツが「存在しない」扱いになるリスクがあります。

バイト制限の全貌

  • フェッチ vs インデックスの違い:
    Googlebotは最大15MBまでダウンロード可能——この部分は変更なし。しかしインデックス処理に渡されるのは先頭2MBのみ(HTTPヘッダー含む)。2MBを超えた部分はフェッチされず、レンダリングされず、インデックスもされない。PDFは例外で64MBまで対応。
  • リソースの独立カウント:
    HTML内で参照される外部CSS・JavaScriptはそれぞれ独立した2MBカウンター。親ページのサイズには加算されない。つまり外部ファイル化すればHTML本体を軽量化でき、重要なテキストコンテンツを2MB以内に収められる。
  • WRS(Web Rendering Service):
    Googlebotがフェッチした2MBのHTMLをWRSが受け取り、完全なページとしてレンダリング。WRSもGooglebotと同じバイト制限でリソースを取得する。メディアファイル(画像・動画・フォント)は別枠。

実務で気をつけるべきポイント

  • 2MB超えリスクのあるパターン:
    ①インラインbase64画像 ②大量のインラインCSS/JavaScript ③巨大なナビゲーション/メガメニュー ④1ページに数百件の商品リスト。Spotibo社のテストでは、意図的に2MB超のHTMLを作成した結果、後半のコンテンツが完全に無視された。
  • 構造化データの配置:
    JSON-LDの構造化データがページ後半にある場合、2MB制限で切り捨てられるリスクあり。<head>内または本文の冒頭に配置することを推奨。当サイトでは全1,090ページの構造化データを<head>配置に統一済み。
  • クロールバジェットの最適化:
    サーバーログを定期的に監視し、クロール頻度の変化を検知することが重要。サイトマップメーカーで正しいサイトマップを生成し、スピードチェッカーでページサイズを確認できる。

参照: サイトが遅い本当の理由 | あなたのサイトを30分で診断する | Google Search Central: Inside Googlebot | DebugBear: 2MB Limit

- Googlebotは単一のプログラムではなく、複数のクローラーが同一のインフラを利用している。
- 現在、Googlebotは最大2MBのデータを取得し、PDFファイルは64MBまで対応可能。
- HTMLファイルが2MBを超える場合、Googlebotはそれを拒否せず、2MBで取得を停止する。
- クローラーは、取得したデータを基にウェブページをレンダリングし、重要な情報を把握する。
- コンテンツを効率的に取得するためには、HTMLを軽量に保ち、重要な要素を文書の上部に配置することが推奨される。

この記事でこんな事が
学べそうですね

SEO|技術

ポイント要約

Googlebotの内部動作やクロールインフラストラクチャの複雑さ、特にバイトサイズ制限について解説しています。

このトピックで身につけるべきスキル

学習の要点

  • 1
    サイトのHTMLサイズを最適化し、重要なコンテンツがクロールされるようにする。
    見てみる
    ウェブサイトのパフォーマンスを分析し、HTMLサイズを最適化するためのツール
  • 2
    robots.txtを適切に設定し、Googlebotの動作を管理する。
    見てみる
    robots.txtを簡単に生成・最適化するためのツール
  • 3
    サーバーログを分析して、Googlebotのクロール状況を把握する。
    見てみる
    サーバーログを分析し、Googlebotのクロール状況を把握するためのツール

重要キーワード・学習リソース

クローリング

クローリングの基本概念と実践的なテクニックを学べるリソース

クローリングの理論と実践を学べるリソース詳しく学ぶ
インデックス登録

インデックス登録のプロセスとその重要性について学べるリソース

インデックス登録のメカニズムを理解するためのリソース詳しく学ぶ
ウェブレンダリングサービス

ウェブレンダリングサービスの機能とその影響を学べるリソース

ウェブレンダリングサービスの役割を学べるリソース詳しく学ぶ

本記事の参照元

Googlebot の内部: クロール、フェッチ、処理バイトの謎を解き明かす

出典: Google検索セントラルブログ

元記事を読む外部サイト
2025/05/31
THU
00:00:00

ブラウザ・OS 最新バージョン

毎日更新:2026-06-09 調査更新済
  • Android(stable) 未取得
  • Chrome Android(stable) 149.0.7827.59
  • Chrome iOS(stable) 149.0.8727.45
  • Chrome(beta) 150.0.7871.4
  • Chrome(dev) 151.0.7872.0
  • Chrome(stable) 149.0.7827.54
  • Edge(stable) 149.0.4022.52
  • Firefox(stable) 151.0.3
  • Opera(stable) 132.0.5905.19
  • Safari iOS(stable) 未取得
  • Safari(stable) 未取得
  • iOS(stable) 未取得

現在の貴方のIPアドレス

18.97.9.174

このサイトで書いている人

株式会社ツクルン

株式会社ツクルン

Webアドバイジング・クリエイター
池田南美夫
もうすぐ●●歳。ずっーと現役SE。日本にインターネットが上陸してから、ずっーと携わる。 ほんとは超アナログ人間のギター弾き、バンドマン。でも音楽活動とSE、案外似てる。