Googlebot の内部: クロール、フェッチ、処理バイトの謎を解き明かす
Googlebot の内部: クロール、フェッチ、処理バイトの謎を解き明かす
【2026年最新】Googlebotの内部構造 — 2MB制限・15MBフェッチ・WRSの処理フローを完全解説
2026年3月、Google Search Central Blogが「Inside Googlebot」を公式公開し、クロール→フェッチ→レンダリングの内部アーキテクチャを初めて詳細に説明しました。最大の注目点はフェッチ15MB / インデックス2MBという二段階制限。これを正しく理解しないと、ページ後半のコンテンツが「存在しない」扱いになるリスクがあります。
バイト制限の全貌
- フェッチ vs インデックスの違い:
- Googlebotは最大15MBまでダウンロード可能——この部分は変更なし。しかしインデックス処理に渡されるのは先頭2MBのみ(HTTPヘッダー含む)。2MBを超えた部分はフェッチされず、レンダリングされず、インデックスもされない。PDFは例外で64MBまで対応。
- リソースの独立カウント:
- HTML内で参照される外部CSS・JavaScriptはそれぞれ独立した2MBカウンター。親ページのサイズには加算されない。つまり外部ファイル化すればHTML本体を軽量化でき、重要なテキストコンテンツを2MB以内に収められる。
- WRS(Web Rendering Service):
- Googlebotがフェッチした2MBのHTMLをWRSが受け取り、完全なページとしてレンダリング。WRSもGooglebotと同じバイト制限でリソースを取得する。メディアファイル(画像・動画・フォント)は別枠。
実務で気をつけるべきポイント
- 2MB超えリスクのあるパターン:
- ①インラインbase64画像 ②大量のインラインCSS/JavaScript ③巨大なナビゲーション/メガメニュー ④1ページに数百件の商品リスト。Spotibo社のテストでは、意図的に2MB超のHTMLを作成した結果、後半のコンテンツが完全に無視された。
- 構造化データの配置:
- JSON-LDの構造化データがページ後半にある場合、2MB制限で切り捨てられるリスクあり。<head>内または本文の冒頭に配置することを推奨。当サイトでは全1,090ページの構造化データを<head>配置に統一済み。
- クロールバジェットの最適化:
- サーバーログを定期的に監視し、クロール頻度の変化を検知することが重要。サイトマップメーカーで正しいサイトマップを生成し、スピードチェッカーでページサイズを確認できる。
参照: サイトが遅い本当の理由 | あなたのサイトを30分で診断する | Google Search Central: Inside Googlebot | DebugBear: 2MB Limit
- Googlebotは単一のプログラムではなく、複数のクローラーが同じインフラを使用している。
- 現在、Googlebotは最大2MBのデータを取得し、PDFは64MBまで対応。
- 2MBを超えるデータは無視され、インデックス登録されない。
- HTMLを軽量に保ち、重要な要素を上部に配置することが推奨される。
- サーバーログを監視し、レスポンス時間を確認することが重要。
- 現在、Googlebotは最大2MBのデータを取得し、PDFは64MBまで対応。
- 2MBを超えるデータは無視され、インデックス登録されない。
- HTMLを軽量に保ち、重要な要素を上部に配置することが推奨される。
- サーバーログを監視し、レスポンス時間を確認することが重要。
この記事でこんな事が
学べそうですね
SEO|技術
ポイント要約
Googlebotの内部動作やクロールの仕組み、特にバイトサイズ制限について解説しています。
このトピックで身につけるべきスキル
- 1Googlebotは単一のプログラムではなく、複数のクローラーが存在することを理解する。Googlebotの動作を理解するためのGoogle Developers見てみるGooglebotの基本的な動作について学ぶための公式リソース
- 2クロール時のバイトサイズ制限がインデックス登録に与える影響を学ぶ。クロールのバイトサイズ制限について学ぶためのGoogle Developers見てみるクロールに関する詳細な情報を提供する公式リソース
- 3HTMLファイルのサイズが2MBを超える場合の処理について知る。HTML最適化のためのMDN見てみるHTMLの基本と最適化について学べるリソース
- 4JavaScriptやCSSの処理がどのように行われるかを理解する。JavaScriptの処理について学ぶためのMDN見てみるJavaScriptの基本とその処理についての詳細情報
- 5クロールインフラストラクチャの設定や管理について学ぶ。SEOのためのrobots.txtの設定について学ぶためのGoogle Developers見てみるrobots.txtの設定方法とその重要性について学べるリソース
学習の要点
重要キーワード・学習リソース
本記事の参照元
Googlebot の内部: クロール、フェッチ、処理バイトの謎を解き明かす
出典: Google検索セントラルブログ
2025/05/31
THU
00:00:00
現在の貴方のIPアドレス
216.73.216.72
このサイトで書いている人
株式会社ツクルン
Webアドバイジング・クリエイター
池田南美夫
もうすぐ●●歳。ずっーと現役SE。日本にインターネットが上陸してから、ずっーと携わる。
ほんとは超アナログ人間のギター弾き、バンドマン。でも音楽活動とSE、案外似てる。
WEBサイト