Googlebot の内部: クロール、フェッチ、処理バイトの謎を解き明かす
Googlebot の内部: クロール、フェッチ、処理バイトの謎を解き明かす
【2026年最新】Googlebotの内部構造 — 2MB制限・15MBフェッチ・WRSの処理フローを完全解説
2026年3月、Google Search Central Blogが「Inside Googlebot」を公式公開し、クロール→フェッチ→レンダリングの内部アーキテクチャを初めて詳細に説明しました。最大の注目点はフェッチ15MB / インデックス2MBという二段階制限。これを正しく理解しないと、ページ後半のコンテンツが「存在しない」扱いになるリスクがあります。
バイト制限の全貌
- フェッチ vs インデックスの違い:
- Googlebotは最大15MBまでダウンロード可能——この部分は変更なし。しかしインデックス処理に渡されるのは先頭2MBのみ(HTTPヘッダー含む)。2MBを超えた部分はフェッチされず、レンダリングされず、インデックスもされない。PDFは例外で64MBまで対応。
- リソースの独立カウント:
- HTML内で参照される外部CSS・JavaScriptはそれぞれ独立した2MBカウンター。親ページのサイズには加算されない。つまり外部ファイル化すればHTML本体を軽量化でき、重要なテキストコンテンツを2MB以内に収められる。
- WRS(Web Rendering Service):
- Googlebotがフェッチした2MBのHTMLをWRSが受け取り、完全なページとしてレンダリング。WRSもGooglebotと同じバイト制限でリソースを取得する。メディアファイル(画像・動画・フォント)は別枠。
実務で気をつけるべきポイント
- 2MB超えリスクのあるパターン:
- ①インラインbase64画像 ②大量のインラインCSS/JavaScript ③巨大なナビゲーション/メガメニュー ④1ページに数百件の商品リスト。Spotibo社のテストでは、意図的に2MB超のHTMLを作成した結果、後半のコンテンツが完全に無視された。
- 構造化データの配置:
- JSON-LDの構造化データがページ後半にある場合、2MB制限で切り捨てられるリスクあり。<head>内または本文の冒頭に配置することを推奨。当サイトでは全1,090ページの構造化データを<head>配置に統一済み。
- クロールバジェットの最適化:
- サーバーログを定期的に監視し、クロール頻度の変化を検知することが重要。サイトマップメーカーで正しいサイトマップを生成し、スピードチェッカーでページサイズを確認できる。
参照: サイトが遅い本当の理由 | あなたのサイトを30分で診断する | Google Search Central: Inside Googlebot | DebugBear: 2MB Limit
- Googlebotは単一のプログラムではなく、複数のクローラーが同一のインフラを利用している。
- 現在、Googlebotは最大2MBのデータを取得し、PDFファイルは64MBまで対応可能。
- HTMLファイルが2MBを超える場合、Googlebotはそれを拒否せず、2MBで取得を停止する。
- クローラーは、取得したデータを基にウェブページをレンダリングし、重要な情報を把握する。
- コンテンツを効率的に取得するためには、HTMLを軽量に保ち、重要な要素を文書の上部に配置することが推奨される。
- 現在、Googlebotは最大2MBのデータを取得し、PDFファイルは64MBまで対応可能。
- HTMLファイルが2MBを超える場合、Googlebotはそれを拒否せず、2MBで取得を停止する。
- クローラーは、取得したデータを基にウェブページをレンダリングし、重要な情報を把握する。
- コンテンツを効率的に取得するためには、HTMLを軽量に保ち、重要な要素を文書の上部に配置することが推奨される。
この記事でこんな事が
学べそうですね
SEO|技術
ポイント要約
Googlebotの内部動作やクロールインフラストラクチャの複雑さ、特にバイトサイズ制限について解説しています。
このトピックで身につけるべきスキル
- 1Googlebotは単一のプログラムではなく、複数のクローラーが存在することを理解する。Googlebotの動作を理解するための公式ドキュメント見てみるGooglebotの基本的な動作を学ぶためのリソース
- 2クロール時のバイトサイズ制限がSEOに与える影響を学ぶ。クロールとインデックス登録の最適化に関するコース見てみるSEOの基礎を学び、クロールとインデックス登録を最適化する方法を学べるコース
- 3HTMLファイルのサイズが2MBを超える場合のGooglebotの動作を把握する。Googlebotのバイトサイズ制限についての詳細見てみるrobots.txtの設定とGooglebotの動作に関する詳細情報
- 4JavaScriptやCSSの処理がクロールに与える影響を理解する。SEOにおけるJavaScriptの影響を学ぶ見てみるJavaScriptがSEOに与える影響を理解するためのリソース
- 5インデックス登録に必要な情報が取得されない場合のリスクを認識する。サーバーログ分析の実践ガイド見てみるサーバーログを分析してSEOパフォーマンスを向上させる方法
学習の要点
重要キーワード・学習リソース
本記事の参照元
Googlebot の内部: クロール、フェッチ、処理バイトの謎を解き明かす
出典: Google検索セントラルブログ
2025/05/31
THU
00:00:00
現在の貴方のIPアドレス
18.97.9.174
このサイトで書いている人
株式会社ツクルン
Webアドバイジング・クリエイター
池田南美夫
もうすぐ●●歳。ずっーと現役SE。日本にインターネットが上陸してから、ずっーと携わる。
ほんとは超アナログ人間のギター弾き、バンドマン。でも音楽活動とSE、案外似てる。
WEBサイト