Googlebot の内部: クロール、フェッチ、処理バイトの謎を解き明かす
Googlebot の内部: クロール、フェッチ、処理バイトの謎を解き明かす
【2026年最新】Googlebotの内部構造 — 2MB制限・15MBフェッチ・WRSの処理フローを完全解説
2026年3月、Google Search Central Blogが「Inside Googlebot」を公式公開し、クロール→フェッチ→レンダリングの内部アーキテクチャを初めて詳細に説明しました。最大の注目点はフェッチ15MB / インデックス2MBという二段階制限。これを正しく理解しないと、ページ後半のコンテンツが「存在しない」扱いになるリスクがあります。
バイト制限の全貌
- フェッチ vs インデックスの違い:
- Googlebotは最大15MBまでダウンロード可能——この部分は変更なし。しかしインデックス処理に渡されるのは先頭2MBのみ(HTTPヘッダー含む)。2MBを超えた部分はフェッチされず、レンダリングされず、インデックスもされない。PDFは例外で64MBまで対応。
- リソースの独立カウント:
- HTML内で参照される外部CSS・JavaScriptはそれぞれ独立した2MBカウンター。親ページのサイズには加算されない。つまり外部ファイル化すればHTML本体を軽量化でき、重要なテキストコンテンツを2MB以内に収められる。
- WRS(Web Rendering Service):
- Googlebotがフェッチした2MBのHTMLをWRSが受け取り、完全なページとしてレンダリング。WRSもGooglebotと同じバイト制限でリソースを取得する。メディアファイル(画像・動画・フォント)は別枠。
実務で気をつけるべきポイント
- 2MB超えリスクのあるパターン:
- ①インラインbase64画像 ②大量のインラインCSS/JavaScript ③巨大なナビゲーション/メガメニュー ④1ページに数百件の商品リスト。Spotibo社のテストでは、意図的に2MB超のHTMLを作成した結果、後半のコンテンツが完全に無視された。
- 構造化データの配置:
- JSON-LDの構造化データがページ後半にある場合、2MB制限で切り捨てられるリスクあり。<head>内または本文の冒頭に配置することを推奨。当サイトでは全1,090ページの構造化データを<head>配置に統一済み。
- クロールバジェットの最適化:
- サーバーログを定期的に監視し、クロール頻度の変化を検知することが重要。サイトマップメーカーで正しいサイトマップを生成し、スピードチェッカーでページサイズを確認できる。
参照: サイトが遅い本当の理由 | あなたのサイトを30分で診断する | Google Search Central: Inside Googlebot | DebugBear: 2MB Limit
- Googlebotは単一のプログラムではなく、複数のクローラーが同じインフラを利用している。
- 現在、Googlebotは最大2MBのデータを取得し、PDFファイルは64MBまで許可されている。
- 2MBを超えるデータは無視され、インデックス登録やレンダリングには影響しない。
- HTMLを軽量に保ち、重要な要素を文書の上部に配置することが推奨される。
- サーバーログを監視し、レスポンス時間を管理することで、クロール頻度を最適化できる。
- 現在、Googlebotは最大2MBのデータを取得し、PDFファイルは64MBまで許可されている。
- 2MBを超えるデータは無視され、インデックス登録やレンダリングには影響しない。
- HTMLを軽量に保ち、重要な要素を文書の上部に配置することが推奨される。
- サーバーログを監視し、レスポンス時間を管理することで、クロール頻度を最適化できる。
この記事でこんな事が
学べそうですね
SEO|技術
ポイント要約
Googlebotの内部動作やクロールにおけるバイト制限について詳しく解説。特に、取得するデータ量やその影響を理解することが重要。
このトピックで身につけるべきスキル
- 1Googlebotは単一のプログラムではなく、複数のクローラーが存在することを理解する。Googlebotの動作を理解するための公式ドキュメント見てみるGooglebotの基本的な動作とクロールの仕組みを学ぶのに最適なリソース
- 2クロール時のバイト制限がインデックス登録に与える影響を学ぶ。クロール制限に関する詳細なガイド見てみるrobots.txtの設定方法とその影響を理解するためのリソース
- 3HTMLファイルのサイズが2MBを超える場合の処理について理解する。インデックス登録の最適化に関するコース見てみるインデックス登録の最適化に関する実践的なコース
- 4JavaScriptやCSSのレンダリングがどのように行われるかを学ぶ。JavaScriptのレンダリングについて学ぶ見てみるJavaScriptの処理とレンダリングについての詳細な情報
- 5クロールの設定やrobots.txtの重要性を理解する。SEOにおけるHTML最適化の重要性見てみるHTMLの最適化に関する理論と実践を学べるリソース
学習の要点
重要キーワード・学習リソース
本記事の参照元
Googlebot の内部: クロール、フェッチ、処理バイトの謎を解き明かす
出典: Google検索セントラルブログ
2025/05/31
THU
00:00:00
現在の貴方のIPアドレス
216.73.216.145
このサイトで書いている人
株式会社ツクルン
Webアドバイジング・クリエイター
池田南美夫
もうすぐ●●歳。ずっーと現役SE。日本にインターネットが上陸してから、ずっーと携わる。
ほんとは超アナログ人間のギター弾き、バンドマン。でも音楽活動とSE、案外似てる。
WEBサイト