トップページ > Googlebot の内部: クロール、フェッチ、処理バイトの謎を解き明かす

Googlebot の内部: クロール、フェッチ、処理バイトの謎を解き明かす

【2026年最新】Googlebotの内部構造 — 2MB制限・15MBフェッチ・WRSの処理フローを完全解説

2026年3月、Google Search Central Blogが「Inside Googlebot」を公式公開し、クロール→フェッチ→レンダリングの内部アーキテクチャを初めて詳細に説明しました。最大の注目点はフェッチ15MB / インデックス2MBという二段階制限。これを正しく理解しないと、ページ後半のコンテンツが「存在しない」扱いになるリスクがあります。

バイト制限の全貌

  • フェッチ vs インデックスの違い:
    Googlebotは最大15MBまでダウンロード可能——この部分は変更なし。しかしインデックス処理に渡されるのは先頭2MBのみ(HTTPヘッダー含む)。2MBを超えた部分はフェッチされず、レンダリングされず、インデックスもされない。PDFは例外で64MBまで対応。
  • リソースの独立カウント:
    HTML内で参照される外部CSS・JavaScriptはそれぞれ独立した2MBカウンター。親ページのサイズには加算されない。つまり外部ファイル化すればHTML本体を軽量化でき、重要なテキストコンテンツを2MB以内に収められる。
  • WRS(Web Rendering Service):
    Googlebotがフェッチした2MBのHTMLをWRSが受け取り、完全なページとしてレンダリング。WRSもGooglebotと同じバイト制限でリソースを取得する。メディアファイル(画像・動画・フォント)は別枠。

実務で気をつけるべきポイント

  • 2MB超えリスクのあるパターン:
    ①インラインbase64画像 ②大量のインラインCSS/JavaScript ③巨大なナビゲーション/メガメニュー ④1ページに数百件の商品リスト。Spotibo社のテストでは、意図的に2MB超のHTMLを作成した結果、後半のコンテンツが完全に無視された。
  • 構造化データの配置:
    JSON-LDの構造化データがページ後半にある場合、2MB制限で切り捨てられるリスクあり。<head>内または本文の冒頭に配置することを推奨。当サイトでは全1,090ページの構造化データを<head>配置に統一済み。
  • クロールバジェットの最適化:
    サーバーログを定期的に監視し、クロール頻度の変化を検知することが重要。サイトマップメーカーで正しいサイトマップを生成し、スピードチェッカーでページサイズを確認できる。

参照: サイトが遅い本当の理由 | あなたのサイトを30分で診断する | Google Search Central: Inside Googlebot | DebugBear: 2MB Limit

- Googlebotは単一のプログラムではなく、複数のクローラーが同じインフラを使用している。
- 現在、Googlebotは最大2MBのデータを取得し、PDFは64MBまで対応。
- 2MBを超えるデータは無視され、インデックス登録されない。
- HTMLを軽量に保ち、重要な要素を上部に配置することが推奨される。
- サーバーログを監視し、レスポンス時間を確認することが重要。

この記事でこんな事が
学べそうですね

SEO|技術

ポイント要約

Googlebotの内部動作やクロールの仕組み、特にバイトサイズ制限について解説しています。

このトピックで身につけるべきスキル

学習の要点

  • 1
    サーバーログを分析し、Googlebotの動作を確認する。
    見てみる
    Googlebotの動作を確認するためのツール
  • 2
    ページのサイズを最適化し、重要なコンテンツが取得されるようにする。
    見てみる
    ウェブページのパフォーマンスを分析し、最適化するためのツール
  • 3
    robots.txtを適切に設定し、クローラーのアクセスを管理する。
    見てみる
    robots.txtの設定をテストするためのツール

重要キーワード・学習リソース

クローリング

クローリングとSEOの基本を学べるリソース

クローリングの理論を学ぶためのAhrefs Academy詳しく学ぶ
インデックス登録

インデックス登録の仕組みについて深く学べるリソース

インデックス登録のプロセスを学ぶためのMoz詳しく学ぶ
ウェブレンダリングサービス

ウェブレンダリングサービスの詳細を学ぶための公式リソース

ウェブレンダリングサービスについて学ぶためのGoogle Developers詳しく学ぶ

本記事の参照元

Googlebot の内部: クロール、フェッチ、処理バイトの謎を解き明かす

出典: Google検索セントラルブログ

元記事を読む外部サイト
2025/05/31
THU
00:00:00

ブラウザ・OS 最新バージョン

毎日更新:2026-05-16 調査更新済
  • Android(stable) 未取得
  • Chrome Android(stable) 148.0.7778.167
  • Chrome iOS(stable) 148.0.7778.166
  • Chrome(beta) 149.0.7827.14
  • Chrome(dev) 150.0.7838.0
  • Chrome(stable) 148.0.7778.168
  • Edge(stable) 148.0.3967.54
  • Firefox(stable) 150.0.3
  • Opera(stable) 131.0.5877.55
  • Safari iOS(stable) 未取得
  • Safari(stable) 未取得
  • iOS(stable) 未取得

現在の貴方のIPアドレス

216.73.216.72

このサイトで書いている人

株式会社ツクルン

株式会社ツクルン

Webアドバイジング・クリエイター
池田南美夫
もうすぐ●●歳。ずっーと現役SE。日本にインターネットが上陸してから、ずっーと携わる。 ほんとは超アナログ人間のギター弾き、バンドマン。でも音楽活動とSE、案外似てる。