【根本から検索の仕組みを知る①(クロールとインデックス登録)】Googleコア技術の基本的な仕組みを解説。サイトマップの有効性強調‼️
こんにちは、ペンギン男です🐧
検索エンジン最適化スターターガイドについては、ずっと読み続けていますが↓
そのスターターガイドの巻末にあったリンク↓をチェックしました。
なんとGoogle「検索の仕組み」という、ど真ん中のタイトル。過度な期待は控えるべきにせよ、一応、見ておくことに。ちなみに、次の四部構成。
ここでは、まずは、クロールとインデックス登録から。
————————————————————————
【目次】
————————————————————————
上記Google「検索の仕組み」のウェブページでの表記順、見出し順に(基本的に)見ていきます。
一般的なクエリのボリュームから
関連がありそうな情報を掲載しているウェブページは、数千件どころか、場合によっては、数百万件も存在します。
Google botは原則、一度クロールしたらインデックス済みであり、二度とクロールしないとしても、こんなクエリか、たかたが百あれば
百クエリ ✖️ 数百万件(ページ) = 数億ページ
あることになりますね。これは、検索品質を上げるうえで、かなりの効率化をしないと、どうしようもないレベルに見えます。
ここからは「クロールとインデックス登録」のページに用意された内容をチェックしていきます。
Google botの初期動作
ユーザーが検索する前から、ウェブクローラは莫大な数のウェブページから情報を収集し、検索インデックスに登録して整理しています。
とはいえ、自動的にウェブクローラが見つけてくれなさそうなので、具体的には、どこから始まるかと言うと
クロールのプロセスは、過去のクロールから得られたウェブアドレスとウエブサイトの所有者から提供されたサイトマップで構成されるリストから始まります。
少なくともビギナーにとっては、過去のクロールは無関係なので、サイトマップしか Googleに認識してもらうアプローチはないということてすね。今となっては、当たり前のナレッジ化していますが、この事実はもっと周知されたほうが親切な気もしますが、あんまり大々的には宣伝されていないような印象あります。知ってて当たり前ということ?
サイトマップ
サイトマップがこれだけ重要なら、触れずにはいれません。
サイトマップとは
サイトマップとはサイト上のページや動画などのファイルについての情報や、各ファイルの関係を知らせるファイルです。
これをどう使うかと言えば
「高度なクロール」?ビギナーに必要なものかと言えば
サイトマップはサイト内のどのファイルが重要かをクローラに伝えるだけでなく、ファイルについての貴重な情報(ページの最終更新日、ページの変更回数、すべての代替言語ページなど)も提供します。
ページの変更回数や代替言語ページについては、きちんと判断できるほど知識がありませんね。さらにどんなことが出来るかと言えば
ここまでくると、サイトマップの緊急性がよく分からなくなってきましたが、そんな問いも少なくないのか、きちんと、次のような説明の用意もあります。
サイトマップが必要かどうか
必要性の高いケースとして次のようなものが挙がっています。
- サイトのサイズが非常に大きい→なぜなら、新しいページや更新したばかりのページはクローラ対象から漏れることもあるそうです。そんなことでいいの?という感じですが、一つのサイトだけに過剰に時間をとることな不公平性に配慮されたのかも。
- サイトにどこからもリンクされていない、または適切にリンクされていないコンテンツページのアーカイブが大量にある→そもそもクローラに引っかからないケースですね。
- サイトが新しく外部からのリンクが少ない→まさにビギナー向け💦
- サイトでリッチメディアコンテンツを使用している、サイトが Googleニュースに表示されている、または他のサイトマップ対応アノテーションを使用している
「サイトが新しく外部からのリンクが少ない」のであれば、サイトマップは必要なのは、言うまでもありませんでした💦
もちろん Google botによるクロールとおりに従う必要はなく、クロール方法を指定できることも
Googleにより用意されているツールを使って、
- 再クロールをリクエストしたり
- robots.txtというファイルを使ってクローラを無効にしたりできます。
ツールの具体例は下記の投稿通りですが、 Googleとしても「ディベロッパーガイド」に掲載しているくらいなので、技術固有の内容であり、やや負担が大きいと判断。また、後日取り上げられれば、と。
検索について: デベロッパー ガイド | 検索 | Google Developers
最後に
今すぐ実務に大きな影響を与えるナレッジではないにせよ、いつかは触れておくべきナレッジであろう、クロールとインデックス登録。学習すべくして、学習している感じ💦
また、次回。
#Google検索の仕組み
#クロールとインデックス登録