クロスウォーク > コラム > SEOブログ > インデックスされる仕組み（クローラーの動き方など）

インデックスされる仕組み（クローラーの動き方など）

インデックスとは

検索エンジンに記録されたWebサイトの情報のことです。インデックスには、クローラーが持ち帰えった情報がきれいに整理された上で記録されています。どのWebサイトがどんな情報を持ち、どんな話題を扱っているのかのデータです。これが検索の時に使われます。検索エンジンは、検索の度に、インデックスを参照し、検索に使用されたキーワードと関係するWebサイトをインデックスから見つけて検索結果として表示します。検索の対象になるのは、常にこのインデックスに記録されたWebサイトだけなので、記録がないWebサイトは検索の対象から外れます。対象から外れているWebサイトは、もちろんですが、どんなキーワードで検索してもヒットしません。なので、インデックスされるためにはクローラーに来てもらう必要があります。

クローラーとは

クローラーは、この蜘蛛の巣みたいに張り巡らされたリンクを辿り、存在する様々なWEBサイトの情報をかき集めます。クローラーの仕事はWebサイトの情報を集めてくることでした。クローラーが集めた情報は検索エンジンのもとに持ち帰られます。検索エンジンは、この膨大な量の情報に見出しと索引づけをしながら記録し、この記録された情報をさしてインデックスと言います。 Webサイトにとって、検索結果の上位表示は何より重要な課題です。上位表示されない限り、誰にも見てもらえないからです。誰にも見てもらえなWebサイトは存在していないも同然です。検索結果の表示具合を決めているのは検索エンジンです。検索エンジンがどんなふうに働いているのかを知れば、上位表示の傾向を知ることにも繋がります。この二つの用語は、まさに検索エンジンの働きそのものを表しています。だから、重要なのです。

検索エンジンの仕組み

Googleの検索エンジンが検索順位を決めるまでには以下の３つのステップがあります。それぞれがどんな動きや役目をしているのか説明していきます。

クローリング：Googleがあなたのサイトを発見
インデックス：Googleがあなたのサイトをデータベースに登録
ランキング：Googleがあなたのサイトの検索順位を決める

クローリング

Web上には、クローラーと呼ばれる検索エンジンのロボットが巡回している。クローラーは、Web上の全てのページを集めようとしています。重要なのは

クローラーが来て初めて検索エンジンがサイトの存在を知る。
1回巡回しただけでは、ページ情報の一部しか集められない。（ページ情報を正しく読み取ってもらい何でも来てもらう必要がある）
何度も同じページがクロールされることで正確に評価されるようになる。
ページ内に貼られているリンクを辿って他ページに移動する。

クローラーはどこから来るの？

クローラーは、Webページ上の「リンク」を辿ってやってきます。なので、公開したばかりのWebサイトは、どのWebサイトからもリンクが貼られていない状態、Googleにも情報がいきわたっていない状態なので、クローラーが来ません。クローラーは、リンクからリンクにどんどん移動します。そしてウェブページの情報を集めて、Googleのサーバーに蓄積していきます。

クロールのプロセス

クローラーは、

過去にクロールした時にゲットしたWebページのリスト
Webサイトの所有者から提供された「サイトマップ」に含まれる情報

をもとに巡回を始めます。なので、1度も巡回した事の無いWebサイトや、サイトマップを提供していないサイトには、クローラーが来てくれないのです。

クローラーが重点的に確認すること

クローラーは、一度訪れたことがあるサイト、サイトマップが提供されているサイトを訪れて、そこから他のページへのリンクを探します。その中でも重点的に確認するのが

新しいサイトの情報
今あるWEBサイトの変更点
無効なリンク

です。

どのサイトをクロールするか？
どのくらいの頻度で？
どのくらいのページの情報を収集するか？

は、コンピュータのプログラムが自動的に決めています。

クロールの頻度を上げることが大事

クロールを沢山してもらった方が、より正確な情報、より最新の情報を持って帰ってもらえます。その結果、質の高い記事・コンテンツが正確に評価されて、検索結果の上位を狙いやすくなると言われています。だから、頻繁にクローラーに呼び込む事は、Webサイトを運営する人にとっては、大きな目標の一つだと思った方がいいです。

インデックス

クローラーが集めてきたページの情報は、全てGoogleのデータベースに登録されます。このデータベースへの登録のことをインデックスと言い、登録されたデータとは、どのWebサイトがどんな情報を持っていて、どんな話題を扱っているのか、というデータです。 ※これが実際に、検索ユーザーがGoogle検索を使う時に使われるデータになります。この時に重要なのは、ページ自体を検索エンジンから見て、読みやすいように整えておくことが重要で、検索エンジンはインデックスされた情報をもとに後述するランキングを行うからです。せっかく良い内容が書いてあったとしても、それが検索エンジンにとって読みにくく書かれていると、その内容を適切に評価しにくくなってしまいます。また、検索エンジンは、検索に使われたキーワードと関係するWebサイトの検索結果に表示される対象となるWebサイトは、常にこのインデックスに記録されたWEBサイトだけなのです。もし仮にWebサイトがインデックスに登録されていない状態だと、どんなにキーワードで検索してもヒットしません。

あなたのサイトがインデックスされているかどうか調べる方法

Googleの検索窓に「site:あなたのサイトのドメイン」と入力する。 →これが表示されなかった、インデックスされていないと言うこと

もしもインデックスされていない場合の対処法

Googleのクローラーにあなたのサイトに来てもらう必要があります。そのためには、Googleにサイトマップを送信する必要があります。そうすると、検索エンジンにWEBサイトの構造を把握してもらうことができます。そしてクローラーも巡回するようになり、インデックスに記録されることになります。

まとめ

検索ユーザーはずべてのWebサイトを検索しているわけではありません。Googleが見つけることができたWebサイトの中から検索しています。 Googleに、あなたのWebサイトを見つけてもらうためには、クローラーというロボットプログラムに情報を収集してもらわないといけません。（クロール）クロールして収集された数十億ものウェブの情報が、Googleの何千もあるマシンに保存されます。（インデックス）検索ユーザーが、あるキーワードで検索したとき、Googleは200以上の問いを要因として総合得点の高いページを、検索結果でより上位に表示させます。これが検索の基本の仕組みです。

よく読まれている記事: リダイレクトの設定方法; title属性とalt属性について; パラメータ付URLの対処法