GoogleはGooglebotというウェブクローラーを使って、世界中のWebサイトをクロールしインデックスしています。膨大な数のページが登録されているGoogleのデータベースは彼らの広告ビジネスを支える重要なものです。
SEOは特定のWebサイトを検索エンジンの検索結果において、上位に表示させるための手法や施策を指しますが、中には望まないインデックスもあるでしょう。例えば、ステージング環境や見られたくないページです。
いくつかの方法で事前にそれを防ぐことが出来ますが、既にインデックスされてしまっている場合は削除を行う必要があります。
この記事の目次(クリックで項目へジャンプします)
noindexメタタグをページに入れるのは有効か
ウェブサイトのhead内に「noindexメタタグ」を入れることでインデックスを防ぐことが出来ます。実際のタグは次の通りです。
<meta name="robots" content="noindex">
ただし、ここで重要なのは「noindexタグはGooglebotがウェブページをクロールした時には初めて認識される」ということ。
つまり、既にインデックスされているウェブページに「noindexメタタグ」を入れても、すぐにインデックスが削除される訳ではありません。削除されるには「noindexメタタグ」が挿入されている状態のページをGooglebotがクロールする必要があります。
早めに削除したい場合には「noindexタグ」を挿入して、さらに以下のURLからGoogleにクロールのリクエストをするのが有効です。
https://support.google.com/webmasters/answer/6065812?hl=ja
robots.txtを使う方法について
かつてはウェブサイトのルートディレクトリに「robots.txt」を置いてクロールを制御したりインデックスを拒否する方法は有効でしたが、現在ではGoogleはrobots.txt での noindexをサポートしていません。
Googleにインデックスの削除を依頼する
Googleではウェブサイトのインデックス削除のリクエストが出来るフォームを用意しています。リクエストをすると最短1日ほどで比較的早く削除してもらうことが可能です。ただし、こちらで削除をしても再度クロールされて再びインデックスされてしまうこともあります。それを防ぐために「noindexメタタグ」を挿入しておくと良いでしょう。
著作権侵害によるページの削除申請をする(DMCA)
Googleでは単なるインデックス削除とは別に、デジタルミレニアム著作権法及びその他の著作権に関わる権利が侵害されたとした場合、削除を依頼することが出来るフォームが用意されています。
https://www.google.com/webmasters/tools/dmca-notice?pli=1&hl=ja
大量にインデックスされてしまった場合の対処法
数十ページ、数百ページが誤ってインデックスされてしまう場合もあるでしょう。その場合、1ページづつ削除リクエストをする前述の削除フォームを使うのは現実的ではありません。こういった場合にはSearch Consoleの削除ツールを利用することをオススメします。
https://search.google.com/search-console/removals
既にインデックスされてしまった場合には、削除を行う必要がありますが望まないインデックスは事前に防ぎたいものです。厳重にインデックスを防ぐためには下記の対応を事前に行いましょう。
・noindexメタタグを事前に入れておく
・IPアドレスによるアクセス制限をかける
・Basic認証をかける