自動収集の回避方法
インターネットでホームページを検索する場合、ほとんどの方はGoogleやyahooなどの検索エンジンを使うのがふつうでしょう、この検索エンジン、どのようにして広大なインターネット上から様々なページを集めてくるのでしょうか?
ロボット型と呼ばれる検索エンジンでは一定期間の間に独自のルートを「ロボット」といわれるプログラムが回り世界中のホームページをインデックス化して行きます。このロボットは全く機械的に動きますので「このページは登録したい。このページは登録したくない」といった判断はできず、手当たり次第にページを登録して行きます。
しかし、ホームページを制作していると「このページは検索されたくない」といったページも出来てきます。そこでこのコーナーではロボット型検索エンジンのホームページの自動収集の回避方法について解説します。
■robots.txtを作成して、収集を回避する方法
webサーバーのトップレベルであるドキュメントルートに「robots.txt」というファイルを設置することで自動収集を回避できます。ただしサーバーのドキュメントルートにアクセスできるのはサーバーの管理者のみのため、robots.txtを設置するには管理者にファイルを作成してもらう必要があります。
★robots.txtの記述例
全てのロボットが、/secret1/と/secret2/の
ディレクトリ配下のページ情報を収集することを禁止する場合
User-Agent: *
Disallow: /secret1/
Disallow: /secret2/
/public/secret.htmlというファイルの情報を収集することを禁止する場合
User-Agent: InfoNavirobot
Disallow: /public/secret.html
全てのロボットが、情報収集することを完全シャットアウトする場合
User-Agent: *
Disallow: /
|
■収集されたくないページにMETAタグを記述して、収集を回避する方法
収集されたくないページにHTMLのMETAタグを<HEAD>セクションに記述することによって、ロボットプログラムによる自動収集を回避できます。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
NOINDEX : このページはインデックス対象としません。
NOFOLLOW : このページからリンクしているページをインデックスの対象としません。
■1
そのぺージとそのページからリンクされているページ の情報収集を禁止したい。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
■2
そのページからリンクされているページのみ、 情報収集を禁止したい。
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
ex3)
そのページのみ情報収集を禁止して、リンクされているページを情報収集させたい。
<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
|
|