▼はじめに
ロボ避けには幾つか方法がありますが、
ここでは2種類の方法について説明します。
大体のロボ検はこれでブロック出来ますが、
世の中には効かないロボも存在しますので、
完全にブロックする事は不可能かと思われます。
しかしロボ避けを入れると入れないとでは大違いなので、
是非ともこの機会にロボ避けを導入してみてくださいね。
▼HTMLファイルにメタタグ挿入
<META name="Robots" content="noindex,nofollow">
<META name="GOOGLEBOT" content="NOSNIPPET">
↑のタグをインデックスページのヘッダ部分に挿入します。
上段が一般のロボ用、下段はグーグル専用の回避タグです。
これは全てのページのヘッダ部分に挿入することを強く推奨します。
▼ルートディレクトリにrobots.txtを置く
User-agent:*
Disallow:/
↑の二行を書いたテキストファイルを、
ルートディレクトリに「robots.txt」という名前でUPしましょう。
ロボットサーチというのは、まずindex.htmlを収録し、
そこからリンクを辿って次々とサイト内ページを収録していきます。
しかし実はそのindexより先に奴等はrobots.txtを検索するんです。
そこで上記二行を読み込ませる事によって、
サイト内の全てのファイルの検索を拒否します。
但し!この方法は
『独自ドメインでスペースを与えられるサーバー』でしか効果がありません。
例えば「http://xxx.com/index.html」トップページを自分でこのように
設定できるレンタルスペース(例:infoseek等)又は有料専用サーバーでは、
「http://xxx.com/robots.txt」となるようファイルを設置すればOKですが、
例えばYahoo!ジオシティーズなどは「http://www.geocities.jp/xxx/robots.txt」と、
このようにルートディレクトリよりも下位のディレクトリになりますので、
robots.txtが効果を挙げられないという事になってしまいます。
このため一般にロボ避けをする場合、
メタタグを挿入する事が一番効果的と思われます。
▼オマケ:CGIに検索避け
BBSなどのCGIに生成されたページにも、
検索避けのメタタグを挿入するための方法です。
まずはCGIのソースをざっと見て、
HTMLヘッダの記述してある場所を見つけましょう。
見つけたら後は簡単です。
メタタグが入っている処に検索避けタグを並べて記述しましょう。
なお、ヘッダ部分がプログラムに内臓されてしまっている場合は、
↓のように記述すればOKです。
print "<META name=\"Robots\" content=\"noindex,nofollow\">\n";
print "<META name=\"GOOGLEBOT\" content=\"NOSNIPPET\">\n";
うちのサーバー、CGI置けないのよ〜、というアナタ、
おそらくレンタルのCGIを使っている事でしょう。
しかしそのレンタルCGI、検索避けは入ってますか?
掲示板のログなんかも結構な確率でロボ検にヒットします。
私が知っている限りでは「21style」はロボ検避けを入れられます。
設定画面で検索エンジン登録拒否を選ぶだけなのでお手軽です。
他には…ちょっと探究心が薄いので判りませんが(苦笑)
▼オマケ2:偽インデックス
ロボットサーチというのは、まずindexを収録し、
そこからリンクを辿って次々とサイト内ページを収録していきます。
ならindexを作らなければ良いのでは?と思っても、
ディレクトリにひとつは必ず「index.html」を置かないと、
実はディレクトリの中身が丸見えになって更にまずい事態にもなりかねません。
そんな訳で、ダミーindexを設置してしまうのも一つの手です。
当然、中へのリンク等は一切無い行き止まりファイルです。
「404 Not Found」とか書いちゃうのも一興かと。
有効なのかどうか確信はありませんが、管理人がやっている方法は
まず適当にリンクの無いindexを作る。
新しいディレクトリを作り、その中にまたindex。
あとはそのディレクトリ内に普通にHPを構築する。
図式化すると、こうなります↓
サーバー
│
└ルートディレクトリ
│
├-index.html(ダミー)
└-新規ディレクトリ
│
├-index.html
├-toppage.html
└-その他HPの中身
まぁ、これで防げてるのかどうかは判りませんが。
中身に検索避けのメタタグ入れてるから。
更にやるなら、
サーバー
│
└ルートディレクトリ
│
├-index.html(ダミー)
├-robots.txt
└-新規ディレクトリ
│
├-index.html
├-toppage.html
└-その他HPの中身
こんな感じにしてしまいましょう。
まぁ、よっぽどヤバイ内容でない限りは、
ここまでしなくても良いとは思うのですが。
ちなみに人にURLを教える時は、
http://www.xxx.xxx/xxxx/
という、サーバーから与えられたままのアドレスは、
そのまま教えるとダミーindexにしか行けないので、
http://www.xxx.xxx/xxxx/新規ディレクトリ/
と、新規ディレクトリ名を追加して教えてあげましょう。
▼オマケのオマケ:ロボ検?
ロボット検索についてです。
・ロボットサーチ
・ロボット系サーチエンジン
・検索エンジン
こんな感じに呼ばれる物の事です。
まぁ、全部同じ意味なんですよね。
ヤフーとか、グーグルとか、インフォシークとか、
とにかく色々ありますね。使う側には便利ですけどね。
▼管理人から
えー…非常に読み辛い文章で申し訳ないです(汗汗)
あくまで当サイトは「同盟」つまり主張系サイトであり、
このページはオマケ的存在ですので参考程度にお読み下さい。
此の度はこのような稚拙な文章に最後までお付き合い頂き、
誠に有難う御座いましたm(_ _)m