2015年8月18日火曜日

robots.txt(ロボットテキスト)の書き方・使い方

こんばんはnaoです。

 robots.txt(ロボットテキスト)はHP作成に携わっている方は誰でも知っている基本中の基本だと思いますが今回はこのrobots.txtについて私の経験談をまじえご紹介します。


 私がrobots.txtの存在を知ったのは2011年のことです。当時担当していたHPがグーグルのインデックスから消えていくという現象が発生し色々調べているうちにrobots.txtというものを知ったわけです。インデックスから消えていく原因がrobots.txtにあるのではと疑ったのですが結局原因はサーバーの方で勝手にグーグルボットのアクセスを利用者に無断で遮断していたことによるものでした。

 これを機にrobots.txtの使い方をおぼえた私は以後robots.txtをよく利用しています。


robots.txtはこれを設置することによりグーグルボットの巡回をシャットダウンするという機能をもってます。グーグルボットはrobots.txtで遮断されたページへは行くことができませんから当然のことながらページの中身も把握できずインデックスもされないというわけです。
 
 
 ではどういう場面で使用するのでしょうか?
 一般的には通販サイトなどで似たようなページが沢山ある場合、グーグルに重複ページが沢山あるとみなされるのを防ぐ為にrobots.txtを設置したり、まだ未完成のページをブラウザー上で確認したいときなどrobots.txtを設置したうえで未完成のページをウェブ上にアップしたりといった場合に使用されます。
 筆者は主に後者の場面で使用していますが、最近ではモバイル対応ページを作成する時にPC用のページを丸々コピーしrobots.txtを設置したうえでウェブ上にアップしモバイル対応が済んだページからrobots.txtを解除していくという利用のしかたをしたこともあります。


 なおrobots.txtを設置するさいの注意点としてはrobots.txtで遮断していた期間が長ければ長いほど、robots.txtを解除してもグーグルロボットが巡回しインデックスされるまでの期間も長くなるということです。これはグーグルが公式の場で発言しているから間違いない事実です。ただ筆者の経験上robots.txtを設置した期間が2~3ヶ月程度であればrobots.txtを解除した時点で順次問題なくインデックスされていきますので普通の使い方をしている限りは特に気にすることもないでしょう。


 では具体的な設置方法です。
 robots.txtの記述は .txtファイル。つまりウィンドウズの「メモ帳」で行います。
 仮にhttps://www.example.com/aaa/bbb/というページがありaaaを含めた下の階層をすべてシャットダウンしたい場合は

User-Agent: *
 Disallow: /aaa/

と記入します。特定のページをシャットダウンしたい場合は

User-Agent: *
 Disallow: /aaa/bbb.html

と直接ページのアドレスを記載します。

複数のページをシャットダウンする場合は
User-Agent: *
 Disallow: /aaa.html
 Disallow: /ccc.html
 Disallow: /ddd.html

と複数行を記載。

またあまり使用す機会はないと思いますがグーグルボットのアクセスを許可する場合は

User-Agent: *
 Disallow:

と「/」を削除するかもしくは

User-Agent: *
Allow: /

と記載します。

そしてrobots.txtを設置する場所はそのサイトの一番上の階層。上記の場合はhttps://www.example.com/の階層に設置します。


robots.txtはよく利用する機会がある反面、記載方法を間違ってしまうと重大なエラーが生じてしまう場合があります(簡潔に言うとインデックスから消えてしまう)。使用する場合はUPする前に間違いがないかよくチェックしてからウェブ上に設置しましょう。

なおrobots.txtがちゃんと狙い通りに作動しているかはグーグルのSearch Console(昔の「ウェブマスター」)でチェックすることができます。





追記
 2015年9月robots.txtを利用したページランクを渡さずページのみを転送する方法がグーグルより紹介されたので追記しておきます。

 通常ページを転送するときは301もしくは302リダイレクトをしようするのですが、この場合ページランクも転送されてしまいます(301は直ちに、302の場合は長期間続けていると転送されるようになる)。もしページランクを転送したくない場合は

「ページランクを転送したくないサイトの部分をrobots.txtでブロックして、そこ経由でリダイレクトすればいい。そうすれば、グーグルボットは完全にリダイレクトに従うことができなくなる。」

のだそうです。通販サイトなどで活用できそうなテクニックですね。






0 件のコメント: