robot.txt とは何ですか?ウェブサイトをインデックスするためにどのように使用しますか?

robot.txt とは何ですか?ウェブサイトをインデックスするためにどのように使用しますか?

プロのウェブサイト運営者は、多くの場合、自分のウェブサイトを検索エンジンでより目立たせることを目指します。 これを行うための要件の 1 つは、すべての URL が検索ロボットによって読み取られ、正しくインデックス付けされるようにすることです。 これは簡単な作業のように思えますが、検索エンジンがウェブサイト全体をクロールすることはほとんどないことに注意することが重要です。 Google のウェブサイト コンテンツの収集と保存機能にも限界があります。 代わりに、各ドメインには特定のクロール バジェットが割り当てられ、これによって読み取られる URL の数と、必要に応じてインデックスが作成される URL の数が決まります。 大規模なウェブサイトの運営者は、特定のページのどの部分をクロールし、どのページを無視するかを検索ロボットに指示する信号を送信することで、この問題に戦略的に取り組むことが推奨されます。 インデックス管理に重要なツールには、メタタグ内のロボットデータ、正規タグ、リダイレクト、そして今日ご紹介する robots.txt ファイルなどがあります。

robots.txt ファイルを使用してウェブサイトのインデックスを管理する

robot.txt とは何ですか?

Robots.txt は、ドメインのルート ディレクトリに保存されるテキスト ファイルです。 これらのファイルを使用すると、Web サイト運営者は、サイトの選択した部分で一部またはすべての検索ロボットをブロックすることにより、サイトへの検索エンジンのアクセスを制御できます。 robots.txt ファイルにある情報は、ディレクトリ ツリー全体を参照します。 後者の側面により、このインデックス管理ツールは、特殊な HTML ドキュメントにのみ適用されるメタ ロボット データやリダイレクトとは大きく異なります。 この文脈では、「ブロック」という言葉に特別な注意を払う必要があります。 検索エンジンは robots.txt ファイルをガイドラインとしてのみ解釈します。つまり、検索エンジンに対して特定のクロール動作を強制することはできません。 Google や他の大手検索エンジンは、これらの指示に従っていると主張しています。 ただし、不正アクセスを防ぐ唯一の方法は、強力なパスワード保護対策を実施することです。

robot.txt を作成する

検索ロボットが個別のクロール ガイドラインにアクセスできるようにするには、プレーン テキスト ファイルに「robots.txt」という名前を付け、ドメインのルート ディレクトリに保存する必要があります。たとえば、ドメイン example.com のクロール ガイドラインを定義する場合は、robots.txt を www.example.com と同じディレクトリに保存する必要があります。インターネット経由でアクセスすると、このファイルは www.example.com/robots.txt にあります。ウェブサイトのホスティング モデルがサーバーのルート ディレクトリへのアクセスを提供せず、サブフォルダー (www.example.com/user/ など) へのアクセスのみを提供する場合、robots.txt ファイルを使用してインデックス管理を実現することはできません。 robots.txt を設定する Web サイト運営者は、vi (Linux) や notpad.exe (Windows) などのプレーン テキスト エディターを使用する必要があります。FTP 転送を実行する場合は、ファイルが ASCII モードで転送されるようにすることも重要です。オンラインでは、robots.txt ジェネレータを使用してこのファイルを作成できます。構文エラーは Web プロジェクトのインデックス作成に破壊的な影響を及ぼす可能性があるため、テキスト ファイルをアップロードする前にテストすることをお勧めします。 Google の Search Console には、このためのツールが用意されています。

Robots.txt の構造

各 robots.txt ファイルは 2 つの部分で構成されます。 最初の部分ではキーワード、ユーザーエージェントを紹介し、2 番目の部分では指示を与えることができる検索ロボットを紹介します。 これらは、クロール禁止を処理するためのルールを説明しています。 これらのコマンドは、キーワード disallow によって開始され、ディレクトリまたは複数のファイルの名前を指定します。 結果は次の基本構造になります。

ユーザーエージェント: Googlebot
禁止: /temp/
禁止: /news.html
禁止: /print

上記の例の robots.txt は、「Googlebot」という名前の Web クローラーにのみ適用され、/temp/ ディレクトリと news ファイルの読み取りを「禁止」します。 さらに、パスが print で始まるすべてのファイルとディレクトリがブロックされます。 ここで、disallow: /temp/ と disallow: /print は、末尾のスラッシュ (/) がないことによってのみ (構文的に) 区別できることに留意してください。これにより、robots.txt の構文ではまったく異なる意味になります。

コメントを挿入

必要に応じて、robot.txt ファイルにコメントを追加できます。 次に、前述のハッシュタグでタグ付けします。

 # http://www.example.com の robots.txt

ユーザーエージェント: Googlebot
disallow: /temp/ # ディレクトリには一時データが含まれています
disallow: /print/ # ディレクトリには印刷ページが含まれています
disallow: /news.html # ファイルは毎日変更されます

複数のユーザーエージェントの処理

複数のユーザーエージェントを処理する場合は、robots.txt にその構造に従って任意の数のブロックを含めることができます。

 # http://www.example.com の robots.txt

ユーザーエージェント: Googlebot
禁止: /temp/
   
ユーザーエージェント: Bingbot
禁止: /print/

Google の Web クローラーはディレクトリ /temp/ の検索が禁止されていますが、Bing ボットは /print/ のクロールがブロックされています。

すべてのユーザーエージェントを解決する

特定のディレクトリまたはファイルをすべての Web クローラーからブロックする必要がある場合は、すべてのユーザーのワイルドカードを表すアスタリスク (*) を実装します。

 # http://www.example.com の robots.txt

ユーザーエージェント: *
禁止: /temp/
禁止: /print/
禁止: /pictures/

robots.txt ファイルは、すべての Web クローラーから /temp/、/print/、および /pictures/ ディレクトリをブロックします。

すべてのディレクトリをインデックスから除外する

ウェブサイトがすべてのユーザーエージェントを完全にブロックする必要がある場合は、キーワード disallow の後にスラッシュを追加するだけです。

 # http://www.example.com の robots.txt

 ユーザーエージェント: *
 禁止: /

すべてのウェブクローラーはサイト全体を無視するように指示されました。 たとえば、このような robot.txt ファイルは、まだテスト段階にある Web プロジェクトで使用できます。

すべてのディレクトリのインデックス作成を許可する

ウェブ運営者は、末尾のスラッシュなしでキーワード「barred」を適用することで、検索ロボットがサイト全体をクロールしてインデックスできるようにすることができます。

 # http://www.example.com の robots.txt

ユーザーエージェント: Googlebot
許可しない:

robot.txt ファイルに末尾のスラッシュなしの disallow が含まれている場合、ユーザーエージェントで定義された Web クローラーはサイト全体を自由に使用できます。

表1: robots.txtの基本機能

注文関数
ユーザーエージェント:ユーザーエージェント: Googlebot特定のウェブクローラーを解決する
ユーザーエージェント:すべてのウェブクローラーを解決する
許可しない:許可しない:ウェブサイト全体をクロールできる
禁止: /サイト全体がブロックされています
禁止: /ディレクトリ/特定のディレクトリがブロックされています
禁止: /file.html特定のファイルがブロックされています
禁止: /例パスがexampleで始まるすべてのディレクトリとファイルはブロックされます

その他の機能

上記の事実上の標準機能に加えて、検索エンジンは、robots.txt にコンテンツを表示できるようにするいくつかの追加パラメータをサポートしています。

以下の機能は、Google のサポート セクションで確認できます。 これらは、Microsoft および Yahoo! との契約に基づいています。

例外の定義

Google は、disallow に加えて、robots.txt 内の別のキーワードである allow もサポートしており、ブロックされたディレクトリの例外を定義できます。

 # http://www.example.com の robots.txt

ユーザーエージェント: Googlebot
禁止: /news/
許可: /news/index.html

キーワード allow により、上位ディレクトリ news がブロックされている場合でも、ファイル "http://www.example.com/news/index.html" を Google ボットが読み取ることができるようになります。

特定の末尾を持つファイルをブロックする

Google ボットが特定の末尾を持つファイルを読み取るのを防ぎたいウェブサイト運営者は、次の例に従ってデータセットを使用できます。

 # http://www.example.com の robots.txt

ユーザーエージェント: Googlebot
禁止: /*.pdf$

キーワード disallow は、.pdf で終わるすべてのファイルを参照し、これらの Google をボット攻撃から保護します。 アスタリスク(*)はドメイン名のワイルドカード文字として使用されます。 このエントリは、行末アンカーとして機能するドル記号で完了します。

サイトマップにウェブクローラーを推奨

robots.txt ファイルは、クロール動作を制御するだけでなく、検索ロボットが Web サイトのサイトマップを参照できるようにもします。 サイトマップ参照を含む robots.txt は次のように呼び出すことができます。

 # http://www.example.com の robots.txt

ユーザーエージェント: *
禁止: /temp/

サイトマップ: http://www.example.com/sitemap.xml

表2: 拡張されたrobots.txtの機能

注文関数
許可する:許可: /example.html入力ファイルまたはディレクトリを取得できません
禁止: /*…$禁止: /*.jpg$特定の末尾を持つファイルはブロックされます
サイトマップ:サイトマップ: http://www.example.com/sitemap.xml XMLサイトマップは入力したアドレスにあります

<<:  スタックテーブルとは何ですか? CSS でスタックフォームを作成する方法は?

>>:  Huawei Qiankun 端末セキュリティ ソフトウェア (あらゆる種類のマルウェアをブロック) v1.1.11.68

推薦する

MyKeymap (キーボード マッピング ツール) v2.0-beta24 中国語グリーン バージョン

MyKeymap は、ユーザーがニーズに応じてキーボードのキーを再マッピングできる、使いやすいキーボ...

OpenShell (クラシックスタートメニューソフトウェア) v4.4.195 完全簡体字中国語版

OpenShell (旧 Classic Shell) は、より柔軟でカスタマイズされた機能豊富なス...

3delite MP4 ビデオ & オーディオ タグ エディター v1.0.294.494 ポータブル版

3delite MP4 ビデオ & オーディオ タグ エディターは、MP4 ビデオおよびオー...

ハードディスクセンチネル(SSDモニタリング)v6.20.8 多言語ポータブル版

Hard Disk Sentinel は、ハードディスクと SSD を監視するためのソフトウェアです...

AIDA64 Extreme (システムハードウェア検出ツール) v7.60.7300 多言語ポータブル版

AIDA64 Extreme は、ユーザーがコンピューターのハードウェアとソフトウェアの構成を包括的...

Universal Extractor (インストーラー解凍ツール) v2.0.0 RC3 中国語版

Universal Extractor は、ほとんどの種類のアーカイブを抽出できる一般的なオープン ...

KeyboardTest (キーボードテストソフトウェア) v3.2 Build 1002 ポータブル版

KeyboardTest は、コンピュータのキーボードをテストするためのソフトウェアです。キーボード...

K-Lite Mega/FULL コーデック パック (ビデオ デコーダー) v18.8.0 / 18.8.1 ベータ

K-Lite Mega/FULL Codec Pack は、一般的に使用されるすべてのデコーダーとエ...

WinNTSetup (システムインストーラー) v5.4.1.0 中国語グリーンバージョン

WinNTSetup 中国語版 (システムインストーラー) は、システムインストールツール、システム...

Macrorit Data Wiper (ハードディスクデータ消去ツール) v8.2.1 多言語ポータブル版

Macrorit Data Wiper は、ハード ドライブ、パーティション、ファイル、またはフォル...

Light Image Resizer(画像一括調整ツール)v7.1.2.63 中国語グリーンバージョン

Light Image Resizer は、画像のサイズを簡単に変更したり、複数の画像を一括処理した...

System Ninja (システム最適化およびクリーニング ツール) Pro v4.0.1 多言語ポータブル版

System Ninja は、Velociraptor Technologies が開発した無料のシ...

Microsoft Office LTSC 2021 (KpoJIuK 直接インストール版) ​​x64 v16.0.14332.21007 3 月版

Microsoft Office 2021 は、Microsoft がリリースした最新のオフィス ス...

Transmission (オープンソース BT クライアント) v4.0.5

Transmission はもともと Mac OS X プラットフォーム用に開発されましたが、現在...