OpenAI の GPTBot とは何ですか?なぜサイトはそれをブロックするのでしょうか?

OpenAI の GPTBot とは何ですか?なぜサイトはそれをブロックするのでしょうか?

2023年8月、ChatGPTの開発で知られる人工知能の巨人OpenAIは、ウェブを横断してデータを収集するように設計されたウェブクローラーGPTBotのリリースを発表しました。

このニュースが発表されてすぐに、インターネット上の最大手サイトのいくつかはボットによるサイトへのアクセスをブロックしました。 しかし、なぜ? OpenAI の GPTBot とは何ですか? 大手サイトはなぜそれを恐れ、ブロックしようとしているのでしょうか?

OpenAI の GPTBot とは何ですか?

GPTBot は、OpenAI の人工知能開発目標のためにインターネットを検索し、情報を収集するために OpenAI によって作成された Web クローラーです。 これは、公開ウェブサイトをクロールし、データを OpenAI のサーバーに送り返すようにプログラムされています。 OpenAI はこのデータを活用して AI モデルのトレーニングと改善を行い、より高度な AI システムの構築を目指します。 GPT-4 や ChatGPT のような派生モデルのような複雑な AI モデルを構築するには、Web クローラーがほぼ必須です。

GPTBot

AI モデルのトレーニングには大量のデータが必要であり、このデータを収集する最も効果的な方法の 1 つは、Web クローラーなどのツールを導入することです。 クローラーは、リンクをたどって大量の Web ページをインデックスし、事前定義されたパターンに一致するテキスト、画像、メタデータなどの重要なデータを抽出しながら、体系的に Web を閲覧できます。

このデータは構造化されて AI モデルに取り込まれ、自然言語処理や画像生成機能をトレーニングしたり、他の AI タスクを実行するようにトレーニングしたりできます。 つまり、Web クローラーによって収集されたデータにより、ChatGPT や DALL-E などのツールがその機能を実行できるようになります。

Web クローラーは新しい概念ではありません。 今日、インターネット上の何十億ものウェブサイトをクロールしている人はおそらく何百万人もいるでしょう。 少なくとも 90 年代初頭から存在しています。 GPTBot は、OpenAI が持つクローラーの 1 つにすぎません。 それで、この特定の Web クローラーをめぐる論争の原因は何だったのでしょうか?

ウェブサイトが GPTBot をブロックするのはなぜですか?

Business Insider によると、インターネット上の最大規模のサイトのいくつかは、自社のサイトから OpenAI クローラーを積極的にブロックしているという。 では、GPTBot の究極の目標が人工知能の開発を進めることであるならば、何らかの形で AI の恩恵を受けているインターネット上の最大規模のサイトのいくつかがなぜこれに反対しているのでしょうか?

さて、問題はこれです。 2022年に生成AI技術が復活して以来、AI企業がインターネット上のデータ(その多くは著作権で保護されている)をほぼ無制限にアクセスして使用する権利があるかどうかについて多くの議論がなされてきました。 これらの企業が自社の利益のためにデータをどのように収集し使用するかを規定する明確な法律はありません。

つまり、基本的に、GPTBot のようなクローラーは Web をスクレイピングし、テキスト、画像、またはその他の形式のメディアの形式で人々の創作物をスクレイピングし、許可を得たり、元の作成者に報酬を提供したりすることなく、それらを商業目的で使用します。

そのため、Web サイトでは、Web クローラーをブロックする何十年も前からある方法である「robots.txt」を導入する必要があります。 OpenAI によれば、GPTBot は、Web クローラーに Web サイトでの動作を指示する小さなテキスト ファイルである robots.txt に埋め込まれたルールに基づいて、Web サイトをクロールするか、クロールを回避するかの指示に従います。 独自の Web サイトがあり、GPTBot によるデータのクロールを防ぎたい場合は、以下の手順に従って OpenAI のクローラーによる Web サイトのクロールをブロックできます。

ウェブサイトは本当に GPTBot をブロックできるのでしょうか?

GPTBot のようなクローラーは、高度な AI システムをトレーニングするために必要な膨大な量のデータを収集するために不可欠ですが、著作権と公正使用に関する正当な懸念を無視することはできません。

もちろん、robots.txt のような簡単なツールを使用してこれを防ぐことはできますが、GPTBot がそのファイルの指示に従うかどうかは完全に OpenAI の裁量に委ねられています。 彼らがそうする保証はなく、彼らがそうしたかどうかをすぐに確実に知る方法もありません。 GPTBot が著作権で保護されたデータにアクセスするのを防ぐための戦いでは、少なくとも今のところは OpenAI が切り札を握っている。

<<:  中小企業向け究極の SEO ガイド

>>:  YouTube APP (YouTube Android 版) v18.34.38 正式版

推薦する

Aiseesoft FoneLab for Android (Android データ復旧) v5.1.8 多言語ポータブル版

Aiseesoft FoneLab for Android は Android データ復旧ソフトウェ...

DriverEasy (ドライバー更新ソフトウェア) v6.1.2.29728 多言語ポータブル版

DriverEasy は、Windows コンピューター上のドライバー管理ツールであり、インストール...

SSD Fresh Plus (ソリッド ステート ドライブ最適化ツール) v14.0.56618 多言語ポータブル版

Abelssoft SSD Fresh は、ソリッド ステート ドライブ用に特別に設計された最適化ツ...

Mastercam 2024 アップデート 6 簡体字中国語に軽く最適化されたバージョン

Mastercam は、米国の CNC Software Inc. が開発した PC ベースの CA...

ウェブサイトの速度とユーザーエクスペリエンスを最適化するにはどうすればよいでしょうか?

ウェブサイト運営者の最も重要な仕事の 1 つは、ウェブサイト訪問者の体験が可能な限りスムーズになるよ...

Topaz Sharpen AI (画像シャープニングソフトウェア) v4.1.0 中国語ポータブル版

Topaz Sharpen AI は、細部を失うことなく画像の鮮明度を高めるのに役立つプロフェッショ...

デバイス情報 HW+ Android バージョン (電話のハードウェア情報を表示) v5.20.1 修正バージョン

📱Device Info HW+ は、ユーザーが携帯電話やタブレットのハードウェアとソフトウェアの情...

Bilibili APP (Bilibili 広告削除モジュール) v1.7.0

📱Bilibili Roaming は、Bilibili アプリの制限を解除する Xposed モ...

YouCut ビデオ編集アプリ (モバイルビデオ編集プログラム) v1.622.1187 修正版

📱YouCut Android バージョンは、使いやすく強力なビデオ編集アプリケーションです。さまざ...

Google Earth (Google Earth PC 版) Pro v7.3.6.10201 多言語ポータブル版

Google Earth は、Google が開発した仮想地球ソフトウェアです。地球上のさまざまな地...

Apowersoft スクリーンキャプチャプロ v1.5.5.0 多言語ポータブル版

Apowersoft スクリーン キャプチャは、ビデオ、オーディオ、画像、テキストなど、画面上のあら...

FBReader Android版(Androidモバイルリーダー)プレミアムv3.8.1修正版

📱FBReader は、EPUB、MOBI、FB2、PDF、DjVu、AWZ3 など、複数の電子書籍...

Speccy (無料システム情報ツール) v1.33.079.0 中国語グリーンバージョン

Speccy は、コンピューターのハードウェア構成、オペレーティング システム情報、ネットワーク情報...

AdobeGenP (Adobe ファミリー バケット クラック アクティベーション ツール) v3.4.14.1 中国語グリーン バージョン

AdobeGenP は Adob​​e ソフトウェアに関連するツールであり、主にさまざまな Adob...

Windows 10 22H2 ビルド 19045.5555 RTM

Microsoft Win10 システムのダウンロード、Microsoft Win10 22H2 ...