OpenAI の GPTBot とは何ですか?なぜサイトはそれをブロックするのでしょうか?

OpenAI の GPTBot とは何ですか?なぜサイトはそれをブロックするのでしょうか?

2023年8月、ChatGPTの開発で知られる人工知能の巨人OpenAIは、ウェブを横断してデータを収集するように設計されたウェブクローラーGPTBotのリリースを発表しました。

このニュースが発表されてすぐに、インターネット上の最大手サイトのいくつかはボットによるサイトへのアクセスをブロックしました。 しかし、なぜ? OpenAI の GPTBot とは何ですか? 大手サイトはなぜそれを恐れ、ブロックしようとしているのでしょうか?

OpenAI の GPTBot とは何ですか?

GPTBot は、OpenAI の人工知能開発目標のためにインターネットを検索し、情報を収集するために OpenAI によって作成された Web クローラーです。 これは、公開ウェブサイトをクロールし、データを OpenAI のサーバーに送り返すようにプログラムされています。 OpenAI はこのデータを活用して AI モデルのトレーニングと改善を行い、より高度な AI システムの構築を目指します。 GPT-4 や ChatGPT のような派生モデルのような複雑な AI モデルを構築するには、Web クローラーがほぼ必須です。

GPTBot

AI モデルのトレーニングには大量のデータが必要であり、このデータを収集する最も効果的な方法の 1 つは、Web クローラーなどのツールを導入することです。 クローラーは、リンクをたどって大量の Web ページをインデックスし、事前定義されたパターンに一致するテキスト、画像、メタデータなどの重要なデータを抽出しながら、体系的に Web を閲覧できます。

このデータは構造化されて AI モデルに取り込まれ、自然言語処理や画像生成機能をトレーニングしたり、他の AI タスクを実行するようにトレーニングしたりできます。 つまり、Web クローラーによって収集されたデータにより、ChatGPT や DALL-E などのツールがその機能を実行できるようになります。

Web クローラーは新しい概念ではありません。 今日、インターネット上の何十億ものウェブサイトをクロールしている人はおそらく何百万人もいるでしょう。 少なくとも 90 年代初頭から存在しています。 GPTBot は、OpenAI が持つクローラーの 1 つにすぎません。 それで、この特定の Web クローラーをめぐる論争の原因は何だったのでしょうか?

ウェブサイトが GPTBot をブロックするのはなぜですか?

Business Insider によると、インターネット上の最大規模のサイトのいくつかは、自社のサイトから OpenAI クローラーを積極的にブロックしているという。 では、GPTBot の究極の目標が人工知能の開発を進めることであるならば、何らかの形で AI の恩恵を受けているインターネット上の最大規模のサイトのいくつかがなぜこれに反対しているのでしょうか?

さて、問題はこれです。 2022年に生成AI技術が復活して以来、AI企業がインターネット上のデータ(その多くは著作権で保護されている)をほぼ無制限にアクセスして使用する権利があるかどうかについて多くの議論がなされてきました。 これらの企業が自社の利益のためにデータをどのように収集し使用するかを規定する明確な法律はありません。

つまり、基本的に、GPTBot のようなクローラーは Web をスクレイピングし、テキスト、画像、またはその他の形式のメディアの形式で人々の創作物をスクレイピングし、許可を得たり、元の作成者に報酬を提供したりすることなく、それらを商業目的で使用します。

そのため、Web サイトでは、Web クローラーをブロックする何十年も前からある方法である「robots.txt」を導入する必要があります。 OpenAI によれば、GPTBot は、Web クローラーに Web サイトでの動作を指示する小さなテキスト ファイルである robots.txt に埋め込まれたルールに基づいて、Web サイトをクロールするか、クロールを回避するかの指示に従います。 独自の Web サイトがあり、GPTBot によるデータのクロールを防ぎたい場合は、以下の手順に従って OpenAI のクローラーによる Web サイトのクロールをブロックできます。

ウェブサイトは本当に GPTBot をブロックできるのでしょうか?

GPTBot のようなクローラーは、高度な AI システムをトレーニングするために必要な膨大な量のデータを収集するために不可欠ですが、著作権と公正使用に関する正当な懸念を無視することはできません。

もちろん、robots.txt のような簡単なツールを使用してこれを防ぐことはできますが、GPTBot がそのファイルの指示に従うかどうかは完全に OpenAI の裁量に委ねられています。 彼らがそうする保証はなく、彼らがそうしたかどうかをすぐに確実に知る方法もありません。 GPTBot が著作権で保護されたデータにアクセスするのを防ぐための戦いでは、少なくとも今のところは OpenAI が切り札を握っている。

<<:  中小企業向け究極の SEO ガイド

>>:  YouTube APP (YouTube Android 版) v18.34.38 正式版

推薦する

Toutiao APP(Android情報プラットフォーム)v9.9.1広告なしバージョン

📱Toutiao APP は、ユーザーにパーソナライズされた即時のニュース情報サービスを提供すること...

WordPressとは何ですか?なぜこれが最も人気のあるウェブサイト構築プラットフォームなのでしょうか?

WordPress は、プログラミングの知識がなくても Web サイトを作成できる、無料のオープン...

NFOPad (nfoビューアエディタ) v1.81 中国語多言語無料版

NFOPad は、nfo ファイルの編集用に特別に設計された無料のテキスト エディターです。 nfo...

江英アプリ(江英モバイル版)v13.6.0江英公式バージョン

📱Douyin Jianying Android版は、Douyinショートビデオがクリエイター向けに...

Ashampoo Music Studio (音楽制作ソフトウェア) v11.0.3.4 多言語ポータブル版

Ashampoo Music Studio は、総合的な音楽制作および編集ソフトウェアです。音楽ファ...

Mastercam 2025 v27.0.6723.0 簡体字中国語「申し訳ありません」最適化バージョン

Mastercam は、米国の CNC Software Inc. が開発した PC ベースの CA...

ASAP Utilities (強力な Excel プラグイン) v8.6 中国語クラック版

ASAP Utilities は、ASAP Utilities によって開発された Excel アド...

aptX Bluetoothコーデックのさまざまなバージョンについての簡単な紹介

Bluetooth ヘッドフォンで音楽を聴くのは、携帯電話とペアリングしてお気に入りのトラックを再生...

NVDA (無料のオープンソース スクリーン リーダー) v2024.4.2

NVDA (NonVisual Desktop Access) は、視覚障害のある人がコンピュータ...

nomacs (画像ブラウザとエディタ) v3.16.1709 中国語無料版

nomacs は、Windows、Linux、macOS オペレーティング システムをサポートするオ...

iThoughts (クロスプラットフォーム マインド マッピング ソフトウェア ダウンロード) v6.6.0

iThoughts は、Windows、Mac、Android、iOS などのプラットフォームに適...

Movavi Photo Editor (写真編集ソフトウェア) v24.3.0.0 多言語ポータブル版

Movavi Photo Editor は、Movavi が開発したプロ仕様の写真編集ソフトウェアで...

PandaOCR.Pro (OCR画像およびテキスト認識ツール) v5.57 中国語グリーンバージョン

PandaOCR – 多機能 OCR 画像およびテキスト認識 + 翻訳 + 読み取り + ポップアッ...