2023年8月、ChatGPTの開発で知られる人工知能の巨人OpenAIは、ウェブを横断してデータを収集するように設計されたウェブクローラーGPTBotのリリースを発表しました。 このニュースが発表されてすぐに、インターネット上の最大手サイトのいくつかはボットによるサイトへのアクセスをブロックしました。 しかし、なぜ? OpenAI の GPTBot とは何ですか? 大手サイトはなぜそれを恐れ、ブロックしようとしているのでしょうか? OpenAI の GPTBot とは何ですか?GPTBot は、OpenAI の人工知能開発目標のためにインターネットを検索し、情報を収集するために OpenAI によって作成された Web クローラーです。 これは、公開ウェブサイトをクロールし、データを OpenAI のサーバーに送り返すようにプログラムされています。 OpenAI はこのデータを活用して AI モデルのトレーニングと改善を行い、より高度な AI システムの構築を目指します。 GPT-4 や ChatGPT のような派生モデルのような複雑な AI モデルを構築するには、Web クローラーがほぼ必須です。 GPTBot AI モデルのトレーニングには大量のデータが必要であり、このデータを収集する最も効果的な方法の 1 つは、Web クローラーなどのツールを導入することです。 クローラーは、リンクをたどって大量の Web ページをインデックスし、事前定義されたパターンに一致するテキスト、画像、メタデータなどの重要なデータを抽出しながら、体系的に Web を閲覧できます。 このデータは構造化されて AI モデルに取り込まれ、自然言語処理や画像生成機能をトレーニングしたり、他の AI タスクを実行するようにトレーニングしたりできます。 つまり、Web クローラーによって収集されたデータにより、ChatGPT や DALL-E などのツールがその機能を実行できるようになります。 Web クローラーは新しい概念ではありません。 今日、インターネット上の何十億ものウェブサイトをクロールしている人はおそらく何百万人もいるでしょう。 少なくとも 90 年代初頭から存在しています。 GPTBot は、OpenAI が持つクローラーの 1 つにすぎません。 それで、この特定の Web クローラーをめぐる論争の原因は何だったのでしょうか? ウェブサイトが GPTBot をブロックするのはなぜですか?Business Insider によると、インターネット上の最大規模のサイトのいくつかは、自社のサイトから OpenAI クローラーを積極的にブロックしているという。 では、GPTBot の究極の目標が人工知能の開発を進めることであるならば、何らかの形で AI の恩恵を受けているインターネット上の最大規模のサイトのいくつかがなぜこれに反対しているのでしょうか? さて、問題はこれです。 2022年に生成AI技術が復活して以来、AI企業がインターネット上のデータ(その多くは著作権で保護されている)をほぼ無制限にアクセスして使用する権利があるかどうかについて多くの議論がなされてきました。 これらの企業が自社の利益のためにデータをどのように収集し使用するかを規定する明確な法律はありません。 つまり、基本的に、GPTBot のようなクローラーは Web をスクレイピングし、テキスト、画像、またはその他の形式のメディアの形式で人々の創作物をスクレイピングし、許可を得たり、元の作成者に報酬を提供したりすることなく、それらを商業目的で使用します。 そのため、Web サイトでは、Web クローラーをブロックする何十年も前からある方法である「robots.txt」を導入する必要があります。 OpenAI によれば、GPTBot は、Web クローラーに Web サイトでの動作を指示する小さなテキスト ファイルである robots.txt に埋め込まれたルールに基づいて、Web サイトをクロールするか、クロールを回避するかの指示に従います。 独自の Web サイトがあり、GPTBot によるデータのクロールを防ぎたい場合は、以下の手順に従って OpenAI のクローラーによる Web サイトのクロールをブロックできます。 ウェブサイトは本当に GPTBot をブロックできるのでしょうか?GPTBot のようなクローラーは、高度な AI システムをトレーニングするために必要な膨大な量のデータを収集するために不可欠ですが、著作権と公正使用に関する正当な懸念を無視することはできません。 もちろん、robots.txt のような簡単なツールを使用してこれを防ぐことはできますが、GPTBot がそのファイルの指示に従うかどうかは完全に OpenAI の裁量に委ねられています。 彼らがそうする保証はなく、彼らがそうしたかどうかをすぐに確実に知る方法もありません。 GPTBot が著作権で保護されたデータにアクセスするのを防ぐための戦いでは、少なくとも今のところは OpenAI が切り札を握っている。 |
>>: YouTube APP (YouTube Android 版) v18.34.38 正式版
WinScan2PDF は、スキャンしたファイルを PDF 形式で保存できる無料のスキャン ソフトウ...
DataGrip は JetBrains が開発したプロフェッショナルなデータベース管理ツールであり...
FastStone MaxView は、多くの機能と特徴を備えた高度な画像ビューアです。ソフトウェア...
今日の技術環境では、消費するコンテンツが多すぎる一方で、消費する時間が足りていません。混雑したオンラ...
ExtraMAME は、MAME (Multiple Arcade Machine Emulato...
Stellar Toolkit for File Repair は、破損、破損、または開くことがで...
PT Watermark は、画像に一括でウォーターマークを入れる便利で実用的なソフトウェアです。大...
NSudo は、Windows 上でさまざまな権限を持つアプリケーションやスクリプトを実行できる無料...
Xmanager Power Suite 中国語クラック版は、NetSarang がリリースしたサー...
MacType は、Windows オペレーティング システムのフォント レンダリング方法を変更し、...
WinDataReflector は、ユーザーがさまざまなハード ドライブ、フォルダー、ファイル タ...
Microsoft Safety Scanner は、Microsoft が開発した無料のウイルス...
ZWCAD は、ZWCAD が独自に開発した第 3 世代の 2D CAD プラットフォーム ソフトウ...
AutoOff は、ユーザーがスケジュールに従ってコンピューターをシャットダウン、再起動、休止状態、...
ランダム アクセス メモリ (RAM または単に「メモリ」と略されることが多い) は、あらゆるコンピ...