OpenAIがWebクローラ「GPTBot」をリリース。クロールをブロックする方法

📁
【Webサイト運営者必見】OpenAIの「GPTBot」によるクローリングをブロックする方法

OpenAIは、2023年8月7日に同社の技術ブログでChatGPTのWebクローラ「GPTBot」に関する詳細を明らかにし、Webサイト運営者が「GPTBot」によるWebクローリングをブロックする方法を公表しました。

この記事では、ChatGPTのWebクローラ「GPTBot」の内容と、Webサイト運営者が自らのサイトを「GPTBot」によるWebクローリングから回避する方法をご紹介します。

ChatGPTのWebクローラー「GPTBot」とは?

2023年8月7日、OpenAI はWeb上の情報を収集し将来のAIモデル性能をさらに向上させるためのWebクローラ「GPTBot」に関する内容を同社の技術ブログで明らかにしました。

参考:OpenAIの技術ブログ

GPTBot の用途や利用方法について、OpenAiは次のように説明しています。

GPTBotがクローリングしたWebページは将来のAIモデルの改善に役立てる可能性があります。また、課金が必要なWebページ、個人情報を収集するようななWebページ、OpenAIのポリシーに反するようなWebページは除外されます。GPTBotによるWebクローリングによって、AI モデルの精度向上や全体的な能力と安全性の向上に貢献するでしょう。GPTBot によるサイトアクセスを拒否する方法を以下で共有します。

OpenAIの技術ブログ

つまり、GPTBotによってWeb上の情報を取得・学習して、GPT-4などのAIモデルの学習・改善に活用するとのことです。

また、GPTBotのユーザーエージェント(UA)の情報も以下の通り公開されています。

User agent token: GPTBot

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

GPTBotによるクローリングをブロックする方法

OpenAIは、Webサイト運営者がGPTBotによる自社サイトへのクローリングをブロックする方法を公開しています。
ここでは、OpenAIが紹介する2つのブロック方法を解説します。

方法1.robots.txtでブロックする
方法2.IPアドレスでブロックする

方法1.robots,txtでブロックする

1つ目の方法は、Googleなどの検索エンジンによるクローリングを禁止するのと同じように、 robots.txt で設定する方法です。

自社サイト全体のクローリングを禁止したいか、自社サイトのうち一部のディレクトリ・ページのみ禁止したいか、によってrobots.txtファイルへの記述方法が異なります。
以下、それぞれ2つの場合について解説します。

ケース1:サイト全体でクローリングをブロックしたい場合

GPTBotによる自社サイトへのクローリングを全てブロックしたい場合は、 robots.txt に次のように記述を追加します。

User-agent: GPTBot
Disallow: /

これで、GPTBotによる自社サイトへのクローリングを全面的に禁止することができます。

ケース2:一部のディレクトリ・ページのみブロックしたい場合

自社サイトの特定のディレクトリやページのみGPTBotによるクローリングを禁止したい場合は、 robots.txt に次のように記述を追加します。

User-agent: GPTBot
Disallow: /directory-1/
Allow: /directory-2/

上の記述例では、/directory-1/ 配下の URL への GPTBot によるクローリングを禁止(Disallow)、 /directory-2/ 配下の URL は GPTBot のクローリングを許可(Allow)しています。

方法2.IPアドレスでブロックする

2つ目の方法は、OpenAIが公開するIPアドレス一覧からのアクセスを禁止する方法です。

OpenAIが公開するIPアドレスの一覧はこちらから確認できます。

まとめ

この記事では、OpenAIが公開したWebクローラ「GPTBot」に関する情報と、「GPTBot」による自社サイトへのWebクロールをブロックする方法について解説しました。

「GPTBot」によって、GPT-4の精度や性能がどれくらい向上するのか、また新たにGPT-5モデルが登場するのか、今後の動向が期待されます。