해리슨 블로그

OpenAI(GPT)クローラーボットのブロック方法

作成: 2024-07-27

作成: 2024-07-27 23:29

OpenAI(GPT)では、クローラーボットを運用しています。

基本的に、GPTもデータを収集しなければ、学習を深めてアップグレードすることはできません。そのため、クロールを行っているのですが、

初期段階では、ウィキペディアのデータや各報道機関のニュースを利用していたとされ、その他にも大量のクローラーを運用していたことから物議を醸しましたが、現在は公式にGPTBotを運用しており、このボットはrobots.txtを遵守し、ブロックすればデータ収集を行わないとのことです。


例えば、robots.txtに

のように記述すると、GPTBotのみをブロックすることができます。

今回公開されたGPTSearchは許可し、GPTBotをブロックするには、次のようにします。

必要に応じて適切な部分を活用することで、GPTによる無断クロールを阻止することができます。

コメント0

クロール(Crawling)とは?ウェブクローラーがインターネットのウェブページを探索し、情報を収集するプロセスであるクロールについて学びましょう。検索エンジン、価格比較、ソーシャルメディア分析など、さまざまな分野で活用されています。
여행가고싶은블로거지만여행에대해다루진않을수있어요
여행가고싶은블로거지만여행에대해다루진않을수있어요
여행가고싶은블로거지만여행에대해다루진않을수있어요
여행가고싶은블로거지만여행에대해다루진않을수있어요

2024年4月26日

Bing!一体何が問題なのか…Bing検索エンジンのクロールリングの問題点を指摘する記事です。Bingがrobots.txtを無視し、存在しないページを繰り返しクロールリングして404エラーが発生するという内容です。IndexNowを使用しているにも関わらず、クロールリング速度が遅く、Bingのクロールリング方法について疑問を呈しています。
해리슨의 블로그..
해리슨의 블로그..
해리슨의 블로그..
해리슨의 블로그..

2024年11月16日