主题
- #robots.txt
- #爬蟲
- #ChatGPT
- #GPT
- #OpenAI
撰写: 2024-07-27
撰写: 2024-07-27 23:29
OpenAI(GPT)运营着爬虫机器人。
基本上,GPT也需要收集数据才能不断学习和升级,因此需要进行爬取,
早期,据称它使用了维基百科数据和各大新闻机构的新闻,此外还运营了大量爬虫,引发了争议,但现在它官方运营着GPTBot,该机器人会遵守robots.txt,如果被阻止,它就不会收集数据。
例如,在robots.txt中
```javascript User-agent: GPTBot Disallow: /
这样可以只阻止GPTBot,
而这次发布的GPTSearch则允许,如果要阻止GPTBot,可以如下操作:
```javascript User-agent: OAI-SearchBot Allow: / User-agent: GPTBot Disallow: /
合理利用这些部分可以阻止GPT的未经授权的爬取。
评论0