您现在的位置:传奇私服发布网 > 精华攻略 >

OpenAI阻止网络爬虫抓取数据,避免数据被用于训练AI模型

时间:2023-08-10 点击:72

核心提示:驱动中国2023年8月8日消息,据悉,OpenAI旗下GPT模型的训练需要大量的网络数据,这可能涉及到数据隐私和版权等问题。为了解决这些问题,OpenAI最近推出了一个新功能,让网站可以阻止...

驱动中国2023年8月8日消息,据悉,OpenAI 旗下 GPT 模型的训练需要大量的网络数据,这可能涉及到数据隐私和版权等问题。为了解决这些问题,OpenAI 最近推出了一个新功能,让网站可以阻止其网络爬虫(web crawler)从其网站上抓取数据训练 GPT 模型。

网络爬虫是一种自动化的程序,可以在互联网上搜索和获取信息。OpenAI 的网络爬虫名为 GPTBot,其会以一定的频率访问各种网站,并将网页内容保存下来,用于训练 GPT 模型。

OpenAI 在其博客文章中表示,网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问,或者通过屏蔽其 IP 地址,来阻止 GPTBot 从其网站上抓取数据。OpenAI 还表示,“使用 GPTBot 用户代理(user agent)抓取的网页可能会被用于改进未来的模型,并且会过滤掉那些需要付费访问、已知收集个人身份信息(PII)、或者有违反我们政策的文本的来源。”对于不符合排除标准的来源,“允许 GPTBot 访问您的网站可以帮助 AI 模型变得更加准确,并提高它们的通用能力和安全性。”

  • 传奇私服发布网(www.zjlvshi.cn) © 2022 版权所有 All Rights Reserved.
  • 蜀ICP备19024996号-1