谁应该阻止人工智能机器人？

2023 年 8 月，OpenAI发布了其网络爬虫 GPTBot，并允许网站所有者在robots.txt中阻止访问——就像人们可以阻止 Google Bot 访问网站中某些敏感或无用的部分一样。根据Originality.ai和牛津大学路透社研究所的一项研究，大量网站（某些地区高达 48%）立即采纳了他们的建议。谷歌不久后宣布推出单独的“ Google-Extended”机器人，允许网站专门阻止谷歌的部分或全部页面的人工智能工具。

自那时起就出现了一些争论。 Moz、我们的母公司 Ziff Davis 以及 SEO 行业一直在争论如何最好地利用这种拒绝访问（某些）AI 工具的新功能，以及它是否 WS电话列表具有任何实际影响。由于目前可用的信息有限，特别是有关这些数据和这些工具的未来路径的信息，我认为没有可靠的答案。在这篇文章中，我想解释一下哪些论点、信念、前提或商业背景可能会导致您阻止或不阻止这些机器人。

首先，这对您的工作有什么影响吗？

“他们已经拥有我所有的材料了”

或许。 OpenAI 过去曾使用过各种数据源，最近发布了他们自己的爬虫。例如，Common Crawl是 GPT-3 训练数据的重要组成部分，它与 GPTBot 不同。一些网站会屏蔽 Common Crawl CC 机器人，据少数听说过它的人称，它对服务器的要求将您的数字产品上传到正确的平台后相当低，除了训练 AI 模型外，还可能带来广泛的好处。此外，如果您现在阻止新的特定于 AI 的机器人，您就不会删除它们过去从您的网站收集的任何内容。

这样，最糟糕的情况是，你只是减慢了他们访问你发布的新内容的速度。但你可以肯定这种新材料具有某种独特的价值，尤其是当它处于最新水平时。（他们目前试图封锁的正是这些新闻网站،这绝非巧合。

然而，这可以在其他地方的抓取网站上很原创评论好地复制。我怀疑更复杂的模型包括某种权威信号（可能是链接！），因此抓取网站可能不像您自己的网站那样值得信赖，或者独立或定期重新抓取。但我无法证实这一点。

“他们不需要我的内容”

您可以确信，即使您作为行业中更大运动的一部分工作，人工智能机器人最终也能够像您一样针对您的网站所涉及的主题制作内容。即使没有您新发布或最近更新的页面的输入。

如果是这样,我首先要说的是,这可能是对任何以内容为中心的网站的价值主张的相当严厉的控诉，

“他们已经拥有我所有的材料了”

“他们不需要我的内容”

发表评论 取消回复

发表评论取消回复