Cloudflare推出工具应对AI机器人

极点视野

Saturday, April 19 2025

Cloudflare，这家上市的云服务提供商，推出了一款新的免费工具，用于防止机器人在其平台托管的网站上抓取数据以训练AI模型。

一些AI供应商，包括Google，OpenAI和苹果，允许网站所有者通过修改其网站的robots.txt文件来屏蔽用于数据抓取和模型训练的机器人。但正如Cloudflare在一篇发布其防机器人工具的帖子中指出的那样，不是所有的AI抓取工具都尊重这一规定。

“客户不希望AI机器人访问他们的网站，尤其是那些不诚实的机器人，”该公司在其官方博客上写道。“我们担心一些意图规避规则以访问内容的AI公司将不断适应以逃避机器人检测。”

因此，为了解决这个问题，Cloudflare分析了AI机器人和网络爬虫的流量，以调整自动机器人检测模型。这些模型考虑了其他因素，例如AI机器人是否试图通过模仿使用Web浏览器的外观和行为来规避检测。

“当坏操作者试图大规模爬取网站时，他们通常使用我们能够进行指纹识别的工具和框架，”Cloudflare写道。“根据这些信号，我们的模型可以适当地将来自回避性AI机器人的流量作为机器人标记。”

Cloudflare为主机设立了一个报告疑似AI机器人和网络爬虫的表格，并表示将继续逐步手动列入黑名单。

随着生成式AI的爆炸引发了模型训练数据的需求，AI机器人的问题已经显现出来。

许多网站担心AI供应商在未通知或补偿他们的情况下对其内容进行模型训练，因此选择屏蔽AI抓取工具和网络爬虫。根据一项研究，全球前1000个网站中约有26％屏蔽了OpenAI的机器人；另一项研究发现，超过600家新闻出版商已经屏蔽了该机器人。

然而，屏蔽并非绝对保护。正如前面提到的，一些供应商似乎正在忽视标准的机器人排除规则，以在AI竞赛中取得竞争优势。AI搜索引擎Perplexity最近被指控冒充合法访问者从网站上抓取内容，并且据说OpenAI和Anthropic有时会忽略robots.txt规则。

在上个月写给出版商的一封信中，内容许可创业公司TollBit表示，实际上看到“许多AI代理人”无视robots.txt标准。

类似Cloudflare的工具可能有所帮助，但只有在准确检测秘密AI机器人时才能实现。它们无法解决出版商面临的风险问题，即如果他们屏蔽特定的AI网络爬虫，可能会损失像Google的AI概览这样的工具带来的引荐流量。

极点视野