Cloudflare推出工具应对AI机器人

Cloudflare,这家上市的云服务提供商,推出了一款新的免费工具,用于防止机器人在其平台托管的网站上抓取数据以训练AI模型。

一些AI供应商,包括Google,OpenAI和苹果,允许网站所有者通过修改其网站的robots.txt文件来屏蔽用于数据抓取和模型训练的机器人。但正如Cloudflare在一篇发布其防机器人工具的帖子中指出的那样,不是所有的AI抓取工具都尊重这一规定。

“客户不希望AI机器人访问他们的网站,尤其是那些不诚实的机器人,”该公司在其官方博客上写道。“我们担心一些意图规避规则以访问内容的AI公司将不断适应以逃避机器人检测。”

因此,为了解决这个问题,Cloudflare分析了AI机器人和网络爬虫的流量,以调整自动机器人检测模型。这些模型考虑了其他因素,例如AI机器人是否试图通过模仿使用Web浏览器的外观和行为来规避检测。

“当坏操作者试图大规模爬取网站时,他们通常使用我们能够进行指纹识别的工具和框架,”Cloudflare写道。“根据这些信号,我们的模型可以适当地将来自回避性AI机器人的流量作为机器人标记。”

Cloudflare为主机设立了一个报告疑似AI机器人和网络爬虫的表格,并表示将继续逐步手动列入黑名单。

随着生成式AI的爆炸引发了模型训练数据的需求,AI机器人的问题已经显现出来。

许多网站担心AI供应商在未通知或补偿他们的情况下对其内容进行模型训练,因此选择屏蔽AI抓取工具和网络爬虫。根据一项研究,全球前1000个网站中约有26%屏蔽了OpenAI的机器人;另一项研究发现,超过600家新闻出版商已经屏蔽了该机器人。

然而,屏蔽并非绝对保护。正如前面提到的,一些供应商似乎正在忽视标准的机器人排除规则,以在AI竞赛中取得竞争优势。AI搜索引擎Perplexity最近被指控冒充合法访问者从网站上抓取内容,并且据说OpenAI和Anthropic有时会忽略robots.txt规则。

在上个月写给出版商的一封信中,内容许可创业公司TollBit表示,实际上看到“许多AI代理人”无视robots.txt标准。

类似Cloudflare的工具可能有所帮助,但只有在准确检测秘密AI机器人时才能实现。它们无法解决出版商面临的风险问题,即如果他们屏蔽特定的AI网络爬虫,可能会损失像Google的AI概览这样的工具带来的引荐流量。