OpenAI的机器人如何“像DDoS攻击一样”摧毁了这家七人公司的网站

上周六,Triplegangers的首席执行官Oleksandr Tomchuk收到通知称他公司的电子商务网站已经崩溃。看起来像是某种分布式拒绝服务攻击。

他很快发现罪魁祸首是OpenAI的一个机器人,它无情地试图爬取他整个庞大的网站。

“我们有超过65,000个产品,每个产品都有一个页面,”Tomchuk告诉TechCrunch。“每个页面至少有三张照片。”

OpenAI正在发送“数以万计”的服务器请求,试图下载所有这些内容,数十万张照片以及它们的详细描述。

“OpenAI使用了600个IP地址来爬取数据,我们仍在分析上周的日志,也许还有更多,”他说到机器人用来尝试获取他的网站内容的IP地址。

“他们的爬虫让我们的网站崩溃了,”他说,“基本上就是一次DDoS攻击。”

Triplegangers的网站就是它的业务。 这家有七名员工的公司已经花费了十多年的时间,汇编了它所称的最大的“网络上人体数字双身”数据库,意味着从真实人体模型扫描生成的3D图像文件。

它销售这些3D物体文件,以及照片 - 包括从手到头发、皮肤和整个身体的一切 - 给需要数字化重建真实人特征的3D艺术家、视频游戏制作者,任何需要的人。

Tomchuk的团队总部设在乌克兰,但在美国坦帕市也有执照。他们的网站上有一个服务条款页面,禁止机器人未经许可使用其图片。但仅仅这样做是没有用的。网站必须使用正确配置的robot.txt文件,并特别告诉OpenAI的机器人GPTBot离开网站(OpenAI的信息页面上还有几个其他机器人,如ChatGPT-User和OAI-SearchBot,它们有自己的标签)。

Robot.txt,又称为机器人排除协议,是用来告诉搜索引擎网站不要爬取其内容的。OpenAI在其信息页面上表示,配置了其特定的不爬取标签后会尊重这些文件,尽管它也警告说可能需要长达24小时才能识别更新的robot.txt文件。

正如Tomchuk所经历的那样,如果网站未正确使用robot.txt,OpenAI和其他公司会认为他们可以尽情爬取。这并不是一个自愿选择的系统。

更让人伤感的是,不仅Triplegangers在美国的工作时间被OpenAI的机器人挤下线,Tomchuk还预计由于机器人的CPU和下载活动,AWS账单会飙升。

Robot.txt也并非万无一失。AI公司是自愿遵守它的。另一家AI初创公司Perplexity在去年夏天被《连线》调查时曾因一些证据表明Perplexity并没有遵守而受到批评。

每个都是一个产品,带有多张图片的产品页面。经许可使用。图片来源:Triplegangers(在新窗口打开)

可以确定已被获取的内容

到周三,在经历了几天OpenAI的机器人返回后,Triplegangers已经设置了一个正确配置的robot.txt文件,并且创建了一个Cloudflare账户用来阻止它的GPTBot和另外几个他发现的机器人,如Barkrowler(一个SEO爬虫)和Bytespider(TokTok的爬虫)。Tomchuk还希望他已经阻止了其他AI模型公司的爬虫。他说,周四早上网站没有崩溃。

但Tomchuk仍然没有合理的方法来找出OpenAI成功获取了什么内容,或者删除那些内容。他没有找到联系OpenAI并询问的方式。OpenAI也没有回应TechCrunch的评论请求。正如TechCrunch最近报道的那样,OpenAI迄今未能提供其长期承诺的选择退出工具。

这对Triplegangers来说是一个特别棘手的问题。他说:“我们从事的业务中,权利是一个严肃的问题,因为我们扫描真实人的人体模型。”像欧洲的GDPR这样的法律,“他们不能仅仅拍摄任何人的照片并加以使用。”

对于AI爬虫来说,Triplegangers的网站也是一个特别棒的发现。像Scale AI这样价值数十亿美元的初创公司是通过人类费时标记图像来训练AI的。Triplegangers的网站包含有详细标记的照片:种族,年龄,纹身与疤痕,各种体型等等。

具有讽刺意味的是,OpenAI机器人的贪婪正是让Triplegangers意识到自己有多么容易暴露的原因。Tomchuk说,如果它爬取得更温和一些,他就永远不会知道。

“令人恐惧的是,这些公司似乎在利用一种漏洞通过说“只要你更新了我们的标签就可以选择退出”来爬取数据,”Tomchuk说,但这让业主不得不了解如何阻止他们。

Triplegangers的服务器日志展示了OpenAI机器人如何从数以百计的IP地址访问站点。经许可使用。

他希望其他小型网络公司知道,发现AI机器人正在获取网站版权内容的唯一方法是主动监视。他绝对不是唯一一个受到这种恐吓的人。其他网站的所有者最近告诉《商业内幕》说,OpenAI机器人崩溃了他们的网站,并导致了AWS账单飙升。

这个问题在2024年增长了几个量级。数字广告公司DoubleVerify的最新研究发现,AI爬虫导致2024年“一般无效流量”增加了86% - 也就是说,不是来自真实用户的流量。

尽管如此,Tomchuk警告说:“大多数网站仍然不知道它们被这些机器人爬取了。”“现在我们不得不每天监视日志活动来发现这些机器人。”

当你深思熟虑时,整个模式有点像黑手党讹诈:AI机器人会拿走他们想要的,除非你有保护措施。

“他们应该询问许可,而不仅仅是爬取数据,”Tomchuk说。

TechCrunch有一个关于人工智能的新闻简报!

在这里注册

每周三收到它。