OpenAI的机器人如何“像DDoS攻击一样”摧毁了这家七人公司的网站

极点视野

Sunday, April 13 2025

上周六，Triplegangers的首席执行官Oleksandr Tomchuk收到通知称他公司的电子商务网站已经崩溃。看起来像是某种分布式拒绝服务攻击。

他很快发现罪魁祸首是OpenAI的一个机器人，它无情地试图爬取他整个庞大的网站。

“我们有超过65,000个产品，每个产品都有一个页面，”Tomchuk告诉TechCrunch。“每个页面至少有三张照片。”

OpenAI正在发送“数以万计”的服务器请求，试图下载所有这些内容，数十万张照片以及它们的详细描述。

“OpenAI使用了600个IP地址来爬取数据，我们仍在分析上周的日志，也许还有更多，”他说到机器人用来尝试获取他的网站内容的IP地址。

“他们的爬虫让我们的网站崩溃了，”他说，“基本上就是一次DDoS攻击。”

Triplegangers的网站就是它的业务。这家有七名员工的公司已经花费了十多年的时间，汇编了它所称的最大的“网络上人体数字双身”数据库，意味着从真实人体模型扫描生成的3D图像文件。

它销售这些3D物体文件，以及照片 - 包括从手到头发、皮肤和整个身体的一切 - 给需要数字化重建真实人特征的3D艺术家、视频游戏制作者，任何需要的人。

Tomchuk的团队总部设在乌克兰，但在美国坦帕市也有执照。他们的网站上有一个服务条款页面，禁止机器人未经许可使用其图片。但仅仅这样做是没有用的。网站必须使用正确配置的robot.txt文件，并特别告诉OpenAI的机器人GPTBot离开网站（OpenAI的信息页面上还有几个其他机器人，如ChatGPT-User和OAI-SearchBot，它们有自己的标签）。

Robot.txt，又称为机器人排除协议，是用来告诉搜索引擎网站不要爬取其内容的。OpenAI在其信息页面上表示，配置了其特定的不爬取标签后会尊重这些文件，尽管它也警告说可能需要长达24小时才能识别更新的robot.txt文件。

正如Tomchuk所经历的那样，如果网站未正确使用robot.txt，OpenAI和其他公司会认为他们可以尽情爬取。这并不是一个自愿选择的系统。

更让人伤感的是，不仅Triplegangers在美国的工作时间被OpenAI的机器人挤下线，Tomchuk还预计由于机器人的CPU和下载活动，AWS账单会飙升。

Robot.txt也并非万无一失。AI公司是自愿遵守它的。另一家AI初创公司Perplexity在去年夏天被《连线》调查时曾因一些证据表明Perplexity并没有遵守而受到批评。

每个都是一个产品，带有多张图片的产品页面。经许可使用。图片来源：Triplegangers（在新窗口打开）

可以确定已被获取的内容

到周三，在经历了几天OpenAI的机器人返回后，Triplegangers已经设置了一个正确配置的robot.txt文件，并且创建了一个Cloudflare账户用来阻止它的GPTBot和另外几个他发现的机器人，如Barkrowler（一个SEO爬虫）和Bytespider（TokTok的爬虫）。Tomchuk还希望他已经阻止了其他AI模型公司的爬虫。他说，周四早上网站没有崩溃。

但Tomchuk仍然没有合理的方法来找出OpenAI成功获取了什么内容，或者删除那些内容。他没有找到联系OpenAI并询问的方式。OpenAI也没有回应TechCrunch的评论请求。正如TechCrunch最近报道的那样，OpenAI迄今未能提供其长期承诺的选择退出工具。

这对Triplegangers来说是一个特别棘手的问题。他说：“我们从事的业务中，权利是一个严肃的问题，因为我们扫描真实人的人体模型。”像欧洲的GDPR这样的法律，“他们不能仅仅拍摄任何人的照片并加以使用。”

对于AI爬虫来说，Triplegangers的网站也是一个特别棒的发现。像Scale AI这样价值数十亿美元的初创公司是通过人类费时标记图像来训练AI的。Triplegangers的网站包含有详细标记的照片：种族，年龄，纹身与疤痕，各种体型等等。

具有讽刺意味的是，OpenAI机器人的贪婪正是让Triplegangers意识到自己有多么容易暴露的原因。Tomchuk说，如果它爬取得更温和一些，他就永远不会知道。

“令人恐惧的是，这些公司似乎在利用一种漏洞通过说“只要你更新了我们的标签就可以选择退出”来爬取数据，”Tomchuk说，但这让业主不得不了解如何阻止他们。

Triplegangers的服务器日志展示了OpenAI机器人如何从数以百计的IP地址访问站点。经许可使用。

他希望其他小型网络公司知道，发现AI机器人正在获取网站版权内容的唯一方法是主动监视。他绝对不是唯一一个受到这种恐吓的人。其他网站的所有者最近告诉《商业内幕》说，OpenAI机器人崩溃了他们的网站，并导致了AWS账单飙升。

这个问题在2024年增长了几个量级。数字广告公司DoubleVerify的最新研究发现，AI爬虫导致2024年“一般无效流量”增加了86% - 也就是说，不是来自真实用户的流量。

尽管如此，Tomchuk警告说：“大多数网站仍然不知道它们被这些机器人爬取了。”“现在我们不得不每天监视日志活动来发现这些机器人。”

当你深思熟虑时，整个模式有点像黑手党讹诈：AI机器人会拿走他们想要的，除非你有保护措施。

“他们应该询问许可，而不仅仅是爬取数据，”Tomchuk说。

TechCrunch有一个关于人工智能的新闻简报！

在这里注册

每周三收到它。

极点视野

OpenAI的机器人如何“像DDoS攻击一样”摧毁了这家七人公司的网站

可以确定已被获取的内容

Recent Posts

AP Top 25额外观点：UNLV开局不利，但以校史首次入榜告终

美国联合航空公司将利用SpaceX的Starlink为飞机提供免费Wi-Fi

Composo帮助企业监测人工智能应用的工作情况

拉斐拉和杜兰第十局全垒打，红袜队反弹击败老虎队7-5

Wolcen: Lords of Mayhem将于九月停止多人游戏和开发支持