2024年爆红的奇怪人工智能基准:威尔·史密斯吃意大利面和其他事项

当一家公司发布新的人工智能视频生成器时,很快就会有人用它制作一个演员威尔·史密斯吃意大利面的视频。

这已经成为一种梗,同时也是一个基准:看看一个新的视频生成器是否能真实地呈现史密斯吃面的情景。史密斯本人在二月份的Instagram帖子中也模仿了这一趋势。

谷歌Veo 2做到了。

我们终于吃面了。

— Jerrod Lew (@jerrod_lew) December 17, 2024

威尔·史密斯和意大利面只是2024年人工智能社区中几个奇怪的“非官方”基准之一。一个16岁的开发者开发了一个可以让人工智能控制“我的世界”并测试其设计结构能力的应用程序。在其他地方,一位英国程序员创建了一个平台,让人工智能互相玩象棋和四子棋等游戏。

并不是没有更多学术测试人工智能性能的测试。那么为什么奇怪的测试项目会火起来呢?

首先,许多行业标准的人工智能基准对普通人来说并没有太多意义。公司通常会引用他们的人工智能在数学奥林匹克考试上回答问题的能力,或者解决博士级别的问题。然而,大多数人——包括我自己——使用聊天机器人来回复邮件和进行基本研究。

众包行业指标并不一定更好或更具信息性。

例如,Chatbot Arena是一个许多人工智能爱好者和开发者痴迷的公开基准。Chatbot Arena让网络上的任何人评价人工智能在特定任务上的表现,比如创建一个Web应用程序或生成图像。但是评级者往往不具代表性——大多数来自人工智能和科技行业圈子——并且根据个人难以界定的偏好进行投票。

Ethan Mollick是沃顿管理学院的一位教授,最近在X平台上发表了一篇关于许多人工智能行业基准的帖子,他指出它们没有将系统的表现与普通人的表现进行比较。

“事实上,在医学、法律、建议质量等方面,没有来自不同组织的30个不同基准确实令人遗憾,因为人们正在使用这些系统,不管怎样,”Mollick写道。

Connect 4、我的世界、威尔·史密斯吃面等奇怪的人工智能基准绝对不是经验主义的,甚至不具有太多的普适性。仅仅因为一个人工智能通过了威尔·史密斯的测试,并不意味着它能很好地生成汉堡。

我与一位关于人工智能基准的专家交谈时,他建议人工智能社区关注人工智能的下游影响,而不是其在狭窄领域的能力。这是明智的。但我有一种感觉,奇怪的基准不会很快消失。它们不仅有趣——谁不喜欢看人工智能建立“我的世界“城堡呢?—而且易于理解。正如我的同事Max Zeff最近所写的,该行业继续努力将一项如人工智能这样复杂的技术浓缩为易于理解的营销。

在我心中唯一的问题是,奇怪的新基准在2025年将会如何走红?

TechCrunch有一个以人工智能为重点的新闻简报!点此在这里注册,每周三将其发送到您的收件箱。