
在最近的一次新闻发布会上,OpenAI CEO Sam Altman表示,他观察到AI的“智商”在过去几年里迅速提高。
“大致上,对我来说感觉像是-这并不是科学准确的,这只是一种感觉或灵性的回答-每年我们移动一个智商标准偏差,”Altman说。
Altman并不是第一个将智商,一个人的智力估计,作为衡量AI进展的标准的人。社交媒体上的AI影响者给模型进行智商测试并排名结果。
但许多专家表示,智商是模型能力的一个糟糕衡量标准-并且是误导性的。
“试图使用我们用于人类的相同测试来描述AI的能力或进展非常诱人,但这就像拿苹果和橙子比较,”牛津大学研究技术和监管的研究员Sandra Wachter告诉TechCrunch。
在新闻发布会上,Altman将智商等同于智力。然而,智商测试是相对而不是客观的某种智力的衡量指标。有一些共识认为,智商是对逻辑和抽象推理的一个合理测试。但它并不能衡量实际智力-知道如何让事情运转-在最好的情况下是一个快照。
“智商是一种工具,用于衡量人类的能力-一个备受争议的工具,更不用说还基于科学家们认为人类智力看起来像什么,”Wachter指出。“但你不能使用相同的衡量标准来描述AI的能力。汽车比人类更快,潜艇更擅长潜水。但这并不意味着汽车或潜艇超越了人类的智力。你正在将性能的一个方面与人类智力等同起来,而人类智力要复杂得多。”
要在智商测试中表现出色,一些历史学家将其源头追溯到优生学,这是一种广为人知的科学理论,认为通过选择性繁殖可以改善人类。当然,这种测试要求考生有强大的工作记忆和对西方文化规范的了解。一位心理学家称智商测试为“意识形态上腐败的智力机械模型”。
根据华盛顿大学伦理AI博士生Os Keyes的说法,一个模型在智商测试中表现良好更多反映了测试的缺陷,而不是模型的表现。
“[这些]测试如果你有几乎无限的记忆和耐心,就很容易被规避,”Keyes说。“智商测试是衡量认知、知性和智力的一种高度有限的方式,这是我们在计算机发明之前就已经知道的。”
对于智商测试,AI可能有不公平的优势,考虑到模型拥有大量的记忆和内化的知识。通常,模型被训练于公开网站数据,而网络中充满了从智商测试中提取的示例问题。
“测试往往重复非常相似的模式-一个提高智商的绝对可靠的方法是练习做智商测试,这本质上就是每个[模型]都做的事情,”伦敦国王学院专攻AI的研究员Mike Cook说。“当我学习时,我不会1百万次清晰地输入大脑,不像AI一样,我也不能没有噪音或信号丢失地处理它。”
最终,智商测试-尽管存在偏见-是为人类设计的,Cook补充说-旨在评估一般解决问题的能力。这对于一种以非常不同的方式解决问题的技术是不合适的。
“乌鸦可能能够使用工具从盒子中取出一块糖,但这并不意味着它能够入读哈佛大学,”Cook说。“当我解决数学问题时,我的大脑还必须同时处理准确阅读页面上的文字、不去想下班路上需要买什么东西,或者现在房间里是否太冷这样的问题。换句话说,人类大脑在解决问题时要处理更多的事情-任何问题,包括智商测试-并且比AI少得多。”
所有这些都指向了需要更好的AI测试的必要性,AI Now Institute首席AI科学家Heidy Khlaaf告诉TechCrunch。
“在计算的历史中,我们从来没有将计算能力与人类的计算能力直接进行比较,这是因为计算的性质意味着系统一直能够完成人类能力以外的任务,”Khlaaf说。“直接将系统的表现与人类能力进行比较这种想法是一个近期的现象,它备受争议,围绕着为评估AI系统而不断扩展和移动的基准的争议。”