DeepMind声称其人工智能比国际数学奥林匹克金牌得主表现更优秀

谷歌DeepMind研究实验室开发的人工智能系统似乎在解决国际数学竞赛中的几何问题方面超越了普通的金牌得主。

该系统名为AlphaGeometry2,是DeepMind去年发布的软件AlphaGeometry的改进版。在一份新发布的研究中,开发AlphaGeometry2的DeepMind研究人员声称他们的人工智能可以解决过去25年国际数学奥林匹克竞赛(IMO)中84%的所有几何问题,这是一项面向高中生的数学比赛。

DeepMind为什么关心一个高中水平的数学竞赛呢?实验室认为发现解决具有挑战性的几何问题的新方法可能是未来更强大的人工智能的关键——具体来说是欧几里得几何问题。

证明数学定理,或者逻辑地解释一个定理(比如毕达哥拉斯定理)为什么成立,需要推理和选择从众多可能的解决步骤中选择。如果DeepMind是正确的话,这些解决问题的能力可能成为未来通用人工智能模型的一个有用组成部分。

事实上,今年夏天,DeepMind展示了一项将AlphaGeometry2和AlphaProof(一种用于形式数学推理的人工智能模型)相结合的系统,成功解决了2024年IMO中的六个问题中的四个。除了几何问题,这样的方法还可以推广到数学和科学的其他领域——例如,帮助进行复杂的工程计算。

AlphaGeometry2有几个核心元素,包括来自谷歌Gemini系列人工智能模型的语言模型和一个“符号引擎”。Gemini模型帮助符号引擎,后者利用数学规则推断问题的解决方案,得出给定几何定理的可行证明。

国际数学奥林匹克考试中的典型几何问题示意图。图片来源:Google(在新窗口中打开)

奥林匹克数学几何问题是基于需要增加“构造”才能解决的图表,如点、线或圆。AlphaGeometry2的Gemini模型预测对图表进行哪些增加的构造可能是有用的,并引擎参考来进行推断。

基本上,AlphaGeometry2的Gemini模型以形式化的数学语言建议引擎的步骤和构造,引擎按照特定规则检查这些步骤的逻辑一致性。一个搜索算法允许AlphaGeometry2并行进行多次解决方案搜索,并将可能有用的发现存储在一个共同的知识库中。

AlphaGeometry2认为一个问题“已解决”当它得出一个将Gemini模型的建议与符号引擎的已知原则相结合的证明。

由于将证明转换为人工智能可以理解的格式的复杂性,缺乏可用的几何训练数据。因此DeepMind创建了自己的全合成数据来训练AlphaGeometry2的语言模型,生成了超过3亿个不同复杂程度的定理和证明。

DeepMind团队从过去25年(从2000年到2024年)IMO竞赛中挑选了45个几何问题,包括线性方程和需要在平面上移动几何对象的方程。然后,他们将这些问题“翻译”成一个较大的50个问题集合(由于技术原因,有些问题必须分成两个)。根据论文,AlphaGeometry2解决了50个问题中的42个,高于金牌得主的平均40.9分。

当然,也存在一些限制。技术上的一个怪现象阻止了AlphaGeometry2解决具有变量数量的点、非线性方程和不等式的问题。而且AlphaGeometry2不是第一个达到几何金牌水平表现的人工智能系统,尽管它是第一个在这么大规模的问题集中实现这种表现的。

AlphaGeometry2在另一组更难的IMO问题上表现更差。为了增加挑战,DeepMind团队选择了由数学专家提名的,但尚未出现在竞赛中的问题(总共29个)。AlphaGeometry2只能解决其中的20个。

尽管争议未断,此研究结果可能进一步推动关于人工智能系统应该构建在符号操作——即使用规则表示知识的符号操作,或者更像大脑的神经网络的争论。

AlphaGeometry2采用了混合方法:其Gemini模型具有神经网络架构,而其符号引擎是基于规则的。

神经网络技术的支持者认为智能行为,从语音识别到图像生成,可以仅仅通过海量数据和计算而产生。与解决任务的符号系统相对立,后者通过定义专门用于特定作业的符号操作规则集来解决任务,如编辑文字处理软件中的一行,神经网络试图通过统计逼近和从示例中学习来解决任务。

开放智能(OpenAI)的o1“推理”模型等功能强大的人工智能系统的基石是神经网络。但是,符号人工智能的支持者主张,神经网络并非无所不能;符号人工智能也许更能有效地编码世界的知识,通过复杂情况进行推理,以及“解释”自己是如何得出答案的。

卡内基梅隆大学计算机科学教授、专门研究人工智能的文斯·康尼策(Vince Conitzer)告诉TechCrunch:“看到这些基准测试保持持续、惊人的进步,并与此同时,包括具有‘推理’的更近期的语言模型,继续在某些简单的常识问题上挣扎,这种对比非常令人震惊。我不认为这全是烟雾弹,但这说明我们仍然不真正知道下一个系统会产生哪种行为。这些系统可能会产生非常大的影响,因此我们迫切需要更好地了解它们及其带来的风险。”

AlphaGeometry2也许展示了符号操作和神经网络两种方法的结合是寻找通用人工智能的一个有希望的途径。实际上,根据DeepMind的论文,o1也具有神经网络架构,但不能解决AlphaGeometry2能够回答的任何IMO问题。

这种情况不一定会永远存在。在论文中,DeepMind团队表示,发现了AlphaGeometry2的语言模型有能力在没有符号引擎的情况下生成问题的部分解决方案的初步证据。

“[结果]支持了大型语言模型可以独立自主地生成解决方案,而无需依赖外部工具(如符号引擎)的想法,”DeepMind团队在论文中写道,“但直到[模型]的速度提高并且幻觉完全消除,这些工具对于数学应用仍然是不可或缺的。”