AI先驱荣获强化学习工作图灵奖

两位开创性的计算机科学家因其在强化学习领域的工作而荣获2024年图灵奖。强化学习是一种让机器通过基于奖励的试错方法学习,使它们能够适应受限或动态环境的学科。

美国马萨诸塞州立大学荣誉退休教授安德鲁·G·巴托(Andrew G. Barto)和加拿大艾伯塔大学教授理查德·S·萨顿(Richard S. Sutton)在1980年代开始一系列重要的论文中开发了关键算法和理论。其中包括一种叫做时序差异学习的强化技术;这对组合后来出版了一本学术教科书《强化学习:导论》。

备受尊敬的数学家阿兰·图灵(如上图所示)是图灵奖的名字来源,他在上世纪50年代出版了一篇名为《计算机与智能》的论文,质疑了计算机是否可以思考,并触及了学习经验的类似概念。

近年来,随着谷歌Deepmind使用强化学习技术打造了击败世界顶尖AlphaGo选手的人工智能,强化学习受到了更多关注。在过去几个月里,中国人工智能初创公司DeepSeek凭借依赖强化学习创建更具成本效益的基础模型的R1推理模型成为新闻头条。

安德鲁·G·巴托和理查德·S·萨顶图片来源:ACM

'计算机的诺贝尔奖'

图灵奖由计算机协会(ACM)管理,通常被称为“计算机的诺贝尔奖”。但是,诺贝尔奖本身已经开始进入计算领域,特别是涉及到人工智能。去年,杰弗·辛顿和约翰·霍普菲尔德因其在基础人工智能领域的工作而获得诺贝尔物理学奖。此后不久,DeepMind的迪米斯·哈萨比斯和约翰·贾姆珀因其在AlphaFold上的工作而获得诺贝尔化学奖。

ACM主席雅尼斯·伊奥安尼迪斯在新闻稿中表示:“从认知科学和心理学到神经科学,各种研究领域都启发了强化学习的发展,这奠定了人工智能领域最重要的进展之一,并为我们提供了更深入了解大脑运作的见解。”伊奥安尼迪斯表示:“巴托和萨顿的工作不仅仅是我们已经超越的一块垫脚石。强化学习继续发展,并为计算和其他许多学科的进一步进展提供了巨大潜力。我们很荣幸用我们领域中最负盛名的奖项对他们进行表彰。”

其他获得图灵奖的知名人工智能先驱包括Meta首席人工智能科学家杨·勒昆(Yann LeCun),他与杰弗·辛顿和约书亚·本杰哲(Yoshua Bengio)共同获得了2018年的奖项,以表彰他们在深度神经网络方面的工作。

巴托和萨顿将分享100万美元的奖金,这是由谷歌提供支持的。