OpenAI o1初印象:一个设计用于过度思考的人工智能

OpenAI在周四发布了其新的o1模型,让ChatGPT用户有机会尝试在回答之前“思考”的人工智能模型。人们一直对这些模型充满期待,OpenAI内部代号为“草莓”。但是草莓是否达到了期望?

部分达到了。

与GPT-4o相比,o1模型感觉是一步向前,两步向后。OpenAI o1在推理和回答复杂问题方面表现出色,但使用起来的成本大约是GPT-4o的四倍。OpenAI最新模型缺乏使GPT-4o如此令人印象深刻的工具、多模态能力和速度。事实上,OpenAI甚至承认在其帮助页面上,“GPT-4o仍然是大多数提示的最佳选择”,并在其他地方指出o1在简单任务上表现不佳。

“这令人印象深刻,但我认为改进并不十分显著,”研究人工智能模型的纽约大学教授Ravid Shwartz Ziv说道。“在某些问题上它效果更好,但并非整体提升。”

基于这些原因,重要的是只在o1真正设计帮助的问题上使用它:大问题。明确地,大多数人现在并不使用生成式人工智能来回答此类问题,主要是因为今天的人工智能模型在这方面表现不佳。然而,o1是朝着这个方向迈出的一小步。

思考大问题

OpenAI o1之所以独特,是因为在回答之前“思考”,将大问题分解为小步骤,试图确定何时做对或做错。这种“多步推理”并非全新(研究人员多年来一直提出这一概念,并且You.com将其用于复杂查询),但直到最近才变得实用。

“人工智能社区对此非常兴奋,”Workera首席执行官、斯坦福大学兼职讲师Kian Katanforoosh在接受采访时表示。“如果您可以训练强化学习算法与OpenAI具有的一些语言模型技术配对,您可以从您试图解决的大问题开始逐步推理,并允许人工智能模型从大思想中向后走。”

OpenAI o1也是价格昂贵的。在大多数模型中,您支付输入标记和输出标记。然而,o1增加了一个隐藏的过程(模型将大问题拆分为小步骤),这会增加大量计算,您永远无法完全看到。为了保持竞争优势,OpenAI隐藏了这个过程的一些细节。尽管如此,您仍然需要支付这些费用,以“推理标记”的形式。这进一步强调了为什么您需要谨慎使用OpenAI o1,以免因询问内华达州的首府而被收取大量标记。

然而,将“从大思想中向后走”的人工智能模型的概念是强大的。在实践中,该模型在这方面表现得相当不错。

举例来说,我要求ChatGPT o1预览帮助我家计划感恩节,这是一个可能受益于一些不带偏见的逻辑和思维的任务。具体而言,我想知道两个烤箱是否足以为11人制作感恩节晚餐,并想讨论我们是否应该考虑租用Airbnb以获得第三个烤箱。

在“思考”了12秒后,ChatGPT为我写了一个超过750字的回复,最终告诉我两个烤箱应该足够,只需进行一些周密的策略规划,就能让我的家人省钱并花更多时间在一起。但它在每一步解决过程中将思维拆分给我,并解释了它如何考虑了所有外部因素,包括成本、家庭时间和烤箱管理。

ChatGPT o1预览告诉我如何优先考虑活动举办地的烤箱空间,这很聪明。奇怪的是,它建议我考虑在当天租用可移动烤箱。也就是说,该模型比GPT-4o表现得更好,后者需要提出多个跟进问题,询问我带的确切菜肴,然后给出我认为不太有用的简单建议。

询问感恩节晚餐可能看起来很傻,但您可以看到这个工具如何帮助分解复杂任务。

我还询问o1帮助我规划一天的繁忙工作,我需要在机场、多个不同地点的亲自会议和我的办公室之间旅行。它给了我一个非常详细的计划,但也许有点过了。有时,所有额外的步骤可能会让人感到有些不知所措。

对于一个更简单的问题,o1做得太多了——它不知道何时停止过度思考。我询问美国哪里可以找到雪松树,它给出了一个800字以上的回复,概述了该国各种雪松树的变种,包括它们的学名。甚至不得不在某个时候咨询OpenAI的政策。而GPT-4o则更好地回答了这个问题,大约提供了三句话,解释您可以在全国各地找到这些树。

调整期望

从某种意义上说,草莓永远不可能达到期望。有关OpenAI推理模型的报道可以追溯到2023年11月,正好是所有人都在寻找OpenAI董事会为何罢免Sam Altman的答案的时间。这在人工智能领域引发了谣言,有些人猜测草莓是OpenAI渴望最终创建的AGI的一种形式,即AI的启蒙版本。

Altman确认o1不是AGI,以消除任何疑虑,尽管使用过之后您就不会感到困惑。首席执行官还削减了对这次发布的期望,发推文称“o1仍然有缺陷,仍然有限,它在初次使用时似乎比您花更多时间与它相处时令人印象深刻得多。”

人工智能世界的其他人正在接受一个比预期更不激动人心的发布。

“狂热有些脱离OpenAI的控制,”与使用OpenAI模型构建网络爬虫的人工智能初创公司ReWorkd的研究工程师Rohan Pandey说道。

他希望o1的推理能力足以解决GPT-4无法解决的一组复杂问题。这很可能是行业中大多数人看待o1的方式,但并不像GPT-4对行业具有革命性意义。

“每个人都在期待能力的一个突变,目前仍然不清楚这是否代表了那一步。我认为问题就是这么简单,”Brightwave首席执行官Mike Conover在采访中说道,他之前共同创建了Databricks的人工智能模型Dolly。

价值何在?

用于创建o1的基础原则可以追溯多年前。Google在2016年使用类似的技术创建了AlphaGo,第一个击败围棋世界冠军的人工智能系统,谷歌前员工、风险投资公司S32的首席执行官Andy Harrison指出。AlphaGo通过不断与自己对弈来训练,基本上是自我教学,直到达到超人类能力。

他指出,这引发了人工智能领域长期以来的辩论。

“第一阵营认为您可以通过这种代理过程自动化工作流程。第二阵营认为,如果您拥有普遍的智能和推理能力,您将不需要工作流程,就像人类一样,人工智能将仅做出判断,”Harrison在采访中说道。

Harrison表示自己属于第一阵营,而第二阵营需要您信任人工智能能够做出正确的决定。他认为我们还没有达到那一步。

然而,其他人则认为o1不是一个决策制定者,而更像是一个在重要决策上质疑您思路的工具。

Workera首席执行官Katanforoosh描述了一个例子,他将会面试一个数据科学家来加入他的公司。他告诉OpenAI o1他只有30分钟,想要评估一定数量的技能。他可以与人工智能模型一起向后推理,了解他是否正确思考,并且o1会理解时间限制等因素。

问题是,这种有用的工具是否值得高昂的价格。随着人工智能模型的价格继续降低,o1是很长一段时间以来我们见过的第一个价格更高的人工智能模型之一。