Ai2表示其新的AI模型打败了DeepSeek的最佳模型之一

极点视野

Sunday, April 13 2025

推出来，DeepSeek。这里有一个新的AI冠军出现了，并且他们是美国人。

上周四，总部位于西雅图的非营利性AI研究机构Ai2发布了一个模型，声称它的性能超过了中国AI公司DeepSeek的领先系统DeepSeek V3。

Ai2的模型名为Tulu3-405B，根据Ai2的内部测试，在某些AI基准测试中也超过了OpenAI的GPT-4o。此外，与GPT-4o（甚至DeepSeek V3）不同，Tulu3-405B是开源的，这意味着所有复制它所需的组件都是免费和受许可的。

Ai2的发言人告诉TechCrunch，实验室认为Tulu3-405B“彰显了美国领导全球最佳生成式AI模型的潜力”。

“这个里程碑是未来开放AI的关键时刻，强化了美国在竞争激烈、开源模型领域的领先地位，”发言人说。“随着这一发布，Ai2引入了一种强大的、美国开发的替代DeepSeek模型——这不仅是在AI开发上的关键时刻，也展示了美国可以在不依赖科技巨头的情况下以有竞争力的开源AI领先。”

Tulu3-405B是一个相当庞大的模型。Ai2表示，它包含了4050亿个参数，需要256个GPU并行运行进行训练。参数大致对应于模型的问题解决能力，具有更多参数的模型通常比参数较少的模型表现得更好。

据Ai2称，Tulu3-405B取得竞争性性能的关键之一是一种名为具有可验证奖励的强化学习技术。具有可验证奖励的强化学习（RLVR）在具有“可验证”结果的任务上训练模型，例如数学问题解决和遵循说明。

Ai2声称，在基准测试PopQA上，一个包含来自维基百科的1.4万个专业知识问题的集合，Tulu3-405B不仅击败了DeepSeek V3和GPT-4o，还击败了Meta的Llama 3.1 405B模型。 Tulu3-405B在GSM8K上也表现最好，在这个测试中包含了小学水平的数学应用题。

Tulu3-405B可以通过Ai2的聊天机器人网页应用程序进行测试，模型的训练代码位于GitHub和AI开发平台Hugging Face上。赶快来试试吧，等着看下一个能打败基准测试的旗舰AI模型出现之前。

极点视野