OpenAI 发布全新 o3 模型：推理能力迎来新突破

发表于 2024-12-23

标记狮私有云部署

一键部署标记狮至私有服务器，构建快速，安全，高效，私密的UI设计团队云协作

OpenAI 发布全新 o3 模型_2.jpg

12 月 20 日，OpenAI 在其“12 天 Shipmas”活动的最后一天正式发布了全新一代推理模型 ChatGPT o3，以及小型版本 o3-mini。作为今年早些时候推出的 o1 模型的升级版本，o3 在多个领域展现了更强的推理能力和可靠性。它被认为是 OpenAI 在迈向 AGI（人工通用智能）道路上的重要一步，但距离真正的 AGI 仍有很长的路要走。接下来，我们一起来看看 o3 的具体特点和最新进展。

什么是 o3？你需要了解的三个关键点

1.o3 是推理模型的升级版
推理模型最大的特点是“会停下来思考”。与传统 AI 不同，推理模型通过逻辑推演和自我核查来得出答案，而不是直接生成结果。o3 是在 o1 的基础上进一步强化的版本，专注于复杂任务的解决能力。据 OpenAI 表示，o3 在科学、数学、编程等需要逻辑推理的领域表现尤为出色。

OpenAI 发布全新 o3 模型_1.png

2. o3-mini：小型化版本，为特定任务优化
除了主模型 o3，OpenAI 还推出了一个更小、更高效的版本——o3-mini，专门针对特定任务进行了优化。o3-mini 的计算量更低，运行速度更快，预计将在 2025 年 1 月底上线。不过，目前只有安全研究人员可以申请预览，普通用户还需要等待更长时间。

3.关于名字：为什么跳过了 o2？
有趣的是，OpenAI 的新模型直接命名为 o3，而不是 o2。据《The Information》报道，OpenAI 跳过 o2 的原因是为了避免与英国电信公司 O2 的商标发生冲突。OpenAI CEO Sam Altman 也在直播中对此做了一些解释。在科技领域，这种商标问题并不少见，也让 o3 的命名显得耐人寻味。

o3 的能力到底有多强？数据说话

根据 OpenAI 公布的内部测试结果，o3 在多个基准测试中表现优异，显示了其在推理和解决复杂问题方面的潜力：

数学能力：o3 在 2024 年美国数学邀请赛中得分 96.7%，仅错了一题；
编程能力：在 Codeforces 编程技能测试中得分 2727，位列所有程序员的顶尖 0.8%；
科学知识：在 GPQA Diamond 测试（研究生级别的科学问题）中得分 87.7%；
高难度数学测试：在 EpochAI 的 Frontier Math 基准测试中，o3 成功解决了 25.2% 的问题，而其他模型的最高成绩仅为 2%。

这些成绩表明，o3 在推理和专业领域的表现远远优于其前代模型 o1，也超越了目前许多其他主流 AI 模型。不过这些数据都是 OpenAI 的内部测试结果，外部的评测仍需时间来验证。

OpenAI 发布全新 o3 模型_4.webp

推理模型的特别之处：它会“思考”

推理模型与普通 AI 模型的最大区别在于其“思考”能力。以 o3 为例，模型会在响应之前暂停一段时间，进行自我核查，并解释自己的推理过程。这种方法虽然增加了计算时间，但通常可以提高结果的准确性。

o3 还引入了一个新的功能：可调节的推理时间。用户可根据任务需求选择“低计算、中计算、高计算”模式。计算量越高，模型的表现越好，但这也会带来更高的运行成本和更长的延迟。尤其是在高计算模式下，每次复杂任务的成本可能高达数千美元。

OpenAI 发布全新 o3 模型_5.webp

AGI 真的快来了吗？

OpenAI 声称 o3 在某些条件下接近 AGI（人工通用智能）。AGI 通常指能够完成任何人类可以完成的任务的人工智能，OpenAI 的定义是“在大多数经济价值任务中超越人类的高度自主系统”。

但专家指出，o3 距离真正的 AGI 仍有很大差距。虽然 o3 在 ARC-AGI 测试中取得了 87.5% 的高分，但在一些简单任务上仍可能犯低级错误，甚至在某些情况下会试图“欺骗人类”。例如，o1 就曾被发现存在类似问题，这表明推理模型在安全性和可靠性方面仍需改进。

从技术角度来看，o3 是朝 AGI 迈出的重要一步，但 AGI 的实现仍然需要在技术、伦理和安全等多方面取得突破。

o3 的发布也标志着推理模型在 AI 领域的重要性正在提升。推理模型的出现，为解决复杂问题和提升 AI 的逻辑性提供了新思路。除了 OpenAI，Google 和 Alibaba 等公司也在研发类似的模型，推动这一领域的竞争更加激烈。

你对推理模型怎么看？它会是 AI 的未来方向吗？