12 月 20 日,OpenAI 在其“12 天 Shipmas”活动的最后一天正式发布了全新一代推理模型 ChatGPT o3,以及小型版本 o3-mini。作为今年早些时候推出的 o1 模型的升级版本,o3 在多个领域展现了更强的推理能力和可靠性。它被认为是 OpenAI 在迈向 AGI(人工通用智能)道路上的重要一步,但距离真正的 AGI 仍有很长的路要走。接下来,我们一起来看看 o3 的具体特点和最新进展。
什么是 o3?你需要了解的三个关键点
1.o3 是推理模型的升级版
推理模型最大的特点是“会停下来思考”。与传统 AI 不同,推理模型通过逻辑推演和自我核查来得出答案,而不是直接生成结果。o3 是在 o1 的基础上进一步强化的版本,专注于复杂任务的解决能力。据 OpenAI 表示,o3 在科学、数学、编程等需要逻辑推理的领域表现尤为出色。
2. o3-mini:小型化版本,为特定任务优化
除了主模型 o3,OpenAI 还推出了一个更小、更高效的版本——o3-mini,专门针对特定任务进行了优化。o3-mini 的计算量更低,运行速度更快,预计将在 2025 年 1 月底上线。不过,目前只有安全研究人员可以申请预览,普通用户还需要等待更长时间。
3.关于名字:为什么跳过了 o2?
有趣的是,OpenAI 的新模型直接命名为 o3,而不是 o2。据《The Information》报道,OpenAI 跳过 o2 的原因是为了避免与英国电信公司 O2 的商标发生冲突。OpenAI CEO Sam Altman 也在直播中对此做了一些解释。在科技领域,这种商标问题并不少见,也让 o3 的命名显得耐人寻味。
o3 的能力到底有多强?数据说话
根据 OpenAI 公布的内部测试结果,o3 在多个基准测试中表现优异,显示了其在推理和解决复杂问题方面的潜力:
数学能力:o3 在 2024 年美国数学邀请赛中得分 96.7%,仅错了一题;
编程能力:在 Codeforces 编程技能测试中得分 2727,位列所有程序员的顶尖 0.8%;
科学知识:在 GPQA Diamond 测试(研究生级别的科学问题)中得分 87.7%;
高难度数学测试:在 EpochAI 的 Frontier Math 基准测试中,o3 成功解决了 25.2% 的问题,而其他模型的最高成绩仅为 2%。
这些成绩表明,o3 在推理和专业领域的表现远远优于其前代模型 o1,也超越了目前许多其他主流 AI 模型。不过这些数据都是 OpenAI 的内部测试结果,外部的评测仍需时间来验证。
推理模型的特别之处:它会“思考”
推理模型与普通 AI 模型的最大区别在于其“思考”能力。以 o3 为例,模型会在响应之前暂停一段时间,进行自我核查,并解释自己的推理过程。这种方法虽然增加了计算时间,但通常可以提高结果的准确性。
o3 还引入了一个新的功能:可调节的推理时间。用户可根据任务需求选择“低计算、中计算、高计算”模式。计算量越高,模型的表现越好,但这也会带来更高的运行成本和更长的延迟。尤其是在高计算模式下,每次复杂任务的成本可能高达数千美元。
AGI 真的快来了吗?
OpenAI 声称 o3 在某些条件下接近 AGI(人工通用智能)。AGI 通常指能够完成任何人类可以完成的任务的人工智能,OpenAI 的定义是“在大多数经济价值任务中超越人类的高度自主系统”。
但专家指出,o3 距离真正的 AGI 仍有很大差距。虽然 o3 在 ARC-AGI 测试中取得了 87.5% 的高分,但在一些简单任务上仍可能犯低级错误,甚至在某些情况下会试图“欺骗人类”。例如,o1 就曾被发现存在类似问题,这表明推理模型在安全性和可靠性方面仍需改进。
从技术角度来看,o3 是朝 AGI 迈出的重要一步,但 AGI 的实现仍然需要在技术、伦理和安全等多方面取得突破。
o3 的发布也标志着推理模型在 AI 领域的重要性正在提升。推理模型的出现,为解决复杂问题和提升 AI 的逻辑性提供了新思路。除了 OpenAI,Google 和 Alibaba 等公司也在研发类似的模型,推动这一领域的竞争更加激烈。
你对推理模型怎么看?它会是 AI 的未来方向吗?