Tech Explorer Logo

搜索内容

重磅!OpenAI 发布全能推理模型 o3 与高效型 o4-mini

7 min read
Cover image for 重磅!OpenAI 发布全能推理模型 o3 与高效型 o4-mini

关键要点

OpenAI 于 2025 年 4 月 16 日发布了 o3o4-mini 模型,可能是目前最先进的推理模型,支持视觉推理和工具使用。

研究表明,o3 在编码、数学、科学和视觉任务中表现优异,o4-mini 则更适合快速、低成本的推理任务。

证据显示,这两个模型在安全性和性能上都有显著改进,包括减少重大错误和增强的安全拒绝提示。

模型功能与特性

OpenAI 的 o3o4-mini 模型旨在处理复杂问题,配备了如网络搜索、Python 分析和图像生成的工具。o3 特别擅长编码、数学、科学和视觉任务,而 o4-mini 则优化用于高容量任务,提供快速且经济的解决方案。这两个模型都能参考过去的对话,提供更个性化的交互体验。

例如,o3 在处理复杂查询时表现出色,而 o4-mini 因其效率而适合需要快速响应的场景。这些能力通过工具的使用得到了增强,例如通过网络搜索获取实时信息或通过 Python 分析进行数据处理。

性能改进

与之前的 o1 模型相比,o3 减少了 20% 的重大错误,尤其在编程、商业和创意构思方面表现出色。o4-mini 在非 STEM 任务和数据科学上超过了 o3-mini,并因其效率而具有更高的使用限制。这些改进使得模型在需要高准确度和效率的应用中更具吸引力。

此外,两个模型在指令遵循和对话自然性上也有显著提升,能够更好地理解用户意图并提供更自然的交互体验。例如,它们可以参考之前的对话内容,为用户提供更个性化的响应。

基准测试结果

为了评估这些新模型的性能,OpenAI 提供了多个基准测试的详细比较,涵盖数学、科学、编码和视觉推理等领域。以下是关键基准测试的结果:

模型AIME 2024AIME 2025Codeforces ELOGPQA DiamondMMMUMathVistaCharXiv-ReasoningSWE-BenchDeep Research
o174.379.2189178.077.671.855.148.98.12
o3-mini87.386.5207377.0---49.313.40
o3 (no tools)91.688.9270683.382.986.878.669.120.32/24.90*
o4-mini (no tools)93.492.7271981.481.684.372.068.114.28/17.70*

这些基准测试包括:

  • AIME:美国邀请数学考试,测试高级数学能力,o4-mini 在 2024 和 2025 年分别达到 93.4% 和 92.7% 的准确率。
  • GPQA:通用问题回答,专注于钻石级博士科学问题,o3 无工具得分 83.3%,o4-mini 无工具得分 81.4%。
  • MMMU:大学级视觉问题解决,o3o4-mini 分别得分 82.9% 和 81.6%。
  • MathVista:视觉数学推理,o3 得分 86.8%,o4-mini 得分 84.3%。
  • CharXiv-Reasoning:科学图形推理,o3 得分 78.6%,o4-mini 得分 72.0%。
  • SWE-Bench:验证的软件工程任务,o3 得分 69.1%,o4-mini 得分 68.1%。
  • Deep Research:跨学科专家级问题,工具使用下 o3 得分 24.9%,o4-mini 得分 17.7%,而 4o + 浏览得分 51.5%,o3 + Python + 浏览得分 49.7%。

这些结果显示,o3o4-mini 在多个领域表现优异,尤其是在工具使用的情况下。

成本与性能

o3 相较于 o1 提供了性能提升,而 o4-mini 相较于 o3-mini 更智能且成本更低,特别是在 AIMEGPQA 评估中。这使得它们在现实世界应用中更具吸引力,平衡了性能和成本。

安全措施

安全是 OpenAI 的首要任务。新模型包括针对生物风险、恶意软件和越狱的新拒绝提示,以防止生成有害或危险内容。推理 LLM 监控在人类红队测试中成功标记了约 99% 的危险对话。根据 OpenAI 的准备框架(更新我们的准备框架),这些模型在生物和化学风险、网络安全和 AI 自我改进类别中均低于”高”阈值。详细的安全结果可在系统卡中找到(o3o4-mini 系统卡)。

生物风险指防止模型生成与生物威胁相关的有害内容,恶意软件指防止生成恶意代码,越狱指防止模型被操纵执行非预期任务。这些措施通过重建安全训练数据和系统级缓解措施来实现,确保模型在最严格的安全测试中表现良好。

新功能

除了新模型,OpenAI 还推出了 Codex CLI,这是一个轻量级的终端编码代理,最大化利用 o3o4-mini 的推理能力,并计划支持即将推出的 GPT-4.1Codex CLI 支持通过截图或低保真草图进行多模态推理,并访问本地代码,是开发者的多功能工具。它完全开源,可在 GitHub 上找到(Codex CLI GitHub)。

此外,OpenAI 启动了一项 100 万美元的倡议,支持使用 Codex CLI 和 OpenAI 模型的项目。补助金以 25,000 美元的 API 信用增量形式提供,感兴趣的各方可通过表单提交提案(Codex 开源基金)。

访问与可用性

o3o4-mini 现已对 ChatGPT PlusProTeam 用户开放,取代了 o1o3-minio3-mini-high 模型。企业用户将在一周内获得访问,免费用户可通过作曲器中的”思考”功能体验 o4-mini。对于开发者,API 访问通过聊天完成和响应 API 提供,文档可在 OpenAI API 文档中找到。

Share

更多文章