OpenAI 推出了 GPT-5.3-Codex,这是一款专注于智能体式开发工作流程的 Codex 模型。该模型能够使用工具、操作计算机并完成端到端的长任务。OpenAI 表示,GPT-5.3-Codex 的运行速度比 Codex 用户提升了 25%,付费 ChatGPT 用户可通过 Codex 应用、命令行界面 (CLI)、集成开发环境 (IDE) 扩展和网页版使用该模型。待 API 安全启用后,OpenAI 还将提供 API 访问权限。
- 面向更长时间、使用工具的工作流程的智能体编码模型
- Codex用户的交互速度提升了25%(数据来自OpenAI)。
- 内部使用,用于帮助调试训练和支持部署(根据 OpenAI 的说法)
- 在编码和计算机使用基准测试中表现更佳(详情见下文)
- Codex应用程序中更具互动性的监督(频繁更新+“指导”)
- 首个被OpenAI根据其准备框架评定为“高能力”的网络安全任务OpenAI模型
什么是新的
Frontier 编码基准测试(SWE‑Bench Pro、Terminal‑Bench 2.0)
OpenAI 报告称,其产品在 SWE‑Bench Pro(一种多语言软件工程基准测试)上取得了最先进的性能,并且在 Terminal‑Bench 2.0(用于衡量编码代理所需的终端技能)上取得了显著进步。
更强的计算机使用性能(OSWorld 验证)
OpenAI 还强调了其模型在 OSWorld-Verified 测试中“计算机使用”性能的提升。OSWorld-Verified 是一项基准测试,要求模型在桌面环境下利用视觉完成任务。OpenAI 指出,人类在 OSWorld-Verified 测试中的得分约为 72%。
Codex应用程序中更多互动式监督
OpenAI 将 GPT-5.3-Codex 描述为在 Codex 应用中更具交互性,并在运行过程中提供更频繁的更新。用户无需等待最终答案,即可提出问题、讨论解决方案,并在任务进行过程中调整方向。
OpenAI 还指出,您可以在应用程序中启用转向功能。 设置 → 常规 → 后续行为 。
用于帮助自身进行训练和部署
公告中比较不寻常的细节之一是,OpenAI 表示 GPT-5.3-Codex 的早期版本帮助调试了自己的训练运行、支持部署、诊断评估结果,并协助执行操作任务,例如随着流量变化调整框架和扩展 GPU 集群。
网络安全态势和分阶段访问
OpenAI 表示,GPT-5.3-Codex 是其“网络安全准备框架”下首个被评为“高能力”的网络安全相关任务模型,并因此部署了额外的缓解措施和访问控制。与此同时,OpenAI 还宣布了一项名为“网络安全可信访问”的试点项目。
可用性和基础设施
OpenAI 表示,GPT-5.3-Codex 可通过付费的 ChatGPT 计划在任何 Codex 可用的地方(应用程序、CLI、IDE 扩展和网页)获得,并且一旦安全启用,API 访问权限也将随之推出。
OpenAI 还表示,GPT-5.3-Codex 是与 NVIDIA GB200 NVL72 系统共同设计、训练和部署的。
基准测试(OpenAI 附录)
OpenAI 在发布文章中提供了以下基准测试结果。下表摘自 OpenAI 的附录数据。
| 基准 | GPT-5.3-Codex | GPT-5.2-Codex | GPT-5.2 |
|---|---|---|---|
| SWE‑Bench Pro(公开版) | 56.8% | 56.4% | 55.6% |
| 终端台 2.0 | 77.3% | 64.0% | 62.2% |
| OSWorld 认证 | 64.7% | 38.2% | 37.9% |
| GDPval(胜或平) | 70.9% | – | 70.9%(高) |
| 网络安全夺旗赛 | 77.6% | 67.4% | 67.7% |
OpenAI指出,帖子中的评估是使用以下方式运行的: xhigh 推理努力。
升级说明
OpenAI 表示,GPT-5.3-Codex 现已在 ChatGPT 的 Codex 平台上线,并且“正在努力尽快安全地启用 API 访问”。如果您的工作流程依赖于 API 的可用性,请密切关注 OpenAI 的平台更新。
参考





