Tinkerwell - PHP 草图板

OpenAI 发布 GPT-5.3-Codex,一种用于代理式开发的新型 Codex 模型

发布日期 经过

OpenAI 发布 GPT-5.3-Codex,一种用于代理式开发图像的新型 Codex 模型

OpenAI 推出了 GPT-5.3-Codex,这是一款专注于智能体式开发工作流程的 Codex 模型。该模型能够使用工具、操作计算机并完成端到端的长任务。OpenAI 表示,GPT-5.3-Codex 的运行速度比 Codex 用户提升了 25%,付费 ChatGPT 用户可通过 Codex 应用、命令行界面 (CLI)、集成开发环境 (IDE) 扩展和网页版使用该模型。待 API 安全启用后,OpenAI 还将提供 API 访问权限。

  • 面向更长时间、使用工具的工作流程的智能体编码模型
  • Codex用户的交互速度提升了25%(数据来自OpenAI)。
  • 内部使用,用于帮助调试训练和支持部署(根据 OpenAI 的说法)
  • 在编码和计算机使用基准测试中表现更佳(详情见下文)
  • Codex应用程序中更具互动性的监督(频繁更新+“指导”)
  • 首个被OpenAI根据其准备框架评定为“高能力”的网络安全任务OpenAI模型

什么是新的

Frontier 编码基准测试(SWE‑Bench Pro、Terminal‑Bench 2.0)

OpenAI 报告称,其产品在 SWE‑Bench Pro(一种多语言软件工程基准测试)上取得了最先进的性能,并且在 Terminal‑Bench 2.0(用于衡量编码代理所需的终端技能)上取得了显著进步。

更强的计算机使用性能(OSWorld 验证)

OpenAI 还强调了其模型在 OSWorld-Verified 测试中“计算机使用”性能的提升。OSWorld-Verified 是一项基准测试,要求模型在桌面环境下利用视觉完成任务。OpenAI 指出,人类在 OSWorld-Verified 测试中的得分约为 72%。

Codex应用程序中更多互动式监督

OpenAI 将 GPT-5.3-Codex 描述为在 Codex 应用中更具交互性,并在运行过程中提供更频繁的更新。用户无需等待最终答案,即可提出问题、讨论解决方案,并在任务进行过程中调整方向。

OpenAI 还指出,您可以在应用程序中启用转向功能。 设置 → 常规 → 后续行为

用于帮助自身进行训练和部署

公告中比较不寻常的细节之一是,OpenAI 表示 GPT-5.3-Codex 的早期版本帮助调试了自己的训练运行、支持部署、诊断评估结果,并协助执行操作任务,例如随着流量变化调整框架和扩展 GPU 集群。

网络安全态势和分阶段访问

OpenAI 表示,GPT-5.3-Codex 是其“网络安全准备框架”下首个被评为“高能力”的网络安全相关任务模型,并因此部署了额外的缓解措施和访问控制。与此同时,OpenAI 还宣布了一项名为“网络安全可信访问”的试点项目。

可用性和基础设施

OpenAI 表示,GPT-5.3-Codex 可通过付费的 ChatGPT 计划在任何 Codex 可用的地方(应用程序、CLI、IDE 扩展和网页)获得,并且一旦安全启用,API 访问权限也将随之推出。

OpenAI 还表示,GPT-5.3-Codex 是与 NVIDIA GB200 NVL72 系统共同设计、训练和部署的。

基准测试(OpenAI 附录)

OpenAI 在发布文章中提供了以下基准测试结果。下表摘自 OpenAI 的附录数据。

基准 GPT-5.3-Codex GPT-5.2-Codex GPT-5.2
SWE‑Bench Pro(公开版) 56.8% 56.4% 55.6%
终端台 2.0 77.3% 64.0% 62.2%
OSWorld 认证 64.7% 38.2% 37.9%
GDPval(胜或平) 70.9% 70.9%(高)
网络安全夺旗赛 77.6% 67.4% 67.7%

OpenAI指出,帖子中的评估是使用以下方式运行的: xhigh 推理努力。

升级说明

OpenAI 表示,GPT-5.3-Codex 现已在 ChatGPT 的 Codex 平台上线,并且“正在努力尽快安全地启用 API 访问”。如果您的工作流程依赖于 API 的可用性,请密切关注 OpenAI 的平台更新。

参考

保罗·雷德蒙德照片

Laravel News 特约撰稿人。全栈 Web 开发人员兼作家。

归档于:
立方体

Laravel 时事通讯

加入超过 4 万名开发者的行列,不错过任何新的技巧、教程等内容。

图像
Jump24 - 英国 Laravel 代理机构

Laravel 开发人员,精通技术,绝不外包,绝不离岸外包,始终卓越。

访问 Jump24 - 英国 Laravel 代理机构
银行标志

银行

只需每月 3200 美元,即可聘请一位拥有 4-6 年经验的资深 Laravel 开发人员,为您的项目注入强劲动力。您将获得 160 小时的专属专业服务,并享受 15 天无风险试用。立即预约通话!

银行
Tinkerwell 徽标

廷克威尔

Laravel 开发者必备的代码运行器。可在本地和生产环境中体验 AI、自动补全和即时反馈功能。

廷克威尔
几天内即可获得 Laravel 代码审查徽标的专家指导

几天内即可获得 Laravel 代码审查方面的专家指导

专家级代码审查!两位拥有 10 年以上 Laravel 开发经验的开发者将为您提供清晰、实用的反馈,帮助团队构建更优质的应用程序。

几天内即可获得 Laravel 代码审查方面的专家指导
PhpStorm 标志

PhpStorm

首选的 PHP IDE,对 Laravel 及其生态系统提供广泛的开箱即用支持。

PhpStorm
Laravel Cloud 标志

Laravel 云

轻松创建和管理服务器,并在几秒钟内部署 Laravel 应用程序。

Laravel 云
Kirschbaum 标志

樱桃树

提供创新和稳定性,确保您的Web应用程序取得成功。

樱桃树
Shift 标志

转移

还在运行旧版本的 Laravel?立即实现 Laravel 自动升级和代码现代化,让您的应用程序保持最新状态。

转移
鱼叉:新一代时间跟踪和发票标志

Harpoon:新一代时间跟踪和发票系统

新一代时间跟踪和计费软件,帮助您的机构规划和预测盈利的未来。

Harpoon:新一代时间跟踪和发票系统
Lucky Media 标志

幸运传媒

Get Lucky Now——拥有十余年经验的 Laravel 开发理想之选!

幸运传媒
SaaSykit:Laravel SaaS 入门套件徽标

SaaSykit:Laravel SaaS 入门套件

SaaSykit 是一个多租户 Laravel SaaS 入门套件,包含运行现代 SaaS 所需的所有功能,例如支付、美观的结账界面、管理面板、用户仪表盘、身份验证、现成组件、统计数据、博客、文档等等。

SaaSykit:Laravel SaaS 入门套件
Filament v5.2.0 新增标注组件图像

Filament v5.2.0 新增标注组件

阅读文章
OpenAI 发布 GPT-5.3-Codex,一种用于代理式开发图像的新型 Codex 模型

OpenAI 发布 GPT-5.3-Codex,一种用于代理式开发的新型 Codex 模型

阅读文章
Claude Opus 4.6 新增了自适应思维、128K 输出、压缩 API 以及更多图像处理功能。

Claude Opus 4.6 新增了自适应思维、128K 输出、压缩 API 等功能。

阅读文章
Laravel 发布官方 AI SDK,用于构建 AI 应用

Laravel 发布官方 AI SDK,用于构建 AI 应用

阅读文章
Laravel 12.50.0 中的 `hasMany()` 集合方法(图片)

Laravel 12.50.0 中的 `hasMany()` 集合方法

阅读文章
在 Laravel 图片检索中屏蔽敏感的 Eloquent 属性

在 Laravel 中检索时屏蔽 Eloquent 的敏感属性

阅读文章