手捧GPT-5.4的奥特曼。图片由AI生成

文｜晓静

编辑｜徐青阳

北京时间3月6日凌晨，OpenAI正式发布新一代旗舰模型GPT-5.4，官方定位为"专为专业工作而设计的最强且最高效的前沿模型"。

比起“更强更快”的常规叙事，这次发布真正值得关注的是模型角色的转变：GPT-5.4是一个为Agent而生的模型。它首次将原生计算机操控能力融入通用模型，并同时整合了GPT-5.3-Codex级别的编程能力、百万Token上下文窗口和工具搜索机制——据官方介绍，没有为整合而牺牲任何单项能力。过去让AI操作电脑需要依赖专用的Computer Use Agent，现在编程、操控电脑、调用工具由同一个模型一并完成。

跑分印证了这一点：GDPval基准测试中，GPT-5.4在83%的任务上达到或超过行业专业人士水平；OSWorld桌面操控测试成功率75%，首次超过人类基线（72.4%）；编程能力与GPT-5.3-Codex持平，世界知识比GPT-5.2更强。

价格方面，GPT-5.4的API定价为输入$2.50/百万Token、输出$15，约为Claude Opus 4.6（$5/$25）的一半，且支持订阅额度调用。不过Pro版依然很贵——有网友仅发了一句"Hi"，GPT-5.4 Pro就认真推理了一番，直接烧掉80美元。日常轻量任务，标准版可能是更明智的选择。

在ChatGPT中，GPT-5.4以“GPT-5.4 Thinking”形式上线，逐步取代GPT-5.2 Thinking（后者将保留3个月，于2026年6月5日正式退役）。新增的前置思路概述功能让用户可以在模型执行过程中随时介入调整方向，网页版和Android已上线，iOS即将跟进。

如果用一句话概括GPT-5.4的意义，过去几年大模型的进化逻辑是"哪块短板补哪块"，GPT-5.4不再单点拔高，而是把所有能力整合进同一个模型做系统性优化。一个能写代码的模型是工具，一个能写代码、打开浏览器查文档、调用API验证结果、再把输出整理成报告的模型，是工作系统。GPT-5.4更接近后者。

01 在83%的任务中达到或超过行业专业人士水平

GPT‑5.4 与前代模型在多项专业能力基准测试中的表现对比

为了评估模型在真实工作环境中的表现，OpenAI使用GDPval基准测试，这项测试要求模型完成完整职业任务，而不仅仅是问答。GDPval覆盖美国GDP贡献最大的九个行业和四十四种职业场景，包括制作销售演示文稿、建立会计电子表格、安排医院急诊排班、绘制制造流程图或生成短视频内容。

GPT‑5.4 与前代模型在GDPval基准测试中的对比

在测试中，GPT‑5.4在83%的任务中达到或超过行业专业人士水平，而GPT‑5.2仅为70.9%。模拟初级投行分析师的电子表格建模测试中，GPT‑5.4平均得分87.3%，GPT‑5.2为68.4%。演示文稿生成任务中，人类评测者68%情况下更偏好GPT‑5.4的输出，理由是视觉设计更成熟、结构更清晰、图像使用更合理。

招聘平台Mercor在面向专业服务工作的APEX-Agents评测中也得出类似结论。CEO布伦丹·富迪（Brendan Foody）表示，GPT‑5.4在生成财务模型、法律分析和完整幻灯片等长期交付成果方面表现突出，同时运行速度更快，成本低于同级前沿模型。

OpenAI还推出了ChatGPT Excel插件，使企业用户能够在Excel中直接调用模型，实现AI与传统办公软件的无缝协作。

GPT‑5.4电子表格、演示文稿和文档创建及编辑能力的提升

OpenAI特别关注GPT‑5.4在电子表格、演示文稿和文档创建及编辑能力上的提升。在一项内部电子表格建模测试中，GPT‑5.4的平均得分达到87.3%，显著高于GPT‑5.2的68.4%。在演示文稿评估中，人类评测者在68%的情况下更偏好GPT‑5.4生成的内容，认为其视觉设计更成熟、结构更清晰、视觉变化更丰富，同时图像生成的运用也更为有效。

02 原生“操作”电脑

GPT‑5.4的最大亮点或许并非编程，而是计算机操控能力的原生整合。过去，模型要操作电脑通常需要专用的Computer Use Agent，而GPT‑5.4首次将这一能力直接融入通用模型。它不仅可以编写控制计算机的软件脚本，还能根据屏幕截图直接发出鼠标点击和键盘输入指令，从而完成跨应用程序的复杂操作。

GPT‑5.4与GPT‑5.2在OSWorld-Verified测试中的表现

在OSWorld-Verified测试中，GPT‑5.4通过截图识别桌面界面并执行键鼠操作的成功率达到75%，明显高于GPT‑5.2的47.3%，甚至略高于人类平均水平72.4%。在WebArena-Verified浏览器操控测试中，成功率为67.3%，高于GPT‑5.2的65.4%。仅通过截图理解网页结构的Online-Mind2Web测试中，成功率达到92.8%，远高于ChatGPT Atlas智能体模式的约70%。

房地产数据公司Mainstay对这一能力进行了大规模实测。覆盖约三万个HOA和房产税门户网站的测试中，GPT‑5.4首次尝试成功率95%，三次以内成功率100%，任务完成速度提升约三倍，Token消耗减少约70%。这意味着基于GPT‑5.4的自动化系统（如RPA）在可靠性和成本上可能发生根本性变化。

03 视觉理解与文档解析能力显著提升

GPT‑5.4与GPT‑5.2在MMMU-Pro和OmniDocBench测试中的表现

除了计算机操控能力，GPT‑5.4在视觉理解和文档解析方面也有进步。在内部 MMMU-Pro 测试中（无需外部工具辅助），GPT‑5.4的视觉理解准确率达到81.2%，高于GPT‑5.2的79.5%；在含工具辅助的测试中，GPT‑5.4进一步提升至82.1%，同样优于前代模型。

这表明模型不仅能操作电脑，还能更准确地识别屏幕信息和解析文档内容，为长周期、多步骤的办公任务提供支持。

在OmniDocBench文档解析测试中，GPT‑5.4的平均归一化编辑距离为0.11，低于GPT‑5.2的0.14，显示出更高的解析精度和生成文档的准确性。

这意味着GPT‑5.4在处理复杂文档内容时，能够更好地理解结构、保持信息完整，同时减少错误，为企业办公、数据分析和报告生成提供可靠支撑。

此外，OpenAI对高分辨率和高密度图像的处理能力也有所增强。从GPT‑5.4开始，模型支持“原始图像输入细节”模式，可处理总量最高达1024万像素或最大边长6000像素的全保真图像；“高细节”模式支持最高256万像素或最大边长2048像素。

这使得模型在目标定位、图像理解及点击精度方面表现更佳，同时提升了文档生成、演示文稿和图表的质量。

04 编程与工具生态进一步强化

GPT‑5.4与GPT‑5.3-Codex的编程能力对比图

在编程能力方面，GPT‑5.4与GPT‑5.3-Codex相当甚至略优，同时在延迟和Token效率上有显著提升。在SWE-Bench Pro测试中，GPT‑5.4得分57.7%，GPT‑5.3-Codex为56.8%，GPT‑5.2为55.6%。Codex中的/fast模式可将Token生成速度提升1.5倍，使开发者在迭代和调试过程中保持流畅工作节奏。

OpenAI还发布了实验性Codex技能Playwright（交互版），允许模型在构建Web应用时自动运行浏览器测试，对生成界面和功能进行可视化调试。

简单说，这个实验技能让 GPT-5.4 从“只会写代码”升级到“能自己打开浏览器玩自己写的游戏、发现问题再改代码”，特别适合生成像这种高度交互、视觉反馈强的 Web 小游戏或应用。

OpenAI展示了一个典型案例：GPT-5.4 仅凭一条简短提示词，就生成了一个完整的等距视角主题公园模拟游戏。游戏包含基于瓦片的路径铺设与景点建设系统，游客 AI 可自主寻路并排队，系统同时实时更新资金、游客数量、满意度和清洁度四项关键指标。

Playwright Interactive 在此过程中执行多轮自动化测试，验证路径铺设、摄像机导航、游客行为以及界面指标的准确性。从代码生成到测试验收，整个开发流程完全由模型独立完成。

博主Angel同样用GPT-5.4写了一个Minecraft克隆版，模型花了约24分钟，运行流畅，过程中没有卡住。他在推文里写道：“Minecraft 基本上被攻克了，我现在得找个新测试了。”

GPT-5.4在BrowseComp测试中的表现

此外，GPT‑5.4在网页搜索和信息整合能力上也有显著提升。在BrowseComp测试中（衡量 AI 代理持续浏览网页以寻找难以定位信息的能力），GPT‑5.4相比GPT‑5.2 提升了17%，而GPT‑5.4 Pro更是创下89.3%的新纪录。

这意味着模型在回答需要汇集多个来源信息的问题时表现更强，能够通过多轮搜索锁定最相关的资料，并将信息综合整理成清晰、逻辑严谨的回答。

工具调用方面，GPT‑5.4引入“工具搜索”机制。以往大量外部工具定义必须在每次请求时全量加载，占用大量Token并拖慢响应；新机制允许模型按需查询工具定义，显著减少Token开销。

GPT‑5.4总Token使用量降低

实测中，在启用36个MCP服务器情况下，总Token使用量降低47%，准确率保持不变。在Toolathlon测试中，GPT‑5.4取得54.6%，高于GPT‑5.2的45.7%。Zapier CEO韦德·福斯特（Wade Foster）指出，GPT‑5.4在多步骤工具调用任务中持续执行能力显著增强。

05 使用方式、价格与部署

GPT‑5.4已在ChatGPT、API和Codex平台上线。在ChatGPT中，GPT‑5.4 Thinking向Plus、Team和Pro用户开放，取代GPT‑5.2 Thinking；GPT‑5.4 Pro面向Pro和企业用户，适用于大型代码项目分析、跨系统自动化流程及长周期研究任务。

在API中，开发者可通过“gpt-5.4”和“gpt-5.4-pro”直接调用模型。Codex提供最高百万Token实验性上下文窗口，超过标准272K部分按两倍费率计入使用量。

定价方面，GPT‑5.4输入价格每百万Token 2.50美元，输出价格15美元，略高于GPT‑5.2的1.75美元和14美元；GPT‑5.4 Pro输入价格30美元，输出180美元。由于模型Token利用率提升，许多任务所需总Token数量下降，因此整体成本可能不会显著增加。

06 写在最后

GPT-4 75%的计算机操控成功率意味着四次里仍有一次失败。从“能用”到“能依赖”，GPT-5.4是重要节点，但不是终点。

真正的问题不是AI能不能干活，而是当它真正能接活的时候，你准备好把哪些活交出去了？

切换到网页版

一文读懂GPT-5.4 打个招呼80美元就烧完了

腾讯科技 2026-03-06 00:22:25