GPT-5.4 深夜重磅上线!原生操控电脑 + 编程超 Opus 4.6,100 万 token 上下文成最大杀器

2026 年 3 月 6 日凌晨,OpenAI 正式推出 GPT-5.4 系列模型,实现 ChatGPT、API、Codex 全平台同步上线。这款 OpenAI 首款具备原生先进计算机使用能力的通用大模型,在编程、电脑操控、知识工作、工具调用等核心任务上全面碾压 GPT-5.2、Claude Opus 4.6、Gemini 3.1 Pro 等竞品,甚至在电脑操控测试中超越人类水平,被开发者直呼 “编程能力离谱到近乎完美”。与此同时,GPT-5.4 也创下 OpenAI 模型定价新高,标准版输入单价较 GPT-5.2 涨幅超 40%,超高的使用成本也引发了开发者的争议。

01 核心升级:原生电脑操控 + 100 万 token 上下文,思考过程可实时引导

GPT-5.4 的核心突破在于填补了大模型从 “理解” 到 “实操” 的能力鸿沟,同时刷新了上下文窗口与交互体验的上限,成为 OpenAI 迄今功能最全面的通用模型,核心亮点集中在三大维度:

原生计算机操作能力,实操超人类水平

作为 OpenAI 首款具备原生电脑操控能力的通用模型,GPT-5.4 可通过 Playwright 等库编写操控代码,也能根据截图下达精准的鼠标、键盘指令,轻松完成跨应用复杂工作流 —— 发送邮件、创建日历、编辑表格 / PPT、调试网页应用等场景均可自主实现,开发者还能自定义安全策略与行为逻辑,适配不同风险容忍等级。

在桌面环境操作测试 OSWorld-Verified 中,其成功率达75.0%,不仅远超 GPT-5.2 的 47.3%,更超越了人类 72.4% 的平均水平;浏览器操作测试 WebArena-Verified 中,DOM + 截图交互成功率也达 67.3%,小幅领先前代。

100 万 token 超大上下文,支持超长时任务规划

Codex 与 API 中的 GPT-5.4 实验性支持100 万 token 上下文窗口,是标准 272K 窗口的 3.6 倍,可轻松处理超长篇文档、大规模数据集,支持智能体完成长时间的规划、执行与验证任务,成为复杂研究、深度分析类任务的 “游戏规则改变者”。

值得注意的是,超出 272K 的上下文请求,将按正常用量 2 倍计入额度,批量处理 / 弹性计费为标准费率的 1/2,优先处理则为 2 倍。

思考过程可视化,可实时引导调整

GPT-5.4 的思考模式实现了推理过程前置规划 + 实时干预:面对复杂查询时,模型会先输出解题步骤规划,用户可在回复生成过程中随时补充指令、调整方向,无需重新发起对话或多轮追问,就能引导模型输出精准结果。同时模型能进行更长时间的深度思考,更好地保留对话前期信息,确保长工作流、复杂提示词下的回答连贯性。

此外,GPT-5.4 也是 OpenAI 迄今token 效率最高的模型,相比 GPT-5.2,完成相同任务的 token 消耗量显著降低,一定程度上抵消了单价上涨的成本压力。

02 全维度性能碾压:从知识工作到编程,全面领先竞品与前代

根据 OpenAI 官方测评,GPT-5.4 在几乎所有核心任务中都实现了对前代模型及行业顶尖竞品的超越,在知识工作、科学推理、工具使用等维度的优势尤为显著,核心测评数据一览:

  • 知识工作(GDPval):83.0% 的任务表现达到或超越行业专业人士,较 GPT-5.2 的 70.9% 提升 12.1 个百分点,Claude Opus 4.6 仅为 78.0%;

  • 高级编程(SWE-Bench Pro):57.7% 的成功率持平 GPT-5.3-Codex,超越 GPT-5.2 与 Claude Opus 4.6,Codex 中开启 /fast 模式后,token 生成速度还能提升 1.5 倍;

  • 科学推理(GPQA Diamond):94.4% 的正确率略超 Gemini 3.1 Pro(94.3%),大幅领先 Claude Opus 4.6(91.3%);

  • 工具使用(Toolathlon):54.6% 的准确率较 GPT-5.2 提升 8.3 个百分点,且完成任务的交互轮次更少;

  • 网页搜索(BrowseComp):82.7% 的准确率较 GPT-5.2 提升 16.9 个百分点,Pro 版本更是达到 89.3%,可跨多轮持久搜索定位稀缺信息。

在实际落地的知识工作场景中,GPT-5.4 的表现同样亮眼:模拟投行分析师的表格建模任务中平均得分 87.3%,较 GPT-5.2 的 68.4% 提升 18.9 个百分点;PPT 生成任务中,68.0% 的人类评审更偏好其输出,核心原因是美学表现更优、视觉形式更丰富,且能更高效地融合图像生成能力。

03 精度与视觉双提升:事实错误大减,支持千万级像素图像输入

GPT-5.4 在事实准确性视觉感知能力上实现了双重升级,进一步降低 “幻觉” 问题,同时适配高分辨率、信息密集型的视觉任务:

事实准确性创历史新高,幻觉大幅减少

官方测试显示,与 GPT-5.2 相比,GPT-5.4单个事实陈述的错误概率降低 33%,整段回答包含任何错误的概率降低 18%,成为 OpenAI 迄今事实准确性最高的模型,大幅提升了专业场景下的使用可靠性。

视觉感知能力升级,支持 1024 万像素全保真输入

模型的通用视觉理解与推理能力显著提升,无工具辅助下的 MMMU-Pro 测试成功率达 81.2%,优于 GPT-5.2 的 79.5%;文档解析能力也同步增强,OmniDocBench 测试中平均误差从 0.140 降至 0.109。

更重要的是,GPT-5.4 推出原始图像输入精度模式,支持最高1024 万像素或最大边长 6000 像素的全保真视觉感知,原有高精度模式也升级至 256 万像素 / 2048 像素,在定位能力、图像理解、点击准确率上实现质的飞跃,完美适配高分辨率截图、复杂图表、长文档扫描件等场景的解析需求。

04 编程能力封神:近乎完美,支持可视化调试

GPT-5.4 融合了 GPT-5.3-Codex 的顶尖编程能力,同时结合电脑操控与知识工作能力,实现了 “编码 + 调试 + 落地” 的全流程自主化,被早期测试开发者评价为 “编程问题基本被解决”。

其编程能力的核心亮点在于:

  1. 全场景适配:无论是前端开发、后端调试、脚本编写,还是复杂的应用开发,输出代码的可靠性与流畅度都大幅提升,开发者称其 “本质上近乎完美”;

  2. 可视化调试:OpenAI 同步推出实验性 Codex 技能「Playwright(交互式)」,支持模型以视觉方式调试网页、Electron 应用,开发过程中可边构建、边测试,大幅减少人工干预;

  3. 高速生成:Codex 中开启 /fast 模式后,token 生成速度提升 1.5 倍,且智能水平不打折,编码、迭代、调试的流畅度拉满;

  4. 复杂任务落地:可自主调用工具完成长时间编程任务,例如仅通过简短提示词,就能生成包含美术资源、交互逻辑的主题公园模拟游戏,全程自主实现开发与测试。

05 工具调用优化:搜索式调用降本提速,适配超大规模工具生态

GPT-5.4 重构了工具调用逻辑,引入工具搜索功能,让智能体能在超大规模工具生态中高效工作,实现 “降 token、提速度、减成本” 的三重效果:

模型不再需要将所有工具定义提前载入上下文,而是先获取轻量化工具列表,需要使用某一工具时,实时查询工具定义并即时加入上下文,大幅减少工具密集型工作流的 token 消耗。官方测试显示,在 Scale MCP Atlas 250 项任务中,开启工具搜索后,输入 token 从 123139 降至 65320,减少近 50%,同时请求速度与缓存利用率大幅提升。

此外,模型的工具调用效率也显著提升,Toolathlon 测试中,以更少的交互轮次实现了更高的准确率,可轻松完成 “读取邮件 - 提取附件 - 上传文件 - 评分 - 记录到表格” 的多步骤复杂任务。

06 定价与权限:涨幅超 40% 引争议,思考模式仅对付费用户开放

GPT-5.4 的性能升级也伴随着定价的大幅上涨,同时核心功能的权限也做了明确划分,超高的使用成本成为开发者吐槽的核心点:

定价涨幅显著,Pro 版本成本翻倍

GPT-5.4 标准版输入单价从 GPT-5.2 的$1.75/M tokens涨至$2.50/M tokens,涨幅达 42.86%;缓存输入从$0.175/M tokens涨至$0.25/M tokens,涨幅同样为 42.86%;输出单价从$14/M tokens微涨至$15/M tokens,涨幅 7.14%。

Pro 版本涨幅更明显,输入单价从$21/M tokens涨至$30/M tokens,输出从$168/M tokens涨至$180/M tokens,整体使用成本大幅提升。有开发者测试发现,仅向 GPT-5.4 Pro 发送一句 “Hi”,模型思考 5 分 18 秒后回复,直接产生 80 美元(约 551 元人民币)的费用,被调侃为 “最会过度思考的模型”。

权限分层,旧版模型保留 3 个月

GPT-5.4 的思考模式仅向ChatGPT Plus、Team、Pro 用户开放,替代原有 GPT-5.2 思考模式;GPT-5.2 思考模式将在旧版模型专区为付费用户保留至 2026 年 6 月 5 日,随后正式下线。

其中 GPT-5.4 Pro 专为复杂任务的高性能需求设计,仅向 Pro 与企业版用户提供,标准版已能满足绝大多数开发与使用需求,甚至有重度 Pro 用户表示 “现在几乎不用 Pro 版本,标准版就远超前代 Pro”。

07 行业影响:巩固 OpenAI 头部地位,AI 实操能力迈入新阶段

GPT-5.4 的发布,不仅让 OpenAI 进一步巩固了大模型领域的行业主导权,更标志着 AI 从 “语言理解” 向 “实际操作” 的迈进正式落地 —— 模型已能稳定完成具备经济价值的知识工作与电脑实操任务,数据分析、客户服务、业务流程自动化、应用开发等场景的 AI 落地门槛大幅降低。

正如 OpenAI 高级研究科学家 Noam Brown 所言,GPT-5.4 在电脑操控与经济价值任务上实现了 “巨大飞跃”,目前尚未看到能力天花板,2026 年 AI 的整体性能仍将持续大幅提升。但与此同时,超高的定价也让中小开发者望而却步,有开发者直言 “价格太疯狂,根本没法基于它做开发”,如何平衡性能与成本,成为 GPT-5.4 规模化商业化的核心挑战。

而从行业发展来看,GPT-5.4 的原生电脑操控能力与超大上下文,也为 AI 智能体的落地打开了全新空间,未来智能体将更深度地融入办公、开发、生产等场景,成为人类的 “全职数字助手”。

价格有点高啊用不起

价格涨这么多还怎么玩

我去这价格也太狠了

这价格也太离谱了吧

这价格涨得也太狠了

价格涨得也太夸张了

这价格涨得也太狠了吧