GPT-5.4 深夜重磅上线！原生操控电脑 + 编程超 Opus 4.6，100 万 token 上下文成最大杀器

W1011 · 2026 年3 月 8 日 11:54

2026 年 3 月 6 日凌晨，OpenAI 正式推出 GPT-5.4 系列模型，实现 ChatGPT、API、Codex 全平台同步上线。这款 OpenAI 首款具备原生先进计算机使用能力的通用大模型，在编程、电脑操控、知识工作、工具调用等核心任务上全面碾压 GPT-5.2、Claude Opus 4.6、Gemini 3.1 Pro 等竞品，甚至在电脑操控测试中超越人类水平，被开发者直呼 “编程能力离谱到近乎完美”。与此同时，GPT-5.4 也创下 OpenAI 模型定价新高，标准版输入单价较 GPT-5.2 涨幅超 40%，超高的使用成本也引发了开发者的争议。

01 核心升级：原生电脑操控 + 100 万 token 上下文，思考过程可实时引导

GPT-5.4 的核心突破在于填补了大模型从 “理解” 到 “实操” 的能力鸿沟，同时刷新了上下文窗口与交互体验的上限，成为 OpenAI 迄今功能最全面的通用模型，核心亮点集中在三大维度：

原生计算机操作能力，实操超人类水平

作为 OpenAI 首款具备原生电脑操控能力的通用模型，GPT-5.4 可通过 Playwright 等库编写操控代码，也能根据截图下达精准的鼠标、键盘指令，轻松完成跨应用复杂工作流 —— 发送邮件、创建日历、编辑表格 / PPT、调试网页应用等场景均可自主实现，开发者还能自定义安全策略与行为逻辑，适配不同风险容忍等级。

在桌面环境操作测试 OSWorld-Verified 中，其成功率达75.0%，不仅远超 GPT-5.2 的 47.3%，更超越了人类 72.4% 的平均水平；浏览器操作测试 WebArena-Verified 中，DOM + 截图交互成功率也达 67.3%，小幅领先前代。

100 万 token 超大上下文，支持超长时任务规划

Codex 与 API 中的 GPT-5.4 实验性支持100 万 token 上下文窗口，是标准 272K 窗口的 3.6 倍，可轻松处理超长篇文档、大规模数据集，支持智能体完成长时间的规划、执行与验证任务，成为复杂研究、深度分析类任务的 “游戏规则改变者”。

值得注意的是，超出 272K 的上下文请求，将按正常用量 2 倍计入额度，批量处理 / 弹性计费为标准费率的 1/2，优先处理则为 2 倍。

思考过程可视化，可实时引导调整

GPT-5.4 的思考模式实现了推理过程前置规划 + 实时干预：面对复杂查询时，模型会先输出解题步骤规划，用户可在回复生成过程中随时补充指令、调整方向，无需重新发起对话或多轮追问，就能引导模型输出精准结果。同时模型能进行更长时间的深度思考，更好地保留对话前期信息，确保长工作流、复杂提示词下的回答连贯性。

此外，GPT-5.4 也是 OpenAI 迄今token 效率最高的模型，相比 GPT-5.2，完成相同任务的 token 消耗量显著降低，一定程度上抵消了单价上涨的成本压力。

02 全维度性能碾压：从知识工作到编程，全面领先竞品与前代

根据 OpenAI 官方测评，GPT-5.4 在几乎所有核心任务中都实现了对前代模型及行业顶尖竞品的超越，在知识工作、科学推理、工具使用等维度的优势尤为显著，核心测评数据一览：

知识工作（GDPval）：83.0% 的任务表现达到或超越行业专业人士，较 GPT-5.2 的 70.9% 提升 12.1 个百分点，Claude Opus 4.6 仅为 78.0%；
高级编程（SWE-Bench Pro）：57.7% 的成功率持平 GPT-5.3-Codex，超越 GPT-5.2 与 Claude Opus 4.6，Codex 中开启 /fast 模式后，token 生成速度还能提升 1.5 倍；
科学推理（GPQA Diamond）：94.4% 的正确率略超 Gemini 3.1 Pro（94.3%），大幅领先 Claude Opus 4.6（91.3%）；
工具使用（Toolathlon）：54.6% 的准确率较 GPT-5.2 提升 8.3 个百分点，且完成任务的交互轮次更少；
网页搜索（BrowseComp）：82.7% 的准确率较 GPT-5.2 提升 16.9 个百分点，Pro 版本更是达到 89.3%，可跨多轮持久搜索定位稀缺信息。

在实际落地的知识工作场景中，GPT-5.4 的表现同样亮眼：模拟投行分析师的表格建模任务中平均得分 87.3%，较 GPT-5.2 的 68.4% 提升 18.9 个百分点；PPT 生成任务中，68.0% 的人类评审更偏好其输出，核心原因是美学表现更优、视觉形式更丰富，且能更高效地融合图像生成能力。

03 精度与视觉双提升：事实错误大减，支持千万级像素图像输入

GPT-5.4 在事实准确性与视觉感知能力上实现了双重升级，进一步降低 “幻觉” 问题，同时适配高分辨率、信息密集型的视觉任务：

事实准确性创历史新高，幻觉大幅减少

官方测试显示，与 GPT-5.2 相比，GPT-5.4单个事实陈述的错误概率降低 33%，整段回答包含任何错误的概率降低 18%，成为 OpenAI 迄今事实准确性最高的模型，大幅提升了专业场景下的使用可靠性。

视觉感知能力升级，支持 1024 万像素全保真输入

模型的通用视觉理解与推理能力显著提升，无工具辅助下的 MMMU-Pro 测试成功率达 81.2%，优于 GPT-5.2 的 79.5%；文档解析能力也同步增强，OmniDocBench 测试中平均误差从 0.140 降至 0.109。

更重要的是，GPT-5.4 推出原始图像输入精度模式，支持最高1024 万像素或最大边长 6000 像素的全保真视觉感知，原有高精度模式也升级至 256 万像素 / 2048 像素，在定位能力、图像理解、点击准确率上实现质的飞跃，完美适配高分辨率截图、复杂图表、长文档扫描件等场景的解析需求。

04 编程能力封神：近乎完美，支持可视化调试

GPT-5.4 融合了 GPT-5.3-Codex 的顶尖编程能力，同时结合电脑操控与知识工作能力，实现了 “编码 + 调试 + 落地” 的全流程自主化，被早期测试开发者评价为 “编程问题基本被解决”。

其编程能力的核心亮点在于：

全场景适配：无论是前端开发、后端调试、脚本编写，还是复杂的应用开发，输出代码的可靠性与流畅度都大幅提升，开发者称其 “本质上近乎完美”；
可视化调试：OpenAI 同步推出实验性 Codex 技能「Playwright（交互式）」，支持模型以视觉方式调试网页、Electron 应用，开发过程中可边构建、边测试，大幅减少人工干预；
高速生成：Codex 中开启 /fast 模式后，token 生成速度提升 1.5 倍，且智能水平不打折，编码、迭代、调试的流畅度拉满；
复杂任务落地：可自主调用工具完成长时间编程任务，例如仅通过简短提示词，就能生成包含美术资源、交互逻辑的主题公园模拟游戏，全程自主实现开发与测试。

05 工具调用优化：搜索式调用降本提速，适配超大规模工具生态

GPT-5.4 重构了工具调用逻辑，引入工具搜索功能，让智能体能在超大规模工具生态中高效工作，实现 “降 token、提速度、减成本” 的三重效果：

模型不再需要将所有工具定义提前载入上下文，而是先获取轻量化工具列表，需要使用某一工具时，实时查询工具定义并即时加入上下文，大幅减少工具密集型工作流的 token 消耗。官方测试显示，在 Scale MCP Atlas 250 项任务中，开启工具搜索后，输入 token 从 123139 降至 65320，减少近 50%，同时请求速度与缓存利用率大幅提升。

此外，模型的工具调用效率也显著提升，Toolathlon 测试中，以更少的交互轮次实现了更高的准确率，可轻松完成 “读取邮件 - 提取附件 - 上传文件 - 评分 - 记录到表格” 的多步骤复杂任务。

06 定价与权限：涨幅超 40% 引争议，思考模式仅对付费用户开放

GPT-5.4 的性能升级也伴随着定价的大幅上涨，同时核心功能的权限也做了明确划分，超高的使用成本成为开发者吐槽的核心点：

定价涨幅显著，Pro 版本成本翻倍

GPT-5.4 标准版输入单价从 GPT-5.2 的$1.75/M tokens涨至$2.50/M tokens，涨幅达 42.86%；缓存输入从$0.175/M tokens涨至$0.25/M tokens，涨幅同样为 42.86%；输出单价从$14/M tokens微涨至$15/M tokens，涨幅 7.14%。

Pro 版本涨幅更明显，输入单价从$21/M tokens涨至$30/M tokens，输出从$168/M tokens涨至$180/M tokens，整体使用成本大幅提升。有开发者测试发现，仅向 GPT-5.4 Pro 发送一句 “Hi”，模型思考 5 分 18 秒后回复，直接产生 80 美元（约 551 元人民币）的费用，被调侃为 “最会过度思考的模型”。

权限分层，旧版模型保留 3 个月

GPT-5.4 的思考模式仅向ChatGPT Plus、Team、Pro 用户开放，替代原有 GPT-5.2 思考模式；GPT-5.2 思考模式将在旧版模型专区为付费用户保留至 2026 年 6 月 5 日，随后正式下线。

其中 GPT-5.4 Pro 专为复杂任务的高性能需求设计，仅向 Pro 与企业版用户提供，标准版已能满足绝大多数开发与使用需求，甚至有重度 Pro 用户表示 “现在几乎不用 Pro 版本，标准版就远超前代 Pro”。

07 行业影响：巩固 OpenAI 头部地位，AI 实操能力迈入新阶段

GPT-5.4 的发布，不仅让 OpenAI 进一步巩固了大模型领域的行业主导权，更标志着 AI 从 “语言理解” 向 “实际操作” 的迈进正式落地 —— 模型已能稳定完成具备经济价值的知识工作与电脑实操任务，数据分析、客户服务、业务流程自动化、应用开发等场景的 AI 落地门槛大幅降低。

正如 OpenAI 高级研究科学家 Noam Brown 所言，GPT-5.4 在电脑操控与经济价值任务上实现了 “巨大飞跃”，目前尚未看到能力天花板，2026 年 AI 的整体性能仍将持续大幅提升。但与此同时，超高的定价也让中小开发者望而却步，有开发者直言 “价格太疯狂，根本没法基于它做开发”，如何平衡性能与成本，成为 GPT-5.4 规模化商业化的核心挑战。

而从行业发展来看，GPT-5.4 的原生电脑操控能力与超大上下文，也为 AI 智能体的落地打开了全新空间，未来智能体将更深度地融入办公、开发、生产等场景，成为人类的 “全职数字助手”。

shrimp0 · 2026 年3 月 8 日 17:30

价格有点高啊用不起

oldme · 2026 年3 月 8 日 17:31

价格涨这么多还怎么玩

happyday · 2026 年3 月 8 日 17:31

我去这价格也太狠了

marketv8 · 2026 年3 月 8 日 19:53

这价格也太离谱了吧

justin66 · 2026 年3 月 9 日 04:56

这价格涨得也太狠了

k8sfan99 · 2026 年3 月 10 日 08:17

价格涨得也太夸张了

nonono · 2026 年3 月 11 日 13:07

这价格涨得也太狠了吧