2026 年 2 月 6 日凌晨,Anthropic 突然发布旗舰模型 Claude Opus 4.6,以首款支持 100 万 token 上下文窗口测试功能的旗舰级模型身份,掀起 AI 圈新一轮技术比拼。这款模型凭借更缜密的规划能力、更长时的智能体任务执行能力、庞大代码库稳定运行能力及自我纠错能力,在多领域基准测试中斩获佳绩,而发布仅几分钟后,OpenAI 便紧急推出 GPT-5.3-Codex 正面回应,一场 AI 顶尖模型的巅峰对决正式上演。截至北京时间当日 11 点,X 平台 “Claude VS Codex” 相关话题讨论量已突破 4.1 万条,成为科技圈焦点。
基准测试大杀四方,多场景性能碾压竞品
Claude Opus 4.6 在多项核心基准测试中表现亮眼,展现出全面且强大的综合能力:
-
在智能体编程评估 Terminal-Bench 2.0 中拿下最高分 65.4%,较前代 Opus 4.5 提升 5.6 个百分点;
-
综合性多学科推理测试 Humanity’s Last Exam 中稳居第一,无工具加持下得分 53.1%,远超同类模型;
-
金融、法律等经济价值领域的 GDPval-AA 评估中,以 1606 的 Elo 分数夺冠,较第二名 GPT-5.2 拉开 144 分差距,较前代提升 190 分;
-
网络安全漏洞复现测试 CyberGym 中获得 66.6 分,较前代提升 15.6 分,是 Sonnet 4.5 分数的两倍多;
-
计算生物学 BioPipelineBench 测试中以 53.1 分位居第一,长文本连贯性测试 Vending-Bench 2 中更是以 8017.59 分大幅领先。
值得一提的是,Opus 4.6 针对性解决了 AI 模型普遍存在的 “上下文衰减” 问题。在 MRCR v2 的 “8 针 - 100 万” 变体测试(浩瀚文本中检索隐藏信息的 “大海捞针” 测试)中,其得分高达 76%,而 Sonnet 4.5 在 100 万 token 场景下仅得 10.8%。这意味着 Opus 4.6 在处理数十万 token 长文本时,能更稳定地追踪信息、减少漂移,精准捕捉深层细节,为长周期企业级任务提供了可靠支撑。
不过在网友自发开展的 Terminal-Bench 2.0 实测中,GPT-5.3-Codex 以 77.3% 的成绩领先 Opus 4.6 11.9 个百分点,在编程专项能力上更具优势。网友总结二者差异:“Opus 4.6 胜在广度 ——100 万上下文、企业级工作流、PPT 集成、知识工作与漏洞挖掘;GPT-5.3-Codex 强在深度 —— 顶尖编程基准分数、自我迭代、任务中转向,但上下文窗口不足 Opus 的一半。”
核心能力升级:从漏洞挖掘到办公协同,覆盖全场景需求
Claude Opus 4.6 的能力升级全面且实用,既强化了技术硬实力,又拓展了办公场景适配性,成为真正的 “全能型选手”。
技术硬实力:漏洞挖掘与智能体协作双突破
Opus 4.6 在网络安全领域展现出惊人潜力,成功挖掘出 500 + 零日漏洞,其网络安全漏洞复现能力较前代大幅提升,可协助企业发现并修复开源软件漏洞,平衡网络攻防态势。为防范滥用风险,Anthropic 还专门开发了 6 种新型网络安全探测工具,构建起完善的防护机制,未来可能启动实时干预机制阻断危险行为。
在智能体协作方面,Claude Code 新增智能体团队研究预览功能,支持多个智能体并行工作、自主协同,特别适用于代码库审查等可拆分的重读取子任务。Anthropic 官方案例显示,开发者指派 Opus 4.6 率领智能体团队构建 C 语言编译器,仅用两周(近 2000 次会话)就完成了小团队一个月的工作量,最终产出 10 万行代码规模的净室实现编译器(无网络访问,仅依赖 Rust 标准库)。该编译器支持 x86、ARM 和 RISC-V 架构,能构建 Linux 6.9 内核,编译 QEMU、FFmpeg、Redis 等大型项目,在多数测试中通过率达 99%,甚至能成功运行《Doom》游戏。
办公与 API:灵活适配企业级需求
Opus 4.6 大幅提升了办公场景实用性,Excel 集成版支持长时程高难度任务,可自主解析非结构化数据、推断格式并完成多步骤修改;新增的 PowerPoint 集成功能(面向 Max、Team 及企业版用户),可与 Excel 联动实现数据可视化,让 “数据处理 + 报告生成” 一站式完成。有网友展示用其一次性做出的 k 线成交量分布表,引发 “AI 将重塑办公流程” 的热议。
API 接口方面,Opus 4.6 新增六大实用功能,灵活性与可控性显著提升:
-
自适应思考:模型自主判断深度推理时机,支持算力等级(低 / 中 / 高 / 极致)调节;
-
上下文压缩(测试版):自动总结早期对话,突破窗口限制,支持更长任务;
-
100 万 token 上下文(测试版):满足超长篇文本处理需求;
-
128k 输出 token:无需拆分即可完成大规模内容输出;
-
美国境内推理:专属服务定价为标准费用的 1.1 倍;
-
Prompt 缓存:分档位计费,降低重复内容处理成本。
定价与上线:限时赠额度,多渠道同步开放
Claude Opus 4.6 采用阶梯定价模式,根据上下文长度区分费用:
-
200K token 以内:输入 5 美元 / 百万 token(约 34.69 元),输出 25 美元 / 百万 token(约 173.45 元);
-
超过 200K token:输入 10 美元 / 百万 token(约 69.38 元),输出 37.5 美元 / 百万 token(约 260.18 元);
-
Prompt 缓存:200K 以内写 6.25 美元 / 百万 token、读 0.5 美元 / 百万 token;超过 200K 写 12.5 美元 / 百万 token、读 1 美元 / 百万 token。
同时,Anthropic 推出限时福利:Pro 与 Max 用户可免费领取 50 美元(约 346.9 元)额外使用额度,需满足 “2026 年 2 月 4 日前订阅” 且 “2 月 16 日前启用” 两个条件,不适用于 Team 版、企业版及 API / 控制台用户。
目前,Claude Opus 4.6 已在 claude.ai 官网、API 接口及所有主流云平台同步上线,开发者可通过 Claude API 调用 claude-opus-4-6 模型,快速接入新一代 AI 能力。
安全性拉满:低失范率 + 全维度防护
智能升级并未以牺牲安全为代价。Opus 4.6 的行为失范率(包括欺骗、奉承、助长妄想等)极低,安全对齐程度与前代旗舰模型 Opus 4.5(迄今对齐度最高)保持一致,且过度拒绝率(未能回应良性查询)为近期 Claude 模型最低。
Anthropic 为 Opus 4.6 构建了迄今最全面的安全评估体系,新增用户福祉评估、复杂危险请求拒答测试,更新隐蔽有害行为评估标准,并运用可解释性科学探究模型行为成因。针对网络安全能力增强可能带来的滥用风险,除了 6 种新型探测工具,还将持续调整防护措施,确保技术安全可控。
结语:AI 模型进入 “广度与深度” 双线竞争时代
Claude Opus 4.6 的发布,标志着 AI 模型竞争从单一性能比拼转向 “广度覆盖 + 深度突破” 的双线对决。Opus 4.6 以 100 万上下文、全场景适配、企业级安全防护构建起广度优势,而 GPT-5.3-Codex 则在编程专项能力上保持深度领先。对于企业用户而言,二者的差异化竞争提供了更精准的选择空间:追求全流程协同与长文本处理,Opus 4.6 是最优解;聚焦编程效率与专项任务突破,GPT-5.3-Codex 更具优势。
随着两大巨头的正面交锋,AI 模型的迭代速度或将进一步加快,而企业级用户将成为最终受益者 —— 更强大的功能、更灵活的适配、更安全的防护,将推动 AI 在金融、法律、编程、办公等领域的深度落地,加速产业智能化变革。




