2026 年 2 月 18 日凌晨,Anthropic 携重磅新品 Claude Sonnet 4.6 空降 AI 圈。这款定位中端的模型,在办公任务、金融分析、视觉推理等核心场景中实现对旗舰级 Opus 4.6 的超越,编程、计算机使用等能力直逼顶级水平,而价格仅为旗舰模型的一半。发布当日,美股软件股应声下挫,Intuit 跌超 5%,甲骨文、Salesforce 等巨头纷纷跟跌,足见其对行业的冲击力度。作为 Anthropic 估值飙升至 3800 亿美元后的首款新品,Sonnet 4.6 不仅重塑了大模型性价比格局,更标志着 AI 向真实工作流的深度渗透。
核心突破:中端价格,旗舰级性能
Claude Sonnet 4.6 的颠覆性,在于打破了 “性能与成本强绑定” 的行业铁律。其智能水平全面逼近旗舰模型 Opus 4.6,部分场景实现反超,成为名副其实的 “性价比猛兽”:
1. 基准测试全面开花,多项指标碾压同级
在 Anthropic 公布的权威测试中,Sonnet 4.6 展现出 “全能型” 实力,核心指标全面领先 Gemini 3 Pro、GPT-5.2 等竞品,部分场景超越自家旗舰 Opus 4.6:
-
办公任务封神:GDPval-AA Elo 评分达 1633 分,超越 Opus 4.6 的 1606 分,在 44 个职业、9 个行业的 220 项真实专业任务中排名第一,处理复杂表格、多步骤网页表单的能力接近人类;
-
Agent 能力飙升:金融分析(Finance Agent v1.1)得分 63.3%,超越 Opus 4.6 的 60.1%;计算机使用(OSWorld-Verified)得分 72.5%,与 Opus 4.6 的 72.7% 几乎持平,远超 GPT-5.2 的 38.2%;
-
编程与推理亮眼:SWE-bench Verified 编程得分 79.6%,接近 Opus 4.6 的 80.8%;ARC-AGI-2 新颖问题解决得分 58.3%,大幅超越 Sonnet 4.5 的 13.6%,甚至超过 GPT-5.2 的 54.2%;
-
视觉能力补短板:MMMU-Pro 视觉推理(带工具)得分 75.6%,较上一代显著提升,生成的 Xbox 控制器 SVG 图像立体感远超 Grok 4.20 Beta。
2. 百万 Token 上下文,解锁复杂场景
Sonnet 4.6 搭载 100 万 Token 上下文窗口,成为开发者眼中的 “关键解锁项”。用户可直接导入完整代码库,模型能精准理解跨文件依赖关系,无需分段处理;在长文档分析、多轮对话等场景中,也能保持逻辑连贯,不丢失关键信息。有开发者反馈:“终于找到能读取我整个混乱代码库而不评判我的模型了”。
3. 双思维模式 + 低幻觉,适配多元需求
模型支持 “扩展思维模式”(深度推理)与 “自适应思维模式”(按需调整推理时长),开发者可根据任务复杂度自主选择。同时,其幻觉率显著降低,指令遵循能力大幅提升,59% 的用户认为它比 Opus 4.5 更靠谱,不会过度复杂化问题或敷衍了事。
实测体验:一次调用重构代码库,成本仅为旗舰一半
Sonnet 4.6 的实力在开发者实测中得到充分验证,核心优势集中在 “高效落地” 与 “成本可控”:
-
编程效率飞跃:有开发者通过一次调用完成整个代码库重构,模型自动执行 25 次工具调用,新增 3000 多行代码、创建 12 个新文件,实现模块化拆分与代码清理,虽部分功能需调试,但结构优化效果显著;
-
多文件协作流畅:修改多文件项目时无需过多人工干预,能记住长时间会话上下文,大幅减少重复沟通成本;
-
搜索能力升级:超越简单代码补全,能理解代码库间的关联逻辑,成为复杂系统的 “导航工具”,节省大量函数查找时间;
-
成本优势凸显:输入 3 美元 / 百万 Token、输出 15 美元 / 百万 Token 的定价与上一代保持一致,仅为 Opus 4.6(输入 5 美元 / 百万 Token、输出 25 美元 / 百万 Token)的 60%,而游戏生成等场景效果不相上下。
行业冲击:软件股承压,AI 落地加速
Sonnet 4.6 的发布,直接引发行业连锁反应:
-
软件股集体下挫:截至美东时间周二收盘,Intuit 跌超 5%,甲骨文、Applovin 跌超 3%,Salesforce、Atlassian、Autodesk 跌超 2%,Adobe、ServiceNow 跌超 1%,市场担忧 AI 工具对传统软件的替代效应;
-
企业落地门槛降低:AWS 第一时间宣布 Sonnet 4.6 在 Amazon Bedrock 上架,强调其 “最强计算机使用模型” 属性,企业可在不牺牲质量的前提下提升 ROI,加速 AI 工作流扩展;
-
竞争格局重塑:Anthropic“Opus 争王座、Sonnet 蚕食市场” 的策略清晰显现,Opus 4.6 仍垄断深度推理场景(如多 Agent 协同、复杂代码重构),Sonnet 4.6 则凭借高性价比抢占大众市场,形成梯度布局。
争议与局限:性能天花板仍受质疑
尽管好评如潮,Sonnet 4.6 仍面临部分开发者的质疑:
-
有用户认为其性能未达预期,“Sonnet 4.6=Opus 4.5”,编程能力未实现对 Opus 4.5 的超越,仅在 Claude Cowork 功能上有升级;
-
未与 Codex 5.3 等顶尖编程模型直接对比,能力天花板存疑;
-
代码安全风险引发关注:具备强搜索 + 编程能力的 Agent 若拥有生产环境提交权限,可能对供应链构成安全隐患。
结语:AI 进入 “高性价比落地时代”
Claude Sonnet 4.6 的推出,标志着大模型行业从 “参数竞赛” 转向 “实用主义”。中端价格、旗舰级核心性能的组合,打破了企业落地的成本壁垒,其 “像人一样使用电脑” 的能力,让 AI 深度融入办公、研发、金融等真实工作流。Anthropic 凭借 3800 亿美元估值的资本背书,通过 Haiku(轻量)、Sonnet(中端)、Opus(旗舰)的梯度布局,全面覆盖不同用户需求。
对于企业而言,Sonnet 4.6 提供了 “低成本、高效率” 的 AI 解决方案;对于行业而言,它进一步压缩了独立软件的生存空间,加速 AI 对传统工作模式的重构。尽管仍有争议,但 Sonnet 4.6 的成功证明,高性价比、强落地性才是 AI 大规模普及的关键。随着技术持续迭代,大模型的 “平民化” 进程将进一步提速。





