性价比之王再升级!Claude Sonnet 4.6 发布,百万 token 上下文 + 旗舰级性能,价格不变!

大年初二,Anthropic 携重磅更新来袭 ——Claude Sonnet 4.6 正式发布!这款定位中端的模型实现全维度升级,编码、计算机使用、长上下文推理、Agent 规划等核心能力全面逼近旗舰级 Opus 4.6,更首次搭载 100 万 token 上下文窗口(beta 版),而价格仍维持每百万 token 输入 3 美元、输出 15 美元的亲民标准。目前,免费版与 Pro 用户打开 claude.ai 和 Claude Cowork,默认模型已自动切换为 Sonnet 4.6,开发者可通过 API 调用模型名claude-sonnet-4-6立即体验。

核心升级:性能追平旗舰,短板全面补齐

Sonnet 4.6 的核心突破在于 “以中端价格提供旗舰级体验”,多项基准测试分数与 Opus 4.6 持平甚至反超,用户体验提升显著:

1. 基准测试全面爆发,多场景碾压同级

在 Anthropic 公布的权威测试中,Sonnet 4.6 展现出 “全能型” 实力,关键指标实现跨越式提升:

  • 办公任务封神:GDPval-AA Elo 评分达 1633 分,不仅远超上一代 Sonnet 4.5 的 1276 分,更反超旗舰 Opus 4.6 的 1606 分,在 44 个职业、9 个行业的真实办公任务中表现最佳;

  • 计算机使用逼近人类:OSWorld-Verified 测试得分 72.5%,与 Opus 4.6 的 72.7% 几乎持平,远超 GPT-5.2 的 38.2%,操作复杂电子表格、多步骤网页表单、跨浏览器协同等任务的能力已接近人类水平;

  • 编程与推理亮眼:SWE-bench Verified 编程得分 79.6%,仅略低于 Opus 4.6 的 80.8%;ARC-AGI-2 新颖问题解决得分 58.3%,较 Sonnet 4.5 的 13.6% 实现质的飞跃,甚至超过 GPT-5.2 的 54.2%;

  • 金融分析登顶:Finance Agent v1.1 测试得分 63.3%,击败包括 Opus 4.6(60.1%)在内的所有对比模型,成为金融场景的性价比首选。

2. 用户体验质变,幻觉与效率双优化

内测数据显示,70% 的用户更偏好 Sonnet 4.6 而非 Sonnet 4.5,更有 59% 的用户认为它优于旗舰 Opus 4.5,核心体验提升集中在三大维度:

  • 逻辑更严谨:修改代码前会深度读取上下文,主动合并重复逻辑,避免复制粘贴冗余代码,过度工程化与 “偷懒” 情况显著减少;

  • 指令遵循更精准:虚报完成、幻觉生成、多步任务半途而废的问题大幅改善,长时段使用稳定性显著提升;

  • 视觉输出更精致:前端代码生成、设计类任务的布局、动画与设计感全面升级,达到生产级质量所需的迭代轮次大幅减少。

关键亮点:百万 token 上下文 + 智能策略规划

Sonnet 4.6 的两大核心亮点 ——100 万 token 上下文与自主策略规划能力,彻底解锁复杂场景应用:

1. 百万 token 上下文,容纳完整代码库与长文档

100 万 token 的上下文窗口不仅能 “装下” 整个代码库、长篇合同或数十篇研究论文,更能实现高效推理。在 Vending-Bench Arena 模拟商业运营测试中,Sonnet 4.6 展现出惊人的战略规划能力:前 10 个模拟月大量投入产能,支出远超竞争对手,最后阶段急转弯聚焦盈利,最终余额达 5700 美元,远超 Sonnet 4.5 的 2100 美元,证明其能在长周期任务中保持逻辑连贯与战略一致性。

2. 计算机使用能力成熟,安全防护升级

经过 16 个月迭代,Sonnet 系列的计算机使用能力从 “实验性” 走向 “实用化”:OSWorld 测试分数从 Sonnet 3.5 的 14.9% 一路飙升至 72.5%,能像人类一样操作 Chrome、LibreOffice、VS Code 等真实软件,无需专用 API。安全方面,Sonnet 4.6 抵御 prompt injection(恶意指令注入)的能力大幅提升,与 Opus 4.6 处于同一水平,有效避免被恶意网站诱导执行危险操作。

平台与工具更新:生态整合更深入

Sonnet 4.6 同步带来多项平台功能升级,进一步降低企业与开发者的使用门槛:

  • 灵活思考模式:同时支持 adaptive thinking(自适应思考)和 extended thinking(扩展思考),可根据任务复杂度调整思考力度,平衡速度与质量;

  • 上下文智能压缩:beta 版 context compaction 功能可在对话接近上下文上限时,自动压缩旧内容,保留关键信息,不影响后续推理;

  • 工具链升级:web search 和 fetch 工具可自动编写代码过滤处理搜索结果,code execution、memory、programmatic tool calling 等功能正式 GA(通用可用);

  • Excel 深度集成:Claude in Excel 插件支持 MCP connectors,可直接调用 S&P Global、LSEG、PitchBook 等专业工具,已配置连接器的用户无需额外设置即可使用(Pro/Max/Team/Enterprise 计划可用)。

价格与使用场景:性价比无可替代

Sonnet 4.6 延续了 Anthropic “性价比为王” 的定价策略,与 Sonnet 4.5 价格完全一致,仅为旗舰 Opus 4.6 的五分之一,成为不同场景的最优选择:

1. 价格体系(每百万 token)

表格

模型 输入(≤200K tokens) 输入(>200K tokens) 输出(≤200K tokens) 输出(>200K tokens)
Sonnet 4.6 $3 $6 $15 $22.5
Opus 4.6 $5 $10 $25 $37.5

2. 场景适配建议

  • 首选 Sonnet 4.6:日常办公、编程开发、金融分析、长文档处理、Agent 部署等绝大多数场景,其性能足以满足需求,且能大幅降低成本。对于每天处理 1000 万 token 的企业,可在不牺牲质量的前提下显著减少支出;

  • 仍选 Opus 4.6:代码库重构、多 Agent 协同、高精度要求极高的复杂推理任务,旗舰模型仍具备不可替代的深度推理优势。

安全与可用性:全平台覆盖,安全可靠

  • 全平台支持:现已在 Claude 所有计划、Claude Cowork、Claude Code、API 及各大云平台上线,免费用户也能体验全部核心功能,包括 file creation、connectors、skills 等;

  • 安全评估优异:整体安全性与近期 Claude 模型持平或更优,性格温和诚实、亲社会,无重大高风险错位(misalignment)迹象,在抵御系统提示词提取、处理指令冲突等安全测试中表现稳健。

结语:中端模型的 “旗舰级革命”

Claude Sonnet 4.6 的发布,再次打破了 “性能与成本强绑定” 的行业规则 —— 以中端价格提供接近旗舰的能力,百万 token 上下文解锁复杂场景,生态整合深入办公与开发流程。对于企业而言,它意味着 “低成本大规模部署 AI” 的时代正式到来;对于开发者与普通用户,它则是日常使用的性价比首选。

Anthropic 用实际行动证明,AI 的普及不必以高成本为代价,而 Sonnet 4.6 的升级,也让 AI 智能体的落地门槛进一步降低。如果你正在寻找一款 “好用不贵” 的 AI 模型,无论是日常办公、编程开发还是企业级 Agent 部署,Sonnet 4.6 都值得立即尝试。

Sonnet这次升级真猛啊

那得试试才知道效果咋样

这升级速度太快了吧 价格没变性能直接拉满 百万上下文真香 看来得去试试写代码了

现在各家模型都在卷啊

中端价格旗舰体验
100万token确实香
性价比首选了

这更新有点意思啊

这个更新确实挺实在的

这个更新确实给力啊,性能差不多价格才五分之一,感觉日常用完全够使了。

这价格倒是挺划算的

免费用户也能用上百万token了