姚顺宇参与研发!谷歌 Gemini 3 Deep Think 重磅升级,全维度碾压 Opus 4.6、GPT-5.2!

2026 年 2 月 13 日凌晨,谷歌正式发布Gemini 3 Deep Think专用推理模式的重大升级版本,这款由清华物理系传奇学神姚顺宇参与研发的模型,在数学奥赛、物理化学竞赛、竞技编程、高难度学术基准测试等多领域刷新纪录,全维度超越 Claude Opus 4.6、GPT-5.2,甚至碾压谷歌自家的 Gemini 3 Pro Preview,成为当前地表最强的 AI 推理大模型。谷歌 CEO 桑达尔・皮查伊与姚顺宇均在 X 平台发文官宣这一成果,这款聚焦科学、研究与工程领域的超强推理模型,也让 AI 正式向科研最前线深度迈进。

目前 Gemini 3 Deep Think 模式仅对 Google AI Ultra 订阅用户开放,科研人员、工程师及企业可提交申请参与早期测试,其核心价值在于助力科研人员解析复杂数据、工程师构建物理系统模型,解决各专业领域的高难度实际问题。

霸榜全品类高难度测试,奥赛与学术基准均创历史

早在去年,谷歌就已证实 Deep Think 定制版本能攻克各类高难度推理难题,在国际数学、编程锦标赛中达到金牌水准,而此次升级更是让其能力再上台阶,甚至支持研发人员开展研究级数学探索工作,在各类权威高难度测试中一路霸榜,创下多项全新纪录。

在核心四项基准测试中,Gemini 3 Deep Think 交出了惊艳答卷,且所有成绩均大幅领先 Claude Opus 4.6 与 GPT-5.2:

  • 人类终极测试(Humanity’s Last Exam):无工具辅助下取得 48.4% 的成绩,刷新该测试的历史最佳纪录,该测试专为检验前沿大模型的能力极限设计;

  • ARC-AGI-2 基准测试:斩获 84.6% 的超高正确率,成绩经 ARC 奖基金会官方认证;

  • Codeforces 竞技编程平台:Elo 评分达到 3455 分,展现出顶尖的编程与算法能力;

  • 2025 国际数学奥林匹克竞赛:再度拿下金牌水准,延续在数学推理领域的统治力。

除数学与编程外,这款模型在物理、化学等硬核科学领域同样表现炸裂,2025 年国际物理、化学奥林匹克竞赛笔试环节均达到金牌水准,其中物理奥赛斩获 87.7% 的成绩,化学奥赛拿下 82.8% 的高分;在高等理论物理领域的凝聚态理论基准测试 CMT-Benchmark 中,也取得 50.5% 的成绩,远超 Claude Opus 4.6 的 17.1% 与 GPT-5.2 的 41.0%。在 MMMU-Pro 多模态理解与推理测试中,其 81.5% 的成绩也与自家 Pro Preview 版本持平,远超其他竞品。

姚顺宇领衔核心研发,成加入谷歌后首个重磅成果

此次 Gemini 3 Deep Think 模式的升级,是清华物理系传奇特奖得主姚顺宇去年 9 月加入谷歌 DeepMind 后,参与研发的首个重磅项目。姚顺宇此前曾任职于 Anthropic 的 Claude 团队,是 AI 推理领域的顶尖科学家,其加入也为谷歌 DeepMind 的推理模型研发注入了核心动力,此次他也在 X 平台发文,邀请开发者体验这款全新的推理模型,称其为谷歌在 AI 智能前沿打造的全新阵地。

值得注意的是,这位谷歌的姚顺宇与近期加入腾讯混元担任首席 AI 科学家的姚顺雨并非同一人,二者均为姚班出身的顶尖 AI 人才,分别在国际大厂与国内头部企业的大模型研发中担任核心角色。

落地实际科研场景,解锁多领域专业级应用能力

谷歌研发 Gemini 3 Deep Think 模式的核心,并非单纯追求测试成绩的突破,而是推动 AI 在实际科研、工程领域的落地应用,让其成为专业人员的超强辅助工具。这款模型能将深厚的科学知识与工程实践结合,解决那些缺乏明确指导原则、数据杂乱不完整的复杂难题,目前已在多个专业场景中展现出硬核能力。

草图秒变 3D 打印文件,实现设计到实体的一键转化

在工程设计领域,Gemini 3 Deep Think 能快速解析设计草图,自主完成复杂三维建模,直接生成可用于 3D 打印的文件,用户只需将文件交付打印机,即可完成实体物件的制作。从二维草图到三维模型,再到可落地的打印文件,整个过程无需人工额外干预,大幅提升工业设计与原型制作的效率。

精准识别论文逻辑缺陷,超越人工同行评审

在学术研究领域,这款模型展现出了极强的专业文献分析能力。罗格斯大学数学家 Lisa Carbone 曾用其评审一篇高难度高能物理领域数学论文,Deep Think 成功识别出一个此前经人工同行评审却未被发现的细微逻辑缺陷,在训练数据极少的前沿领域,展现出比人工更细致的专业审核能力。

优化材料制备方案,突破半导体材料研发瓶颈

在材料科学领域,Deep Think 能优化复杂晶体的生长制备方法,助力新半导体材料的探索。在杜克大学的实际测试中,其设计的制备方案成功培育出尺寸超过 100 微米的薄膜,相关技术指标超越了此前所有人工设计的方法,为半导体材料研发提供了全新的技术思路。

此外,谷歌研发主管、前 Liftware CEO 也已借助该模型加速物理组件的设计,其在专业工程设计中的实用价值得到了充分验证。

推理大模型走向专业化,AI 正式挺进科研最前线

Gemini 3 Deep Think 模式的重磅升级,标志着 AI 推理大模型的竞争从通用能力比拼,转向专业领域的深度深耕,模型不再只是解决通用的问答、推理问题,而是能真正切入科研、工程、材料等硬核领域,成为专业人员的核心研发工具,推动各领域的技术创新。

当下,AI 大模型与产业、科研的融合正不断加深,行业的核心需求也从 “拥有大模型” 转向 “让大模型解决实际专业问题”。谷歌此次的升级,让 AI 正式站在了科研与工程的最前线,而随着大模型专业化能力的持续提升,其也将成为各领域技术突破的重要推手,为科学研究、工业设计、材料研发等领域带来全新的变革。

未来,推理大模型的专业化深耕或将成为行业主流,而如何让 AI 更深度地融入各专业领域的研发流程,提升实际生产力,也将成为各大科技企业的核心研发方向。

Gemini 3 Deep Think这波升级确实硬核,数学物理竞赛和编程测试全维度霸榜,把Claude和GPT都甩开了。看来AI推理模型的专业化深耕真是大势所趋,以后搞科研的同行们有福了。

这波更新有点猛啊

哇这推理能力太强了吧 简直是为科研量身定做的

这波升级真是碾压全场啊

这玩意儿真这么厉害吗

推理模型专业化是必然趋势,这次升级让AI真正切入科研流程了。

哇这模型也太强了吧

这升级也太猛了吧

推理模型这么猛啊

这个升级有点厉害啊