AI 闯入数学研究核心!OpenAI 神秘模型攻克前沿难题,奥特曼:这是新知识创造的里程碑!

2026 年 2 月,AI 圈与数学圈共同见证了一场历史性挑战 ——11 位全球顶尖数学家发起「First Proof」实验,抛出 10 道从未公开的前沿数学难题,而 OpenAI 的神秘内部模型仅用一周时间,便交出了 67 页的解答报告,宣称至少 6 道题的解答大概率正确。尽管后续社区评审修正了部分结论,但这一事件标志着 AI 已从奥赛解题工具,正式迈向人类前沿科研的协作伙伴,OpenAI CEO 山姆・奥特曼更是直言:「AI 产生真正新知识的能力,无论多么微小,都是重要里程碑」。

一场无作弊的硬核测试:10 道题全部来自顶尖数学家的真实研究

「First Proof」的名字源自烘焙中的「第一次发酵」,11 位出题人将这次实验比作让数学问题在 AI 与社区中「醒发」,其核心目标只有一个:检验 AI 是否真的能做「真正的数学研究」,而非单纯解题。

这场测试的硬核之处,在于问题本身的稀缺性与权威性:

  • 出题阵容顶级:出题者包括 2014 年菲尔兹奖得主 Martin Hairer、耶鲁大学谱图论大牛 Daniel Spielman、哈佛大学代数组合学权威 Lauren Williams 等,均来自斯坦福、哈佛、耶鲁等顶尖机构;

  • 问题来源真实:10 道题全部源自出题人当前的研究项目,是通往重大定理的「关键引理」,每道题的人类证明仅需 5 页左右,却是优秀研究生都需潜心琢磨的研究级任务;

  • 零作弊可能:所有问题从未在互联网、学术会议等任何公开渠道发布,答案加密存储于1stproof.org,从根源上杜绝 AI 通过检索训练数据作弊;

  • 领域覆盖广泛:涵盖代数组合、谱图论、代数拓扑、随机分析、辛几何、张量分析等多个核心数学领域,全面考验 AI 的跨领域科研能力。

与传统奥数题、考研题不同,这些问题没有标准答案,甚至部分出题人在提出问题时,也尚未完全敲定最终证明路径,这让本次测试成为对 AI 科研潜力的终极检验。

OpenAI 的「副业冲刺」:一周搞定 6 道题?社区评审揭开真相

消息一出,OpenAI 成为最受关注的参与者。据首席科学家 Jakub Pachocki 透露,这次挑战对 OpenAI 而言只是一次「Side-sprint」(副业冲刺)—— 工程师们利用一款正在训练中的内部模型(非 GPT-5.2,疑似更激进架构),在「有限人工监督」下完成测试:未提供任何解题思路,仅根据专家反馈扩展部分证明,通过与 ChatGPT 的交互完成验证、排版,最终从多次尝试中筛选最优解。

2 月 13 日,OpenAI 提交了包含全部 10 道题解答的 67 页 PDF,自信宣称第 2、4、5、6、9、10 题共 6 道解答「大概率正确」。这一成果引发轰动,OpenAI 核心研究者 Noam Brown 更是高调表态:「STEM 研究即将发生根本性变革」。

但真相在官方答案公布后逐渐清晰。2 月 14 日,First Proof 团队公开正式答案,数学社区随即展开逐题评审,事态出现戏剧性转折:

  • Pachocki 本人承认第 2 题解答「很可能不正确」;

  • 社区发现第 5 题、第 7 题的解答存在严重逻辑漏洞;

  • 公开 AI 模型(GPT-5.2 Pro、Gemini 3.0 Deepthink)仅答对 2 道题,且第 9 题疑似存在「数据污染」(类似证明已存于旧文献);

  • 最终经《科学美国人》及社区确认,明确正确的解答为第 4、8、9、10 题,实际命中率低于最初宣称的 60%。

尽管成绩有所修正,但这一结果仍超出行业预期 ——AI 首次在从未接触过的前沿数学问题上,独立完成了多篇符合学术规范的证明。

历史性突破:AI 写出 23 页合格研究级证明

抛开争议,OpenAI 模型的部分解答展现出真正的科研潜力,其中第 4 题的证明更是被专家评为「可直接发表于数学期刊」的水准。

这道题聚焦有限加法卷积中 Φₙ函数的调和平均不等式,需要综合运用精巧的线性代数操作、双随机矩阵理解及 Jensen 不等式,OpenAI 模型自主完成了 23 页的自包含证明,逻辑链条完整、推导步骤严谨,完全达到人类研究者的专业水平。

更值得关注的是 AI 的进化速度:2022 年,ChatGPT 还常在基础算术上出错;2024 年,AI 开始解答竞赛题;2025 年,OpenAI 模型拿下 IMO 金牌;2026 年,AI 已能攻克人类前沿研究中的引理 —— 从小学算术到科研级证明,AI 仅用了不到四年时间。

数学家会失业吗?AI 仍是「协作伙伴」而非「替代者」

面对 AI 的快速突破,《科学美国人》给出明确结论:「人工智能目前还不能取代数学家」。核心原因在于,真正的数学研究是一个完整的创新链条,而 AI 目前仅能胜任最末端的「证明执行」环节:

  • 数学家的核心价值在于「发现问题」(从纷繁现象中提炼值得研究的课题)、「创造概念」(定义新的数学工具与框架)、「构建理论」(搭建跨领域的逻辑体系),这些需要洞察力、审美判断和开创性想象的环节,AI 尚未触及;

  • AI 的优势则在于高效的逻辑推演、海量文献的快速整合、重复运算的精准执行,能为数学家分担机械性工作,让研究者聚焦更核心的创新环节。

这一判断也得到了行业实践的印证:哥伦比亚大学数学天才 Ashwin Sawhney、意大利数学家 Pagano 等顶尖研究者纷纷从学术界转向 OpenAI、Google DeepMind,他们的理由一致:「AI 将改变做数学的方式,与其被动适应,不如主动参与塑造」。

面团仍在发酵:第二批问题将带来更严格测试

First Proof 挑战并未结束,反而开启了 AI 与数学研究深度融合的新篇章。出题团队已宣布,将于 2026 年 3 月 14 日(π 日)发布本轮测试的详细分析,并计划在未来数月推出第二批问题,届时将设置更严格的评判标准,还将与 AI 公司签订协议,在问题公开前进行受控测试,避免数据污染,打造可复用的科研级 AI 评估基准。

从 OpenAI 的神秘模型到社区的严谨评审,从最初的成绩争议到明确的能力突破,First Proof 挑战的核心意义,在于证明 AI 已成为数学研究中不可忽视的新力量。它或许还带着「19 世纪数学的味道」(出题人评价),但已能在人类智力皇冠上留下自己的印记。

正如奥特曼所言,AI 产生的新知识或许微小,但这一里程碑背后,是 STEM 研究范式变革的序幕。数学这门最古老的纯粹学科,正在迎来有史以来第一个真正的「计算协作伙伴」,而这场「发酵」还在继续,未来的科研图景已初见端倪。

看来AI这次挺厉害的嘛

这么厉害啊 感觉数学界要变天了

感觉以后搞科研会轻松不少

半夜刷到太炸了 这进步速度简直离谱

这进展确实有点吓人

AI能解题但还没法自己找题

现在ai都能帮数学家做研究了