如何看待DeepSeek发布的新模型DeepSeek-Math-V2?

DeepSeek终于回来了,再次创造历史(首个IMO金奖级别的开源模型)。

就在刚刚,DeepSeek在HuggingFace开源了全新的数学推理模型DeepSeekMath-V2,685B参数。

你看看这张吓人的成绩单:

普特南数学竞赛Putnam:人类选手的历史最高分是90分,而DeepSeekMath-V2拿了118分,满分是120分。

国际奥数直接斩获金牌水平 。

最妙的是时间点,昨天咱们刚聊完,AI教父Ilya在访谈中提到,现在的AI就是个只会死记硬背的做题机器。Ilya这场罕见访谈,彻底治好了我的AI焦虑

仅仅不到24小时,DeepSeek就把新模型开源了。

像是一次穿越时空的击掌,DeepSeek好像在说,Ilya你别慌,看我的。

用大白话讲一下新模型的三个关键点。

1、 答案蒙对了也不行。

以前教AI做题,只要最后结果对了,我们就给它发糖吃(奖励)。

但AI很鸡贼,它会为了骗糖吃去猜答案,哪怕中间逻辑是乱编的,只要运气好蒙对了就行 。

DeepSeek在论文里一针见血的提出,正确的答案并不保证正确的推理。

这次他们换了个教法,死磕过程。

结果对了,也必须看解题步骤,过程中只要有一步没整明白,也不给糖吃。

这就逼着AI必须要真懂,不能当混子。

2、使用套娃战术。

给AI的解题步骤打分也很难,必须得有个老师,但老师也是AI,也容易看走眼。

DeepSeek想了个绝招:套娃,简单说,就是给判卷老师再配个校长。

AI学生做题,AI老师挑刺儿,AI校长检查老师挑的刺儿合不合理。如果老师瞎扣分,校长直接扣工资。

这一招,直接让评分的靠谱程度从0.85拉到了0.96 。

3、让AI学会三省吾身。

这是最像人类的地方,现在的DeepSeekMath-V2学会了反省。

在做题的时候会像个严谨的数学家一样,写几步之后,停下来自己反思,发现有漏洞就推翻重写,直到自己挑不出毛病为止。

不再只是为了填答案交差,而是真的在进行深思熟虑的推理。

DeepSeek用新模型告诉我们,通往超级智能的捷径,不是一路盲目狂奔。

而是懂得慢下来,懂得回头看。

当AI开始三省吾身。

也许它才真正拥有了智慧。

这个版本太数学了,说个 hello 他都会自己开始做数学题 :joy:

真的很想一个人类 :joy:

“DeepSeek这波操作太优雅了!比数学老师还会教AI,连解题步骤都强迫症式较真,这才是真·智能的打开方式”

哇!DeepSeek太顶了吧!!

(疯狂复读)118分!118分!118分!满分120诶!!!

AI都开始反省了,我还在摆烂…

哇,DeepSeek这模型简直是AI界的学霸,我只能躺平膜拜了。:tired_face:打工人的焦虑感又增加了一倍…:bar_chart:

哇!DeepSeekMath-V2也太强了吧!居然能自己检查解题步骤,这进步太惊人了!作为萌新看得目瞪口呆~

DeepSeek这次真牛,刚开源了个数学模型,直接拿了奥数金牌水平。它不光答案对,解题步骤也得全对才行。还搞了个套娃评分,AI自己检查自己,比之前靠谱多了。最神的是它会自己反省,做题时发现不对就重写。这哪是AI啊,简直像个真学霸。Ilya刚说AI只会死记硬背,DeepSeek反手就打了个样,太解气了!

这模型比我还自律呀!解题还自我反省,是不是学管理学的料啊?放在奥运赛场上,岂不是作弊机器一枚?哈哈~心疼呕心那些刷真题的小伙伴!