DeepSeek挑戰(zhàn)中科院物理所競(jìng)賽題，結(jié)果…

baoshipin 2025-01-31

展開(kāi)全文

據(jù)微信公眾號(hào)“中科院物理所”30日消息,，近日,，中科院物理所在江蘇省溧陽(yáng)市舉辦了“天目杯”理論物理競(jìng)賽，并用DeepSeek-R1,、GPT-o1和Claude-sonnet三個(gè)AI模型對(duì)競(jìng)賽試題進(jìn)行了測(cè)試,，其中DeepSeek-R1表現(xiàn)最好。

全文如下：

近日,，我國(guó)“深度求索”公司發(fā)布的具備深度思考和推理能力的開(kāi)源大模型DeepSeek-R1受到了全世界的關(guān)注,。在DeepSeek-R1之前，美國(guó)OpenAI公司的GPT-o1,，Athropic公司的Claude,，Google公司的Gemini，都號(hào)稱具備了深度思考和推理能力,。這些模型在專業(yè)人士和吃瓜網(wǎng)友的五花八門的測(cè)試中,，表現(xiàn)的確是驚才絕艷。特別引起我們興趣的,，是Google的專用模型AlphaGeometry在公認(rèn)高難度的國(guó)際奧林匹克數(shù)學(xué)競(jìng)賽中取得了28/42的成績(jī)，獲得銀牌,。學(xué)生時(shí)代我們也接觸過(guò)奧數(shù),，深知能在此類國(guó)際奧賽中獲銀牌的選手,，無(wú)一不是從小就體現(xiàn)出相當(dāng)數(shù)學(xué)天賦，且一路努力訓(xùn)練的高手,。能夠達(dá)到這個(gè)水平的AI,，稱其為具備了強(qiáng)大的思考能力并不過(guò)分。自打那之后,，我們就一直好奇,，這些強(qiáng)大的AI，它們的物理水平又如何,？是不是以后就不用招研究生和博士后了,？

1月17日，中科院物理所在江蘇省溧陽(yáng)市舉辦了“天目杯”理論物理競(jìng)賽,。我們命題組完成了這份試卷的出題工作,。七道題除一道外，都不是從現(xiàn)成的題庫(kù)或考題中改編節(jié)選的,，我們?nèi)齻€(gè)對(duì)這套試卷比較滿意,，覺(jué)得它既不像傳統(tǒng)考試題一樣盯著個(gè)別知識(shí)點(diǎn)考，也不像高中競(jìng)賽題一樣需要很多技巧和熟練度,，而更像實(shí)際科研中碰到的具體技術(shù)問(wèn)題,。競(jìng)賽前的某天，我們和幾個(gè)朋友一起吃飯,，其中一位AI的重度用戶知道了我們出了這份題,，就問(wèn)有沒(méi)有測(cè)試過(guò)AI的表現(xiàn)？我們覺(jué)得這個(gè)建議很有意思,，于是決定在競(jìng)賽后,，測(cè)試幾個(gè)有代表性的大模型。

所謂來(lái)得早不如來(lái)得巧,。1月20日,，當(dāng)我們剛結(jié)束競(jìng)賽回到北京，正趕上DeepSeek-R1發(fā)布引爆了AI圈,，它自然成了我們測(cè)試的首選模型,。此外我們測(cè)試的模型還包括：OpenAI發(fā)布的GPT-o1，Anthropic發(fā)布的Claude-sonnet,。下面是我們測(cè)試的方式：

1.整個(gè)測(cè)試由8段對(duì)話完成,。

2.第一段對(duì)話的問(wèn)題是“開(kāi)場(chǎng)白”：交代需要完成的任務(wù)，問(wèn)題的格式,，提交答案的格式等,。通過(guò)AI的回復(fù)人工確認(rèn)其理解。

3.依次發(fā)送全部7道題目的題干，在收到回復(fù)后發(fā)送下一道題,，中間無(wú)人工反饋意見(jiàn),。

4.每道題目的題干由文字描述和圖片描述兩部分組成（第三、五,、七題無(wú)圖）,。

5.圖片描述是純文本方式，描述的文本全部生成自GPT-4o,，經(jīng)人工校對(duì),。

6.每個(gè)大模型所拿到的文字材料是完全相同的（見(jiàn)附件）。

上述過(guò)程后,，對(duì)于每個(gè)大模型我們獲得了7段tex文本,，對(duì)應(yīng)于7道問(wèn)題的解答。以下是我們采取的閱卷方式：

1.人工調(diào)整tex文本至可以用Overleaf工具編譯,，收集編譯出的PDF文件作為答卷,。

2.將4個(gè)模型的7道問(wèn)題的解答分別發(fā)送給7位閱卷人組成的閱卷組。

3.閱卷組與“天目杯”競(jìng)賽的閱卷組完全相同,，且每位閱卷人負(fù)責(zé)的題目也相同,。舉例：閱卷人A負(fù)責(zé)所有人類和AI答卷中的第一題；閱卷人B負(fù)責(zé)所有人類和AI答卷中的第二題,，等等,。

4.閱卷組匯總所有題目得分。

結(jié)果如何呢,？請(qǐng)看下表,。

結(jié)果點(diǎn)評(píng)：

1.DeepSeek-R1表現(xiàn)最好?；A(chǔ)題（前三題分?jǐn)?shù)拿滿）,，第六題還得到了人類選手中未見(jiàn)到的滿分，第七題得分較低似乎是因?yàn)槲茨芾斫忸}干中“證明”的含義,，僅僅重述了待證明的結(jié)論,，無(wú)法得分。查看其思考過(guò)程,，是存在可以給過(guò)程分的步驟的,，但最后的答案中這些步驟都沒(méi)有體現(xiàn)。

2.GPT-o1總分與DeepSeek相差無(wú)幾,。在基礎(chǔ)題（二題,、三題）中有計(jì)算錯(cuò)誤導(dǎo)致的失分。相比于DeepSeek,，o1的答卷更接近于人類的風(fēng)格,，因此以證明題為主最后一題得分稍高,。

3.Claude-sonnet可謂“馬失前蹄”，在前兩題中連出昏招打了0分,，但后續(xù)表現(xiàn)跟o1相當(dāng)接近,，連扣分點(diǎn)都是類似的。

4.如果將AI的成績(jī)與人類成績(jī)相比較,，則DeepSeek-R1可以進(jìn)入前三名（獲特優(yōu)獎(jiǎng)），但與人類的最高分125分仍有較大差距,；GPT-o1進(jìn)入前五名（獲特優(yōu)獎(jiǎng)）,，Claude-sonnet前十名（獲優(yōu)秀獎(jiǎng)）。

最后想聊幾句閱卷的主觀感想,。首先是AI的思路是真的好,，基本上沒(méi)有無(wú)法下手的題，甚至很多時(shí)候一下子就能找到正確的思路,。但跟人類不同的是,，它們?cè)谟姓_的思路后，會(huì)在一些很簡(jiǎn)單的錯(cuò)誤里面打轉(zhuǎn),。比如通過(guò)看R1的第七題思考過(guò)程,，就發(fā)現(xiàn)它一早就知道要用簡(jiǎn)正坐標(biāo)來(lái)做，能想到這一步的考生幾乎100%求解出了正確的簡(jiǎn)正坐標(biāo)（一個(gè)簡(jiǎn)單的矩陣對(duì)角化而已）,，但是R1似乎是在反復(fù)的猜測(cè)和試錯(cuò),，到最后也沒(méi)有得到簡(jiǎn)正坐標(biāo)的表達(dá)式。還有就是所有的AI似乎都不理解一個(gè)“嚴(yán)密”的證明究竟意味著怎樣的要求,，似乎認(rèn)為能在形式上湊出答案,，就算是證明了。AI如同人類,，也會(huì)出現(xiàn)許多“偶然”錯(cuò)誤,。比如在正式的統(tǒng)一測(cè)試前，我們私下嘗試過(guò)多次,，很多時(shí)候Claude-sonnet可以正確解出第一題的答案,，但正式測(cè)試的那次它就偏偏做錯(cuò)了。出于嚴(yán)謹(jǐn),，我們也許應(yīng)該對(duì)同一道題測(cè)試多次然后取平均,，但實(shí)在是有點(diǎn)麻煩……

除了上面AI的測(cè)試結(jié)果，這次我們還發(fā)布了本次試題的參考答案,。我們當(dāng)然是故意比試題遲幾天發(fā)布答案的,，想讓大家先自己挑戰(zhàn)一下。在每道題的解答后,，我們還加入了一小段“編后”,，有命題人對(duì)這道題的評(píng)價(jià),，以及一些引申的思考等。我們希望答案可以幫助不會(huì)做的同學(xué)學(xué)習(xí),，也能引發(fā)會(huì)做的同學(xué)進(jìn)一步的思考,。

最后感謝“字節(jié)跳動(dòng)”的AI“豆包”對(duì)本文的修改～

春節(jié)快樂(lè)，學(xué)習(xí)進(jìn)步,，工作順利,！

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： baoshipin > 《待分類》

舉報(bào)/認(rèn)領(lǐng)