中科院物理所：我們用最近很火的DeepSeek挑戰(zhàn)了物理所出的競賽題，結(jié)果…

深圳東方紅 2025-01-31

展開全文

全文如下：

近日,，我國“深度求索”公司發(fā)布的具備深度思考和推理能力的開源大模型DeepSeek-R1受到了全世界的關(guān)注,。在DeepSeek-R1之前，美國OpenAI公司的GPT-o1,，Athropic公司的Claude,，Google公司的Gemini，都號稱具備了深度思考和推理能力,。這些模型在專業(yè)人士和吃瓜網(wǎng)友的五花八門的測試中,，表現(xiàn)的確是驚才絕艷。特別引起我們興趣的,，是Google的專用模型AlphaGeometry在公認高難度的國際奧林匹克數(shù)學(xué)競賽中取得了28/42的成績,，獲得銀牌。學(xué)生時代我們也接觸過奧數(shù),，深知能在此類國際奧賽中獲銀牌的選手,，無一不是從小就體現(xiàn)出相當數(shù)學(xué)天賦，且一路努力訓(xùn)練的高手,。能夠達到這個水平的AI，稱其為具備了強大的思考能力并不過分,。自打那之后,，我們就一直好奇，這些強大的AI,，它們的物理水平又如何,？是不是以后就不用招研究生和博士后了？

1月17日,，中科院物理所在江蘇省溧陽市舉辦了“天目杯”理論物理競賽,。我們命題組完成了這份試卷的出題工作。七道題除一道外,，都不是從現(xiàn)成的題庫或考題中改編節(jié)選的,，我們?nèi)齻€對這套試卷比較滿意，覺得它既不像傳統(tǒng)考試題一樣盯著個別知識點考,，也不像高中競賽題一樣需要很多技巧和熟練度,，而更像實際科研中碰到的具體技術(shù)問題。競賽前的某天，我們和幾個朋友一起吃飯,，其中一位AI的重度用戶知道了我們出了這份題,，就問有沒有測試過AI的表現(xiàn)？我們覺得這個建議很有意思,，于是決定在競賽后,，測試幾個有代表性的大模型。

所謂來得早不如來得巧,。1月20日,，當我們剛結(jié)束競賽回到北京，正趕上DeepSeek-R1發(fā)布引爆了AI圈,，它自然成了我們測試的首選模型,。此外我們測試的模型還包括：OpenAI發(fā)布的GPT-o1，Anthropic發(fā)布的Claude-sonnet,。下面是我們測試的方式：

1.整個測試由8段對話完成,。

2.第一段對話的問題是“開場白”：交代需要完成的任務(wù)，問題的格式,，提交答案的格式等,。通過AI的回復(fù)人工確認其理解。

3.依次發(fā)送全部7道題目的題干,，在收到回復(fù)后發(fā)送下一道題,，中間無人工反饋意見。

4.每道題目的題干由文字描述和圖片描述兩部分組成（第三,、五,、七題無圖）。

5.圖片描述是純文本方式,，描述的文本全部生成自GPT-4o,，經(jīng)人工校對。

6.每個大模型所拿到的文字材料是完全相同的（見附件）,。

上述過程后,，對于每個大模型我們獲得了7段tex文本，對應(yīng)于7道問題的解答,。以下是我們采取的閱卷方式：

1.人工調(diào)整tex文本至可以用Overleaf工具編譯,，收集編譯出的PDF文件作為答卷。

2.將4個模型的7道問題的解答分別發(fā)送給7位閱卷人組成的閱卷組,。

3.閱卷組與“天目杯”競賽的閱卷組完全相同,，且每位閱卷人負責(zé)的題目也相同。舉例：閱卷人A負責(zé)所有人類和AI答卷中的第一題,；閱卷人B負責(zé)所有人類和AI答卷中的第二題,，等等,。

4.閱卷組匯總所有題目得分。

結(jié)果如何呢,？請看下表,。

中科院物理所：我們用最近很火的DeepSeek挑戰(zhàn)了物理所出的競賽題，結(jié)果…

結(jié)果點評：

1.DeepSeek-R1表現(xiàn)最好,?；A(chǔ)題（前三題分數(shù)拿滿），第六題還得到了人類選手中未見到的滿分,，第七題得分較低似乎是因為未能理解題干中“證明”的含義,，僅僅重述了待證明的結(jié)論，無法得分,。查看其思考過程,，是存在可以給過程分的步驟的，但最后的答案中這些步驟都沒有體現(xiàn),。

2.GPT-o1總分與DeepSeek相差無幾。在基礎(chǔ)題（二題,、三題）中有計算錯誤導(dǎo)致的失分,。相比于DeepSeek，o1的答卷更接近于人類的風(fēng)格,，因此以證明題為主最后一題得分稍高,。

3.Claude-sonnet可謂“馬失前蹄”,，在前兩題中連出昏招打了0分,，但后續(xù)表現(xiàn)跟o1相當接近，連扣分點都是類似的,。

4.如果將AI的成績與人類成績相比較，則DeepSeek-R1可以進入前三名（獲特優(yōu)獎）,，但與人類的最高分125分仍有較大差距；GPT-o1進入前五名（獲特優(yōu)獎）,，Claude-sonnet前十名（獲優(yōu)秀獎）,。

最后想聊幾句閱卷的主觀感想。首先是AI的思路是真的好,，基本上沒有無法下手的題,，甚至很多時候一下子就能找到正確的思路。但跟人類不同的是,，它們在有正確的思路后,，會在一些很簡單的錯誤里面打轉(zhuǎn),。比如通過看R1的第七題思考過程，就發(fā)現(xiàn)它一早就知道要用簡正坐標來做,，能想到這一步的考生幾乎100%求解出了正確的簡正坐標（一個簡單的矩陣對角化而已）,，但是R1似乎是在反復(fù)的猜測和試錯，到最后也沒有得到簡正坐標的表達式,。還有就是所有的AI似乎都不理解一個“嚴密”的證明究竟意味著怎樣的要求,，似乎認為能在形式上湊出答案，就算是證明了,。AI如同人類,，也會出現(xiàn)許多“偶然”錯誤。比如在正式的統(tǒng)一測試前,，我們私下嘗試過多次,，很多時候Claude-sonnet可以正確解出第一題的答案，但正式測試的那次它就偏偏做錯了,。出于嚴謹,，我們也許應(yīng)該對同一道題測試多次然后取平均，但實在是有點麻煩……

除了上面AI的測試結(jié)果,，這次我們還發(fā)布了本次試題的參考答案。我們當然是故意比試題遲幾天發(fā)布答案的,，想讓大家先自己挑戰(zhàn)一下,。在每道題的解答后，我們還加入了一小段“編后”,，有命題人對這道題的評價,，以及一些引申的思考等。我們希望答案可以幫助不會做的同學(xué)學(xué)習(xí),，也能引發(fā)會做的同學(xué)進一步的思考,。

最后感謝“字節(jié)跳動”的AI“豆包”對本文的修改～

春節(jié)快樂，學(xué)習(xí)進步,，工作順利,！