久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

我們用最近很火的DeepSeek挑戰(zhàn)了物理所出的競賽題,結(jié)果... | 內(nèi)附答案

 呂楊鵬 2025-01-30
近日,,我國“深度求索”公司發(fā)布的具備深度思考和推理能力的開源大模型DeepSeek-R1受到了全世界的關(guān)注,。在DeepSeek-R1之前,美國OpenAI公司的GPT-o1,,Athropic公司的Claude,,Google公司的Gemini,都號(hào)稱具備了深度思考和推理能力,。這些模型在專業(yè)人士和吃瓜網(wǎng)友的五花八門的測試中,,表現(xiàn)的確是驚才絕艷。特別引起我們興趣的,,是Google的專用模型AlphaGeometry在公認(rèn)高難度的國際奧林匹克數(shù)學(xué)競賽中取得了28/42的成績,,獲得銀牌。學(xué)生時(shí)代我們也接觸過奧數(shù),,深知能在此類國際奧賽中獲銀牌的選手,無一不是從小就體現(xiàn)出相當(dāng)數(shù)學(xué)天賦,,且一路努力訓(xùn)練的高手,。能夠達(dá)到這個(gè)水平的AI,稱其為具備了強(qiáng)大的思考能力并不過分,。自打那之后,,我們就一直好奇,這些強(qiáng)大的AI,,它們的物理水平又如何,?是不是以后就不用招研究生和博士后了?

1月17日,,中科院物理所在江蘇省溧陽市舉辦了“天目杯”理論物理競賽,。我們命題組完成了這份試卷的出題工作。七道題除一道外,,都不是從現(xiàn)成的題庫或考題中改編節(jié)選的,,我們?nèi)齻€(gè)對(duì)這套試卷比較滿意,,覺得它既不像傳統(tǒng)考試題一樣盯著個(gè)別知識(shí)點(diǎn)考,也不像高中競賽題一樣需要很多技巧和熟練度,,而更像實(shí)際科研中碰到的具體技術(shù)問題,。競賽前的某天,我們和幾個(gè)朋友一起吃飯,,其中一位AI的重度用戶知道了我們出了這份題,,就問有沒有測試過AI的表現(xiàn)?我們覺得這個(gè)建議很有意思,,于是決定在競賽后,,測試幾個(gè)有代表性的大模型

所謂來得早不如來得巧,。1月20日,,當(dāng)我們剛結(jié)束競賽回到北京,正趕上DeepSeek-R1發(fā)布引爆了AI圈,,它自然成了我們測試的首選模型,。此外我們測試的模型還包括:OpenAI發(fā)布的GPT-o1,Anthropic發(fā)布的Claude-sonnet,。下面是我們測試的方式:
1.整個(gè)測試由8段對(duì)話完成,。
2.第一段對(duì)話的問題是“開場白”:交代需要完成的任務(wù),問題的格式,,提交答案的格式等,。通過AI的回復(fù)人工確認(rèn)其理解。
3.依次發(fā)送全部7道題目的題干,,在收到回復(fù)后發(fā)送下一道題,,中間無人工反饋意見。
4.每道題目的題干由文字描述和圖片描述兩部分組成(第三,、五,、七題無圖)。
5.圖片描述是純文本方式,,描述的文本全部生成自GPT-4o,,經(jīng)人工校對(duì)。
6.每個(gè)大模型所拿到的文字材料是完全相同的(見附件),。
上述過程后,,對(duì)于每個(gè)大模型我們獲得了7tex文本,對(duì)應(yīng)于7道問題的解答,。以下是我們采取的閱卷方式:
1.人工調(diào)整tex文本至可以用Overleaf工具編譯,,收集編譯出的PDF文件作為答卷。
2.4個(gè)模型的7道問題的解答分別發(fā)送給7位閱卷人組成的閱卷組,。
3.閱卷組與“天目杯”競賽的閱卷組完全相同,,且每位閱卷人負(fù)責(zé)的題目也相同,。舉例:閱卷人A負(fù)責(zé)所有人類和AI答卷中的第一題;閱卷人B負(fù)責(zé)所有人類和AI答卷中的第二題,,等等,。
4.閱卷組匯總所有題目得分。
結(jié)果如何呢,?請(qǐng)看下表,。

圖片

結(jié)果點(diǎn)評(píng):
1.DeepSeek-R1表現(xiàn)最好?;A(chǔ)題(前三題分?jǐn)?shù)拿滿),,第六題還得到了人類選手中未見到的滿分,第七題得分較低似乎是因?yàn)槲茨芾斫忸}干中“證明”的含義,,僅僅重述了待證明的結(jié)論,,無法得分。查看其思考過程,,是存在可以給過程分的步驟的,,但最后的答案中這些步驟都沒有體現(xiàn)。

圖片

2.GPT-o1總分與DeepSeek相差無幾,。在基礎(chǔ)題(二題,、三題)中有計(jì)算錯(cuò)誤導(dǎo)致的失分。相比于DeepSeek,,o1的答卷更接近于人類的風(fēng)格,,因此以證明題為主最后一題得分稍高。

圖片

3.Claude-sonnet可謂“馬失前蹄”,,在前兩題中連出昏招打了0分,,但后續(xù)表現(xiàn)跟o1相當(dāng)接近,連扣分點(diǎn)都是類似的,。

圖片

4.如果將AI的成績與人類成績相比較,,則DeepSeek-R1可以進(jìn)入前三名(獲特優(yōu)獎(jiǎng)),但與人類的最高分125分仍有較大差距,;GPT-o1進(jìn)入前五名(獲特優(yōu)獎(jiǎng)),,Claude-sonnet前十名(獲優(yōu)秀獎(jiǎng)),。

最后想聊幾句閱卷的主觀感想,。首先是AI的思路是真的好,基本上沒有無法下手的題,,甚至很多時(shí)候一下子就能找到正確的思路,。但跟人類不同的是,它們?cè)谟姓_的思路后,,會(huì)在一些很簡單的錯(cuò)誤里面打轉(zhuǎn),。比如通過看R1的第七題思考過程,,就發(fā)現(xiàn)它一早就知道要用簡正坐標(biāo)來做,能想到這一步的考生幾乎100%求解出了正確的簡正坐標(biāo)(一個(gè)簡單的矩陣對(duì)角化而已),,但是R1似乎是在反復(fù)的猜測和試錯(cuò),,到最后也沒有得到簡正坐標(biāo)的表達(dá)式。還有就是所有的AI似乎都不理解一個(gè)“嚴(yán)密”的證明究竟意味著怎樣的要求,,似乎認(rèn)為能在形式上湊出答案,,就算是證明了。AI如同人類,,也會(huì)出現(xiàn)許多“偶然”錯(cuò)誤,。比如在正式的統(tǒng)一測試前,我們私下嘗試過多次,,很多時(shí)候Claude-sonnet可以正確解出第一題的答案,,但正式測試的那次它就偏偏做錯(cuò)了。出于嚴(yán)謹(jǐn),,我們也許應(yīng)該對(duì)同一道題測試多次然后取平均,,但實(shí)在是有點(diǎn)麻煩……

圖片

除了上面AI的測試結(jié)果,這次我們還發(fā)布了本次試題的參考答案,。我們當(dāng)然是故意比試題遲幾天發(fā)布答案的,,想讓大家先自己挑戰(zhàn)一下。在每道題的解答后,,我們還加入了一小段“編后”,,有命題人對(duì)這道題的評(píng)價(jià),以及一些引申的思考等,。我們希望答案可以幫助不會(huì)做的同學(xué)學(xué)習(xí),,也能引發(fā)會(huì)做的同學(xué)進(jìn)一步的思考。

附件中我們提供了:
1.所有向大模型發(fā)問的輸入文本(txt),,
2.每個(gè)大模型給出的原始答案文本(txt)和人工整理出的答卷(PDF),,
3.命題組提供的標(biāo)準(zhǔn)答案。

最后感謝“字節(jié)跳動(dòng)”的AI“豆包”對(duì)本文的修改~

春節(jié)快樂,,學(xué)習(xí)進(jìn)步,,工作順利!
附件:AI答卷
附件:AI提問
附件:參考答案

冬令營組委會(huì)
乙巳年正月初二
編輯:雪影


掃碼進(jìn)入“科學(xué)與中國”小程序,,可觀看以院士科普視頻為代表的優(yōu)秀科普視頻,,第一時(shí)間獲取中國科學(xué)院公眾科學(xué)日、科學(xué)節(jié)等科普活動(dòng)報(bào)名信息,。

圖片


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多