Kimi的數(shù)學(xué)模型來了,，這次甚至能挑戰(zhàn)高考

九月長安joy168 2024-11-28 發(fā)布于廣東

展開全文

消停了一陣子之后，國內(nèi)又有大模型公司打榜 OpenAI 了,。

這不,， Kimi 最近推了個數(shù)學(xué)模型 k0-math ，號稱數(shù)學(xué)能力可以媲美 OpenAI 的 o1-mini 和 o1-preview ,，中高考,、考研還有入門競賽題都能跟 o1 過過招。

該說不說,， AI 模型開始 “ 炒作 ” 起數(shù)學(xué)能力，這事兒還挺稀奇,，畢竟 AI 的數(shù)學(xué)能力拉胯也不是一天兩天了,，連 strawberry 里有幾個 r 都一直數(shù)不清。,。,。

就連 OpenAI 的 o1 發(fā)布時，也沒有直說自己的數(shù)學(xué)多么多么厲害,，只是點(diǎn)了一下推理能力罷了,。

所以原本以長文本出圈兒的 Kimi ，這回突然卷起了數(shù)學(xué),，世超確實(shí)很好奇,，好奇這個 k0-math 到底啥水平啊,？

而世超在哥們兒的幫助下,，也提前體驗(yàn)了一陣子，今天就借著 Kimi 數(shù)學(xué)版（基于 k0-math 模型）全量開放了,，帶著大家瞧瞧這個數(shù)學(xué)模型有多少斤兩,。

目前,， Kimi 數(shù)學(xué)版只能在網(wǎng)頁版上用,，入口倒是跟之前的普通版和探索版沒啥區(qū)別，但有一點(diǎn),，Kimi 數(shù)學(xué)版只支持一輪對話,。

像世超一上來,，就直戳 Kimi 痛處翻了波舊賬，問它 “13.11% 和 13.8% ,，哪個更大,？ ” 。（之前 Kimi 在這上面翻過車,，說 13.11 的整數(shù)部分和小數(shù)部分都大于 13.8 ,。。）

這次倒是學(xué)機(jī)靈了,，而且很簡單的比數(shù)值大小,， Kimi 數(shù)學(xué)版都用上了 “ 為了進(jìn)一步確認(rèn) ”“ 為了確保萬無一失 ”“ 經(jīng)過多種方法的驗(yàn)證 ” 這些話術(shù)， kuku 輸出了二三十行,。

只不過當(dāng)世超想再次追問的時候，出來的就不是 k0-math 模型了,。

當(dāng)然,，這只是個小插曲，既然官方都已經(jīng)把 k0-math 的實(shí)力挑明,，那咱也不客氣了,。

直接上今年高考新課標(biāo) 1 卷的數(shù)學(xué)題：已知 cos ( a+ β) =m ， tanatan β =2 ,，則 cos ( a- β) = ,？

雖說解題過程有些波折，但總算是沒把最后 -3m 的答案弄錯,。

這個問題我同時也問了智譜清言和 ChatGPT ，答案倒是沒出入,，但區(qū)別于一個步驟一個步驟列出來,， Kimi 數(shù)學(xué)版給我一種，它真的在模仿人類思考的過程,。

模型在推導(dǎo)的過程中,，懷疑過自己的思路可能是錯誤的，并且對此進(jìn)行了驗(yàn)證,。

但下面這道概率題， Kimi 數(shù)學(xué)版就沒那么好運(yùn)了,。

標(biāo)準(zhǔn)答案是 1/2 ,，只有 ChatGPT 答對了,。

世超看了眼 Kimi 數(shù)學(xué)版的推導(dǎo)過程,， 24 種可能發(fā)生的情況它都列舉出來了，而且每一種情況誰輸誰贏也盤得清清楚楚,，甚至最后還檢查了一遍,。

但最大的問題出在,，它把甲的總得分≥ 2 的次數(shù),，漏數(shù)了一個。,。,。實(shí)屬可惜。

咱再找一道 AMC 數(shù)學(xué)競賽的題目,，給 Kimi 數(shù)學(xué)版試試,。

一個集合由 6 個（不是不同的）正整數(shù)組成：1 、 7 ,、 5 ,、 2 、 5 和 X ,。6 個數(shù)字的平均值（算術(shù)平均值）等于集合中的一個值,。X 的所有可能值之和是多少？

這次世超還把豆包也加進(jìn)來了,，同一道題,，四個模型只有智譜清言的算錯了。（正確答案是36）

還有個小插曲,，本來世超想再給 Kimi 試一道競賽題，結(jié)果它直接反過來質(zhì)疑我,。,。試了好幾次都是這么個回答，不知道是系統(tǒng)的 bug ,，還是它壓根就不會兒這題,，干脆裝死。

有一說一,，好幾道數(shù)學(xué)題試下來， Kimi 數(shù)學(xué)版確實(shí)給了我不少驚喜,，特別是解題過程中展現(xiàn)出來的思考,、推理的能力，又刷新了一波咱對 AI 模型數(shù)學(xué)能力的認(rèn)知,。

只可惜幾何題一如既往的菜,，只是一道初中級別的幾何選擇題,，給 Kimi 數(shù)學(xué)版的 CPU 都快干燒了，結(jié)果還是錯的答案,。

至于為啥 Kimi 的 k0-math 模型能有這么大的突破，前段時間世超參加了一場月之暗面的媒體會,，月之暗面的創(chuàng)始人楊植麟就告訴世超,， k0-math 的成功很大概率要?dú)w功于一個叫做 COT （ Chain of Thought ）思維鏈的技術(shù)。

太專業(yè)的術(shù)語咱也不在這拽了,，大伙兒可以把這個 COT 理解為,， AI 模型模仿人類的大腦進(jìn)行邏輯推理，把復(fù)雜的任務(wù)拆解之后,，再一步步地解決,。把這個技術(shù)運(yùn)用到模型里，模型就能夠通過 “ 思考 ” 來完成任務(wù)并提高正確率,。

而為啥先把這東西用在了一個數(shù)學(xué)模型上,，楊植麟直接引用了伽利略的名言 “ 宇宙是由數(shù)學(xué)這門語言書寫而成的 ” 。

總之,，就是希望先從數(shù)學(xué)問題入手，再將數(shù)學(xué)的思維泛化,，從而去理解整個世界,。

當(dāng)然，并不是說模型一旦用上了思維鏈就能得到正確的答案,，但這個方式,，目前確實(shí)可以提高模型對復(fù)雜任務(wù)的推理能力。

再舉個例子,，咱讓 Kimi 數(shù)學(xué)版統(tǒng)計(jì) “ chaping debug the world ” 里,，有幾個字母 “e” 。

先分別把 “ chaping ”“ debug ”“ the ”“ world ” 單獨(dú)拎出來,，再挨個字母一個個查,，方法雖然笨，但至少不會出錯,。

就這么說吧,，這道簡單的數(shù)數(shù)題，世超試了一下,，只有 Claude 和 Kimi 數(shù)學(xué)版數(shù)對了,。

包括在 “ 我有一塊 1 米長的面包，每天吃一半,，需要幾天才能把這塊面包吃完 ? ” 的問題中,，在大部分 AI 給出永遠(yuǎn)吃不完的答案時,， Kimi 數(shù)學(xué)版覺得 “ 是有物理極限的 ” ,，認(rèn)為分到了一納米就不能分了。,。,。

這種對任務(wù)拆解的能力,，夸張到什么程度,，即使你問它 1+1 等于多少， Kimi 數(shù)學(xué)版都能給你嘮半天,，截圖根本截不完,。

另外,，在思維鏈的作用下,，對糾正 AI 模型犯蠢、不會抓重點(diǎn)的老毛病也有一定效果,。

像前段時間蘋果就發(fā)了篇論文,，大概意思是說模型壓根就不會推理，隨便加幾個無關(guān)痛癢的干擾條件,，模型的準(zhǔn)確率就會下降,。

但世超這次分別拿 Kimi 數(shù)學(xué)版和豆包試了試，題目是：超市里,，每袋大米售價 50 元,，每瓶醬油售價 10 元。如果鮮蝦包購買了 4 袋大米和 4 瓶醬油,，并且送給鄰居 1 袋大米和 2 瓶醬油,，那么鮮蝦包購買大米比醬油多花了多少錢？

這道題,，還特地加了 “ 送給鄰居 1 袋大米和 2 瓶醬油 ” 的陷阱,。

豆包多少就有點(diǎn)不懂人情世故了，還把自個兒留存的大米和醬油單獨(dú)拎出來算,。

反觀 Kimi 數(shù)學(xué)版，深知送出去的禮物潑出去的水,。

反正測試下來， k0-math 的解題準(zhǔn)確率不能說百分百,，但調(diào)用了思維鏈之后的邏輯推理過程,，很大程度上提高了 Kimi 這個做題家的數(shù)學(xué)水平,。

而且世超也發(fā)現(xiàn)，除了 k0-math 外,，國內(nèi)的幻方 DeepSeek 前兩天也搞了個推理模型 DeepSeek-R1-Lite ,，同樣也是紙上水平媲美 o1 。

又是 o1 系列,，又是 k0-math 、 DeepSeek-R1-Lite ,，可能有差友也好奇,，之前不是還在長文本嗎，這怎么突然就卷起了推理能力了,？

其實(shí),，傳統(tǒng)的拼算力、拼數(shù)據(jù)在大模型領(lǐng)域,，已經(jīng)遇到了一定的瓶頸,，而靠著強(qiáng)化學(xué)習(xí)，提高大模型的推理能力,，已經(jīng)成了大伙們卷的新方向,。

這強(qiáng)化學(xué)習(xí)說白了，就是在訓(xùn)練時讓 AI 自己試錯,，最后摸索出正確答案,。

像 Claude Sonnet 3.5 就是基于強(qiáng)化學(xué)習(xí)，實(shí)現(xiàn)了代碼能力的提升,。包括 Kimi 創(chuàng)始人楊植麟在前陣子的媒體分享會上,，也無數(shù)次 cue 到了強(qiáng)化學(xué)習(xí)，還說他們接下來會越來越關(guān)注基于強(qiáng)化學(xué)習(xí)的方法去繼續(xù)迭代,。

最后,，借用楊植麟的 “ 登月論 ” ，如果說,，先前的長文本是通往 AGI 的第一步,，那么現(xiàn)在讓 AI 學(xué)會思考，則是正式開啟了第二階段,。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：九月長安joy168 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)