久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

Kimi的數(shù)學(xué)模型來了,,這次甚至能挑戰(zhàn)高考

 九月長安joy168 2024-11-28 發(fā)布于廣東

消停了一陣子之后,國內(nèi)又有大模型公司打榜 OpenAI 了,。

這不,, Kimi 最近推了個數(shù)學(xué)模型 k0-math ,號稱數(shù)學(xué)能力可以媲美 OpenAI 的 o1-mini 和 o1-preview ,,中高考,、考研還有入門競賽題都能跟 o1 過過招。

Kimi的數(shù)學(xué)模型來了,,這次甚至能挑戰(zhàn)高考

該說不說,, AI 模型開始 “ 炒作 ” 起數(shù)學(xué)能力,這事兒還挺稀奇,,畢竟 AI 的數(shù)學(xué)能力拉胯也不是一天兩天了,,連 strawberry 里有幾個 r 都一直數(shù)不清。,。,。

就連 OpenAI 的 o1 發(fā)布時,也沒有直說自己的數(shù)學(xué)多么多么厲害,,只是點(diǎn)了一下推理能力罷了,。

所以原本以長文本出圈兒的 Kimi ,這回突然卷起了數(shù)學(xué),,世超確實(shí)很好奇,,好奇這個 k0-math 到底啥水平啊,?

而世超在哥們兒的幫助下,,也提前體驗(yàn)了一陣子,今天就借著 Kimi 數(shù)學(xué)版( 基于 k0-math 模型 )全量開放了,,帶著大家瞧瞧這個數(shù)學(xué)模型有多少斤兩,。

Kimi的數(shù)學(xué)模型來了,這次甚至能挑戰(zhàn)高考

目前,, Kimi 數(shù)學(xué)版只能在網(wǎng)頁版上用,,入口倒是跟之前的普通版和探索版沒啥區(qū)別,但有一點(diǎn),,Kimi 數(shù)學(xué)版只支持一輪對話,。

像世超一上來,,就直戳 Kimi 痛處翻了波舊賬,問它 “13.11% 和 13.8% ,,哪個更大,? ” 。(之前 Kimi 在這上面翻過車,,說 13.11 的整數(shù)部分和小數(shù)部分都大于 13.8 ,。。 )

這次倒是學(xué)機(jī)靈了,,而且很簡單的比數(shù)值大小,, Kimi 數(shù)學(xué)版都用上了 “ 為了進(jìn)一步確認(rèn) ”“ 為了確保萬無一失 ”“ 經(jīng)過多種方法的驗(yàn)證 ” 這些話術(shù), kuku 輸出了二三十行,。

Kimi的數(shù)學(xué)模型來了,,這次甚至能挑戰(zhàn)高考

只不過當(dāng)世超想再次追問的時候,出來的就不是 k0-math 模型了,。

當(dāng)然,,這只是個小插曲,既然官方都已經(jīng)把 k0-math 的實(shí)力挑明,,那咱也不客氣了,。

直接上今年高考新課標(biāo) 1 卷的數(shù)學(xué)題:已知 cos ( a+ β) =m , tanatan β =2 ,,則 cos ( a- β) = ,?

雖說解題過程有些波折,但總算是沒把最后 -3m 的答案弄錯,。

Kimi的數(shù)學(xué)模型來了,,這次甚至能挑戰(zhàn)高考

這個問題我同時也問了智譜清言和 ChatGPT ,答案倒是沒出入,,但區(qū)別于一個步驟一個步驟列出來,, Kimi 數(shù)學(xué)版給我一種,它真的在模仿人類思考的過程,。

模型在推導(dǎo)的過程中,,懷疑過自己的思路可能是錯誤的,并且對此進(jìn)行了驗(yàn)證,。

Kimi的數(shù)學(xué)模型來了,,這次甚至能挑戰(zhàn)高考

但下面這道概率題, Kimi 數(shù)學(xué)版就沒那么好運(yùn)了,。

Kimi的數(shù)學(xué)模型來了,這次甚至能挑戰(zhàn)高考

標(biāo)準(zhǔn)答案是 1/2 ,,只有 ChatGPT 答對了,。

世超看了眼 Kimi 數(shù)學(xué)版的推導(dǎo)過程,, 24 種可能發(fā)生的情況它都列舉出來了,而且每一種情況誰輸誰贏也盤得清清楚楚,,甚至最后還檢查了一遍,。

Kimi的數(shù)學(xué)模型來了,這次甚至能挑戰(zhàn)高考

但最大的問題出在,,它把甲的總得分≥ 2 的次數(shù),,漏數(shù)了一個。,。,。實(shí)屬可惜。

咱再找一道 AMC 數(shù)學(xué)競賽的題目,,給 Kimi 數(shù)學(xué)版試試,。

一個集合由 6 個( 不是不同的 )正整數(shù)組成:1 、 7 ,、 5 ,、 2 、 5 和 X ,。6 個數(shù)字的平均值( 算術(shù)平均值 )等于集合中的一個值,。X 的所有可能值之和是多少?

這次世超還把豆包也加進(jìn)來了,,同一道題,,四個模型只有智譜清言的算錯了。(正確答案是36)

Kimi的數(shù)學(xué)模型來了,,這次甚至能挑戰(zhàn)高考

還有個小插曲,,本來世超想再給 Kimi 試一道競賽題,結(jié)果它直接反過來質(zhì)疑我,。,。試了好幾次都是這么個回答,不知道是系統(tǒng)的 bug ,,還是它壓根就不會兒這題,,干脆裝死。

Kimi的數(shù)學(xué)模型來了,,這次甚至能挑戰(zhàn)高考

有一說一,,好幾道數(shù)學(xué)題試下來, Kimi 數(shù)學(xué)版確實(shí)給了我不少驚喜,,特別是解題過程中展現(xiàn)出來的思考,、推理的能力,又刷新了一波咱對 AI 模型數(shù)學(xué)能力的認(rèn)知,。

只可惜幾何題一如既往的菜,,只是一道初中級別的幾何選擇題,,給 Kimi 數(shù)學(xué)版的 CPU 都快干燒了,結(jié)果還是錯的答案,。

Kimi的數(shù)學(xué)模型來了,,這次甚至能挑戰(zhàn)高考

至于為啥 Kimi 的 k0-math 模型能有這么大的突破,前段時間世超參加了一場月之暗面的媒體會,,月之暗面的創(chuàng)始人楊植麟就告訴世超,, k0-math 的成功很大概率要?dú)w功于一個叫做 COT ( Chain of Thought )思維鏈的技術(shù)。

太專業(yè)的術(shù)語咱也不在這拽了,,大伙兒可以把這個 COT 理解為,, AI 模型模仿人類的大腦進(jìn)行邏輯推理,把復(fù)雜的任務(wù)拆解之后,,再一步步地解決,。把這個技術(shù)運(yùn)用到模型里,模型就能夠通過 “ 思考 ” 來完成任務(wù)并提高正確率,。

而為啥先把這東西用在了一個數(shù)學(xué)模型上,,楊植麟直接引用了伽利略的名言 “ 宇宙是由數(shù)學(xué)這門語言書寫而成的 ” 。

Kimi的數(shù)學(xué)模型來了,,這次甚至能挑戰(zhàn)高考

總之,,就是希望先從數(shù)學(xué)問題入手,再將數(shù)學(xué)的思維泛化,,從而去理解整個世界,。

當(dāng)然,并不是說模型一旦用上了思維鏈就能得到正確的答案,,但這個方式,,目前確實(shí)可以提高模型對復(fù)雜任務(wù)的推理能力。

再舉個例子,,咱讓 Kimi 數(shù)學(xué)版統(tǒng)計(jì) “ chaping debug the world ” 里,,有幾個字母 “e” 。

先分別把 “ chaping ”“ debug ”“ the ”“ world ” 單獨(dú)拎出來,,再挨個字母一個個查,,方法雖然笨,但至少不會出錯,。

就這么說吧,,這道簡單的數(shù)數(shù)題,世超試了一下,,只有 Claude 和 Kimi 數(shù)學(xué)版數(shù)對了,。

Kimi的數(shù)學(xué)模型來了,這次甚至能挑戰(zhàn)高考

包括在 “ 我有一塊 1 米長的面包,每天吃一半,,需要幾天才能把這塊面包吃完 ? ” 的問題中,,在大部分 AI 給出永遠(yuǎn)吃不完的答案時,, Kimi 數(shù)學(xué)版覺得 “ 是有物理極限的 ” ,,認(rèn)為分到了一納米就不能分了。,。,。

Kimi的數(shù)學(xué)模型來了,這次甚至能挑戰(zhàn)高考

這種對任務(wù)拆解的能力,,夸張到什么程度,,即使你問它 1+1 等于多少, Kimi 數(shù)學(xué)版都能給你嘮半天,,截圖根本截不完,。

Kimi的數(shù)學(xué)模型來了,這次甚至能挑戰(zhàn)高考

另外,,在思維鏈的作用下,,對糾正 AI 模型犯蠢、不會抓重點(diǎn)的老毛病也有一定效果,。

像前段時間蘋果就發(fā)了篇論文,,大概意思是說模型壓根就不會推理,隨便加幾個無關(guān)痛癢的干擾條件,,模型的準(zhǔn)確率就會下降,。

但世超這次分別拿 Kimi 數(shù)學(xué)版和豆包試了試,題目是:超市里,,每袋大米售價 50 元,,每瓶醬油售價 10 元。如果鮮蝦包購買了 4 袋大米和 4 瓶醬油,,并且送給鄰居 1 袋大米和 2 瓶醬油,,那么鮮蝦包購買大米比醬油多花了多少錢?

這道題,,還特地加了 “ 送給鄰居 1 袋大米和 2 瓶醬油 ” 的陷阱,。

豆包多少就有點(diǎn)不懂人情世故了,還把自個兒留存的大米和醬油單獨(dú)拎出來算,。

Kimi的數(shù)學(xué)模型來了,,這次甚至能挑戰(zhàn)高考

反觀 Kimi 數(shù)學(xué)版,深知送出去的禮物潑出去的水,。

Kimi的數(shù)學(xué)模型來了,,這次甚至能挑戰(zhàn)高考

反正測試下來, k0-math 的解題準(zhǔn)確率不能說百分百,,但調(diào)用了思維鏈之后的邏輯推理過程,,很大程度上提高了 Kimi 這個做題家的數(shù)學(xué)水平,。

而且世超也發(fā)現(xiàn),除了 k0-math 外,,國內(nèi)的幻方 DeepSeek 前兩天也搞了個推理模型 DeepSeek-R1-Lite ,,同樣也是紙上水平媲美 o1 。

Kimi的數(shù)學(xué)模型來了,,這次甚至能挑戰(zhàn)高考

又是 o1 系列,,又是 k0-math 、 DeepSeek-R1-Lite ,,可能有差友也好奇,,之前不是還在長文本嗎,這怎么突然就卷起了推理能力了,?

其實(shí),,傳統(tǒng)的拼算力、拼數(shù)據(jù)在大模型領(lǐng)域,,已經(jīng)遇到了一定的瓶頸,,而靠著強(qiáng)化學(xué)習(xí),提高大模型的推理能力,,已經(jīng)成了大伙們卷的新方向,。

這強(qiáng)化學(xué)習(xí)說白了,就是在訓(xùn)練時讓 AI 自己試錯,,最后摸索出正確答案,。

像 Claude Sonnet 3.5 就是基于強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)了代碼能力的提升,。包括 Kimi 創(chuàng)始人楊植麟在前陣子的媒體分享會上,,也無數(shù)次 cue 到了強(qiáng)化學(xué)習(xí),還說他們接下來會越來越關(guān)注基于強(qiáng)化學(xué)習(xí)的方法去繼續(xù)迭代,。

最后,,借用楊植麟的 “ 登月論 ” ,如果說,,先前的長文本是通往 AGI 的第一步,,那么現(xiàn)在讓 AI 學(xué)會思考,則是正式開啟了第二階段,。

Kimi的數(shù)學(xué)模型來了,,這次甚至能挑戰(zhàn)高考

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多