LLMs之o1:《O1 Replication Journey: A Strategic Progress Report》翻譯與解讀
導(dǎo)讀:2024年10月09日,上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告《O1 Replication Journey: A Strategic Progress Report》,主要對(duì)OpenAI的O1模型的復(fù)制嘗試及其研究過(guò)程,探討了NLP模型在解決復(fù)雜任務(wù)中的表現(xiàn),尤其是在“旅程學(xué)習(xí)”范式下的應(yīng)用,。
>> 背景痛點(diǎn):
● 現(xiàn)代AI研究的挑戰(zhàn):傳統(tǒng)的AI研究模式難以應(yīng)對(duì)大型,、長(zhǎng)期,、協(xié)作性的項(xiàng)目,往往需要大量數(shù)據(jù)以及專門(mén)的模型微調(diào),這些項(xiàng)目通常需要大量的資源和時(shí)間,而僅僅在研究結(jié)束時(shí)發(fā)表成果已不足以滿足該領(lǐng)域的需要,。
● “捷徑學(xué)習(xí)”的局限性:許多現(xiàn)有的機(jī)器學(xué)習(xí)和大型語(yǔ)言模型方法依賴于大量數(shù)據(jù)來(lái)快速取得成果(“捷徑學(xué)習(xí)”),即通過(guò)簡(jiǎn)化過(guò)程或記憶訓(xùn)練數(shù)據(jù)來(lái)獲得結(jié)果,而不是深入理解和探索問(wèn)題的解決路徑,。但這種方法在泛化能力和自我糾錯(cuò)能力方面存在不足,難以應(yīng)對(duì)復(fù)雜,、動(dòng)態(tài)和開(kāi)放式的問(wèn)題,。
>> 具體的解決方案:為了解決上述痛點(diǎn),論文提出了“旅程學(xué)習(xí)”范式,強(qiáng)調(diào)讓模型通過(guò)完整的探索過(guò)程(包括試錯(cuò)、反思,、回溯)來(lái)解決復(fù)雜任務(wù),。這與傳統(tǒng)的捷徑學(xué)習(xí)形成鮮明對(duì)比, 這是一種超越傳統(tǒng)任務(wù)導(dǎo)向的學(xué)習(xí)方法,強(qiáng)調(diào)持續(xù)學(xué)習(xí)、反思和適應(yīng),。 它旨在培養(yǎng)AI系統(tǒng)能夠像人類一樣進(jìn)行思考,。此外,研究引入了“長(zhǎng)思維”方法,即模型在解決問(wèn)題時(shí)不只是通過(guò)直接計(jì)算,而是通過(guò)多層次推理、反思以及自我糾正,逐步推進(jìn)問(wèn)題的解決,。該方法尤其適用于復(fù)雜的數(shù)學(xué)推理任務(wù)和多步驟決策問(wèn)題,。
● 嘗試錯(cuò)誤 (Trial-and-error):允許模型探索多種解題路徑,從錯(cuò)誤中學(xué)習(xí)。
● 自我反思 (Self-reflection):模型能夠評(píng)估其自身的推理過(guò)程,識(shí)別錯(cuò)誤,。
● 自我糾正 (Self-correction):模型能夠糾正錯(cuò)誤并改進(jìn)其方法,。
● 回溯 (Backtracking):模型能夠回溯到之前的步驟,重新評(píng)估和調(diào)整其策略。
>> 核心思路步驟:論文詳細(xì)闡述了如何構(gòu)建“旅程學(xué)習(xí)”模型,包括以下幾個(gè)關(guān)鍵步驟:
● 對(duì)O1模型的思考過(guò)程進(jìn)行分析:研究團(tuán)隊(duì)分析了OpenAI提供的O1模型的推理示例,觀察其在不同難度問(wèn)題上的表現(xiàn),并分析了關(guān)鍵詞頻率,以了解O1模型的思考模式,。
構(gòu)建“長(zhǎng)思考” (Long Thought):論文探討了多種構(gòu)建“長(zhǎng)思考”的方法,包括:
● 基于樹(shù)搜索的LLM和獎(jiǎng)勵(lì)模型:將推理建模為樹(shù)搜索,使用獎(jiǎng)勵(lì)模型引導(dǎo)搜索過(guò)程,并在發(fā)現(xiàn)錯(cuò)誤路徑時(shí)進(jìn)行回溯,。
●●提出-批判循環(huán) (Propose-Critique Loop):允許模型選擇其當(dāng)前的動(dòng)作(繼續(xù)、回溯,、反思,、終止),并通過(guò)批判模型的反饋來(lái)指導(dǎo)模型的學(xué)習(xí)。
●●多智能體方法:使用兩個(gè)智能體(策略模型和批判模型)進(jìn)行對(duì)話,構(gòu)建“長(zhǎng)思考”數(shù)據(jù)集,。
●●人工標(biāo)注人類思考過(guò)程:通過(guò)觀察人類解決問(wèn)題的過(guò)程,標(biāo)注高質(zhì)量的“長(zhǎng)思考”過(guò)程,。
● 構(gòu)建獎(jiǎng)勵(lì)模型:論文探討了如何構(gòu)建有效的獎(jiǎng)勵(lì)模型,重點(diǎn)在于細(xì)粒度的評(píng)估,而不是僅僅評(píng)估最終結(jié)果。
● 構(gòu)建基于策略的推理樹(shù):使用策略模型進(jìn)行單步推理,構(gòu)建推理樹(shù),并使用束搜索進(jìn)行剪枝,提高效率,。
● 從推理樹(shù)中導(dǎo)出“長(zhǎng)思考”:使用深度優(yōu)先搜索 (DFS) 探索推理樹(shù),生成包含正確和錯(cuò)誤路徑的“長(zhǎng)思考”,并使用GPT-4o進(jìn)行潤(rùn)色,。
● 評(píng)估試驗(yàn):除了使用特定評(píng)估指標(biāo)測(cè)試準(zhǔn)確性分?jǐn)?shù)外,論文還構(gòu)建了一個(gè)可視化數(shù)據(jù)分析平臺(tái),用于更直觀地評(píng)估模型性能。
● 模型訓(xùn)練:論文描述了模型訓(xùn)練的兩個(gè)階段:監(jiān)督微調(diào) (SFT) 和直接偏好學(xué)習(xí) (DPO)。 SFT 包括“捷徑學(xué)習(xí)”和“旅程學(xué)習(xí)”兩個(gè)階段,。
>> 優(yōu)勢(shì):
● 超越“捷徑學(xué)習(xí)”:“旅程學(xué)習(xí)”克服了“捷徑學(xué)習(xí)”的局限性,能夠處理更復(fù)雜的問(wèn)題,。
● 可解釋性強(qiáng):模型能夠解釋其推理過(guò)程,包括如何從錯(cuò)誤中恢復(fù)。
● 更接近人類認(rèn)知:模型的思考過(guò)程更接近人類的認(rèn)知過(guò)程,。
>> 結(jié)論和觀點(diǎn):
● 該團(tuán)隊(duì)成功地開(kāi)發(fā)了一個(gè)能夠模擬O1模型部分能力的模型,并提出了“旅程學(xué)習(xí)”這一新的學(xué)習(xí)范式,。“旅程學(xué)習(xí)”強(qiáng)調(diào)持續(xù)學(xué)習(xí),、反思和適應(yīng),能夠提高AI系統(tǒng)的泛化能力和自我糾錯(cuò)能力,。
● 論文詳細(xì)闡述了構(gòu)建“旅程學(xué)習(xí)”模型的各個(gè)步驟,并提供了相應(yīng)的實(shí)驗(yàn)結(jié)果和分析。研究表明,與傳統(tǒng)方法相比,旅程學(xué)習(xí)在處理復(fù)雜任務(wù)時(shí)展現(xiàn)出卓越的表現(xiàn),特別是在MATH數(shù)據(jù)集上,旅程學(xué)習(xí)范式的效果明顯優(yōu)于捷徑學(xué)習(xí),性能提升超過(guò)8%,。
● 該研究為未來(lái)AI研究提供了一個(gè)新的方向,也為如何進(jìn)行和溝通AI研究提供了一種新的范例,。 通過(guò)公開(kāi)分享研究過(guò)程和資源,促進(jìn)了AI領(lǐng)域的透明化和協(xié)作。
總而言之,這篇論文不僅介紹了一種復(fù)制OpenAI O1模型的方法,更重要的是提出了一種新的AI學(xué)習(xí)范式——“旅程學(xué)習(xí)”,并詳細(xì)闡述了其實(shí)現(xiàn)方法和優(yōu)勢(shì),為AI領(lǐng)域的未來(lái)研究提供了寶貴的經(jīng)驗(yàn)和啟示,。
《O1 Replication Journey: A Strategic Progress Report》翻譯與解讀
地址 | 項(xiàng)目地址:https://github.com/GAIR-NLP/O1-Journey |
時(shí)間 | 2024年10月09日 |
作者 | 上海交通大學(xué) |
引言
我們展示了一些直觀的數(shù)學(xué)問(wèn)題示例,從中可以看出,我們當(dāng)前訓(xùn)練的模型展示了OpenAI O1具備的自我反思,、自我糾正和回溯能力,并在處理復(fù)雜問(wèn)題時(shí)表現(xiàn)良好。
案例1:(一個(gè)詳細(xì)的案例,將我們的模型與OpenAI O1-preview和GPT-4o進(jìn)行對(duì)比)
案例2:多項(xiàng)式乘法的代數(shù)問(wèn)題解決方案
案例3:余數(shù)問(wèn)題的解決方案
本文介紹了一種開(kāi)創(chuàng)性的人工智能研究方法,體現(xiàn)于我們的O1復(fù)制之旅,。響應(yīng)OpenAI推出的突破性O(shè)1模型的公告,我們開(kāi)啟了透明,、實(shí)時(shí)的探索,旨在復(fù)制其能力,同時(shí)重新構(gòu)想進(jìn)行和傳播AI研究的過(guò)程。
關(guān)于進(jìn)度報(bào)告
現(xiàn)代AI研究通常需要長(zhǎng)時(shí)間的協(xié)作,超越了傳統(tǒng)的短期個(gè)人項(xiàng)目,。這類研究通常需要大型團(tuán)隊(duì)、廣泛的計(jì)算資源,以及歷時(shí)數(shù)月甚至數(shù)年的迭代實(shí)驗(yàn),。因此,傳統(tǒng)的僅在研究周期末期發(fā)布結(jié)果的方法,已無(wú)法滿足這一領(lǐng)域的需求,。因此,我們通過(guò)全面的、實(shí)時(shí)的記錄來(lái)重構(gòu)AI研究的進(jìn)行和傳播方式,詳盡展示我們復(fù)制O1模型的歷程,。
學(xué)習(xí)之旅
目前許多機(jī)器學(xué)習(xí)和大語(yǔ)言模型的方法可歸類為“捷徑學(xué)習(xí)”,。這種方法側(cè)重于依靠大量數(shù)據(jù)快速提升性能,但在泛化能力方面表現(xiàn)不佳,往往在超出訓(xùn)練數(shù)據(jù)的情況下效果較差,并且缺乏自我糾錯(cuò)的能力。盡管這種方法推動(dòng)了AI的發(fā)展,但它在處理復(fù)雜,、動(dòng)態(tài)和開(kāi)放性問(wèn)題時(shí)存在局限性,不適合開(kāi)發(fā)真正智能的AI,。
為了解決這些局限性,我們提出了一種新方法:“旅程學(xué)習(xí)”。這種范式超越了傳統(tǒng)對(duì)特定任務(wù)的關(guān)注,強(qiáng)調(diào)通過(guò)學(xué)習(xí),、反思和適應(yīng)實(shí)現(xiàn)持續(xù)進(jìn)步,。遵循這種方法的AI系統(tǒng)可以隨著時(shí)間的推移不斷進(jìn)化,提升其應(yīng)對(duì)現(xiàn)實(shí)世界復(fù)雜性的能力。與捷徑學(xué)習(xí)不同,旅程學(xué)習(xí)賦予AI適應(yīng),、回溯和改進(jìn)其理解的能力,旨在創(chuàng)造更類似人類的智能,。這種轉(zhuǎn)變?yōu)锳I研究開(kāi)啟了新的可能性,能夠創(chuàng)建不僅能完成任務(wù),還能進(jìn)行推理和成長(zhǎng)的系統(tǒng),使其在各個(gè)領(lǐng)域與人類互動(dòng)時(shí)更加勝任。
探索之旅
我們探討了幾個(gè)問(wèn)題,突出O1認(rèn)知過(guò)程中的關(guān)鍵方面,。我們從O1思維結(jié)構(gòu)的分析開(kāi)始,逐步擴(kuò)展到更高級(jí)的概念,如獎(jiǎng)勵(lì)模型的開(kāi)發(fā),、基于策略的推理樹(shù),以及這些元素如何在構(gòu)建長(zhǎng)思維時(shí)結(jié)合在一起。我們的方法如研究時(shí)間軸所示,強(qiáng)調(diào)迭代評(píng)估和訓(xùn)練策略,結(jié)合定量評(píng)估和人類反饋。
O1的思維是什么樣的?
我們的分析聚焦于OpenAI提供的O1推理實(shí)例,其中包括復(fù)雜任務(wù)的八個(gè)解題步驟,。我們按問(wèn)題類型和難度對(duì)這些例子進(jìn)行了分類,觀察到隨著問(wèn)題難度的增加,模型的響應(yīng)長(zhǎng)度(包括token數(shù)量和行數(shù))也相應(yīng)增加,。這一趨勢(shì)表明,更具挑戰(zhàn)性的問(wèn)題需要更多的推理步驟。
除了響應(yīng)長(zhǎng)度,我們還分析了關(guān)鍵詞的頻率,。像“考慮”,、“如果”和“可能”這類詞在更復(fù)雜的問(wèn)題中出現(xiàn)頻繁,表明模型在探索多條解決路徑。像“等待”和“或者”這樣的關(guān)鍵詞則表明模型具備反思和自我糾正的能力,顯示出更深層次的非線性推理過(guò)程,。
此外,我們還手動(dòng)審查了O1解決數(shù)學(xué)問(wèn)題的方式,揭示了一種系統(tǒng)的思維過(guò)程,。該模型采用迭代的解題技術(shù),逐步分解復(fù)雜的方程,并頻繁重新評(píng)估其步驟以確保一致性。它還測(cè)試了多種假設(shè),最終通過(guò)驗(yàn)證其最終解決方案來(lái)確保推理的準(zhǔn)確性和可靠性,。
長(zhǎng)思維是如何工作的?
雖然我們?nèi)蕴幱诩僭O(shè)階段,尚無(wú)足夠的實(shí)證數(shù)據(jù)支持,但我們認(rèn)為O1長(zhǎng)思維方法的成功歸因于前述的旅程學(xué)習(xí),。與捷徑學(xué)習(xí)不同,旅程學(xué)習(xí)允許模型探索整個(gè)決策過(guò)程,類似于人類的解題方式。O1能夠考慮多條解決路徑,從錯(cuò)誤中學(xué)習(xí),并對(duì)問(wèn)題有更深刻的理解——不僅僅是找到正確答案,還要理解為什么以及如何得到答案,。
通過(guò)探索正確和錯(cuò)誤的路徑,O1提升了其處理錯(cuò)誤和應(yīng)對(duì)新挑戰(zhàn)的能力,。該試錯(cuò)過(guò)程結(jié)合反思和調(diào)整,類似于人類的認(rèn)知過(guò)程,增強(qiáng)了模型的可解釋性。O1不僅能提供正確的解決方案,還能解釋其背后的推理,包括如何從錯(cuò)誤中恢復(fù)過(guò)來(lái),。正是這種全面的探索使得O1在處理復(fù)雜問(wèn)題并提供可靠,、可解釋的答案時(shí)表現(xiàn)出色。
如何構(gòu)建長(zhǎng)思維?
通過(guò)反思和回溯等行動(dòng)構(gòu)建長(zhǎng)思維是旅程學(xué)習(xí)的關(guān)鍵元素,。我們探索了幾種實(shí)現(xiàn)這一目標(biāo)的方法,。
-
嘗試1:基于LLM和獎(jiǎng)勵(lì)的樹(shù)搜索:在此方法中,推理被建模為樹(shù)上的搜索,問(wèn)題為根節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)代表推理步驟。當(dāng)識(shí)別出錯(cuò)誤路徑時(shí),模型會(huì)回溯以找到正確的解決方案,。一個(gè)細(xì)粒度的獎(jiǎng)勵(lì)模型指導(dǎo)這一過(guò)程,將錯(cuò)誤納入推理鏈中,。
-
嘗試2:提出-批判循環(huán):嘗試1通過(guò)基于預(yù)定義規(guī)則在樹(shù)上執(zhí)行搜索來(lái)構(gòu)建長(zhǎng)思維,但這限制了回溯和反思等行動(dòng)的自由度。因此,我們?cè)试S模型選擇當(dāng)前的行動(dòng),。我們構(gòu)建了一個(gè)提出-批判循環(huán),預(yù)定義了一些可能的行動(dòng)(例如繼續(xù),、回溯、反思,、終止),并讓模型選擇行動(dòng)來(lái)構(gòu)建推理樹(shù),。如果樹(shù)未達(dá)到最終答案,模型會(huì)被告知這一負(fù)面信號(hào),從而引導(dǎo)其反思并糾正方法。
-
嘗試3:多代理方法:在推理樹(shù)的基礎(chǔ)上構(gòu)建長(zhǎng)思維面臨諸多挑戰(zhàn),包括存在大量無(wú)效節(jié)點(diǎn)和由不依賴反思行為的推理步驟引發(fā)的邏輯不一致問(wèn)題,。為了解決這些問(wèn)題,我們?cè)O(shè)計(jì)了一個(gè)算法,利用多代理辯論,其中一個(gè)代理充當(dāng)策略模型,持續(xù)推理,另一個(gè)代理作為批評(píng)模型,指出策略模型是否應(yīng)繼續(xù)當(dāng)前推理或執(zhí)行回溯等操作,。這兩個(gè)代理進(jìn)行持續(xù)對(duì)話,當(dāng)找到正確答案時(shí),自然地構(gòu)建了長(zhǎng)思維數(shù)據(jù)集。
-
嘗試4:人類思維過(guò)程標(biāo)注:通過(guò)觀察人類如何通過(guò)反思,、回溯和修正解決推理問(wèn)題,我們可以全面記錄和建模出反映類似人類推理的高質(zhì)量長(zhǎng)思維過(guò)程,。
如何構(gòu)建獎(jiǎng)勵(lì)模型?
構(gòu)建有效的獎(jiǎng)勵(lì)模型的第一步是確定適當(dāng)?shù)牧6取N覀儾粌H評(píng)估最終結(jié)果,還關(guān)注步驟級(jí)粒度,以增強(qiáng)LLM在反思和回溯方面的能力,。使用微調(diào)數(shù)據(jù),我們按行號(hào)區(qū)分解決方案,以捕捉更詳細(xì)的認(rèn)知過(guò)程,。
我們?cè)赑RM800K和MR-GSM8K數(shù)據(jù)集的子集上測(cè)試了開(kāi)源和專有的獎(jiǎng)勵(lì)模型,并比較了它們的性能,。結(jié)果顯示,O1-mini在不同數(shù)據(jù)集上始終表現(xiàn)最佳。
如何構(gòu)建基于策略的推理樹(shù)?
構(gòu)建推理樹(shù)需要一個(gè)執(zhí)行單步推理的策略模型,。以問(wèn)題為根節(jié)點(diǎn),模型生成可能的推理步驟作為子節(jié)點(diǎn),并反復(fù)進(jìn)行,直到達(dá)到最大深度或找到正確答案,。
-
策略模型與步驟分段:為了結(jié)構(gòu)化推理步驟,我們使用Abel的數(shù)據(jù)集,微調(diào)DeepSeekMath-7B-Base以創(chuàng)建Abel-DSMath。該模型按行清晰地分段生成推理步驟,從而實(shí)現(xiàn)受控和精確的逐步推理,。
-
獎(jiǎng)勵(lì)模型與剪枝:生成推理樹(shù)的計(jì)算成本很高,。為了解決這一問(wèn)題,我們實(shí)施了束搜索,以剪枝錯(cuò)誤步驟并提高效率。我們測(cè)試了兩個(gè)獎(jiǎng)勵(lì)模型:math-shepherd和o1-mini,。math-shepherd為每一步評(píng)估正確性的概率,而o1-mini則提供更穩(wěn)健的步驟級(jí)獎(jiǎng)勵(lì),直接指示推理步驟是否正確,。通過(guò)在每次迭代中選擇得分最高的K個(gè)步驟,我們顯著減少了生成的步驟數(shù)量,從而提高了效率。
如何從推理樹(shù)中推導(dǎo)出“長(zhǎng)思維”?
一旦推理樹(shù)構(gòu)建完成,下一步是推導(dǎo)出包含試錯(cuò)過(guò)程的“長(zhǎng)思維”,超越僅關(guān)注正確答案的傳統(tǒng)捷徑,。
-
構(gòu)建捷徑:首先,我們從推理樹(shù)中構(gòu)建捷徑,該路徑只包含正確答案和有效的中間步驟,。我們從代表問(wèn)題的根節(jié)點(diǎn)開(kāi)始,識(shí)別通往正確答案葉節(jié)點(diǎn)的路徑。如果有多個(gè)正確答案節(jié)點(diǎn),將建立多條正確路徑,。
-
遍歷路徑:為了生成長(zhǎng)思維,我們使用深度優(yōu)先搜索(DFS)探索推理樹(shù),。DFS同時(shí)探索正確和錯(cuò)誤路徑,記錄每一步及其推理。為了簡(jiǎn)化過(guò)程并減少過(guò)度探索,我們?cè)O(shè)置了約束條件——每個(gè)節(jié)點(diǎn)的錯(cuò)誤路徑只允許有限次數(shù)的嘗試,。
-
構(gòu)建長(zhǎng)思維:在生成遍歷路徑后,我們編寫(xiě)了一個(gè)初步的長(zhǎng)思維草稿,包含對(duì)正確和錯(cuò)誤步驟的推理,。然而,初稿的結(jié)果表現(xiàn)欠佳,因此我們使用GPT-4o對(duì)草稿進(jìn)行了改進(jìn),提升了連貫性,同時(shí)保留了反思、修正和推理步驟,。最終的長(zhǎng)思維不僅捕捉了完整的解題過(guò)程,還能自然流暢地模擬類似人類的推理過(guò)程,。
如何評(píng)估我們的試驗(yàn)?
除了使用特定評(píng)估指標(biāo)在基準(zhǔn)測(cè)試中評(píng)估準(zhǔn)確性外,人工審查實(shí)際案例是評(píng)估數(shù)據(jù)和模型的關(guān)鍵步驟。因此,為了提供更直觀的方式來(lái)評(píng)估模型在特定問(wèn)題上的表現(xiàn),我們使用Streamlit構(gòu)建了一個(gè)可視化數(shù)據(jù)分析平臺(tái),。具體來(lái)說(shuō),我們的平臺(tái)包含合成推理樹(shù)及其對(duì)應(yīng)的長(zhǎng)思維的可視化,以及經(jīng)過(guò)訓(xùn)練的模型的輸出,。此外,在可視化結(jié)果時(shí),我們支持詳細(xì)的條件過(guò)濾,例如按正確或錯(cuò)誤回答的問(wèn)題進(jìn)行過(guò)濾,或過(guò)濾包含反思或猶豫關(guān)鍵字的輸出(如“等待”)。我們還支持對(duì)比不同迭代的合成數(shù)據(jù)和模型輸出,使得評(píng)估新的數(shù)據(jù)或模型是否有效變得直觀且易于驗(yàn)證,。
如何訓(xùn)練我們的模型?
階段1:監(jiān)督微調(diào)(SFT)
SFT過(guò)程包括兩個(gè)階段:
-
捷徑學(xué)習(xí):在這一初始階段,我們專注于通過(guò)僅包含正確中間步驟和最終正確答案的響應(yīng)來(lái)微調(diào)模型。我們使用Abel數(shù)據(jù)集(包含12萬(wàn)示例)和PRM800K數(shù)據(jù)集微調(diào)Deepseek-math-7b-base,。對(duì)于PRM800K中的每個(gè)問(wèn)題,我們只使用一個(gè)正確的逐步解答,丟棄未得出最終答案的響應(yīng),。最終,我們?yōu)槲⒄{(diào)收集了6998個(gè)示例。在這一階段,我們對(duì)每個(gè)數(shù)據(jù)集進(jìn)行一次訓(xùn)練,主要目的是使模型熟悉所需的響應(yīng)格式,。
-
旅程學(xué)習(xí):在第二階段,我們進(jìn)一步使用我們構(gòu)建的長(zhǎng)思維微調(diào)在第一階段微調(diào)的SFT模型,這些長(zhǎng)思維包含327個(gè)示例,。此階段旨在增強(qiáng)模型檢測(cè)錯(cuò)誤、進(jìn)行反思,、執(zhí)行修正和回溯的能力,。通過(guò)在包含正確推理路徑和錯(cuò)誤嘗試的長(zhǎng)思維上訓(xùn)練,我們希望模型能更深入地理解長(zhǎng)推理鏈的復(fù)雜性。作為對(duì)比,我們還在從相同推理樹(shù)生成的捷徑上微調(diào)模型,這同樣由327個(gè)示例組成,。長(zhǎng)思維SFT和捷徑SFT設(shè)置都在這327個(gè)示例上進(jìn)行了三輪訓(xùn)練,。
階段2:直接偏好學(xué)習(xí)(DPO)
在此階段,我們從MATH訓(xùn)練集生成每個(gè)問(wèn)題的20個(gè)響應(yīng),該數(shù)據(jù)集是從PRM800K重新劃分的,包含12,000個(gè)示例。我們使用nucleus采樣,設(shè)置top_p=0.95和溫度T=0.7。然后根據(jù)最終答案的正確性將這些20個(gè)響應(yīng)分為正面和負(fù)面響應(yīng),。從中我們隨機(jī)選擇5個(gè)正面響應(yīng)和5個(gè)負(fù)面響應(yīng),創(chuàng)建5對(duì)偏好對(duì),。我們通過(guò)DPO損失訓(xùn)練模型,讓它從正確和錯(cuò)誤答案的比較中學(xué)習(xí)。
結(jié)果
人類與AI協(xié)作的有效標(biāo)注策略是什么?
我們開(kāi)發(fā)了一個(gè)人類-AI協(xié)作流程,基于MATH數(shù)據(jù)集生成高質(zhì)量的長(zhǎng)篇推理數(shù)據(jù),遵循我們的“旅程學(xué)習(xí)”范式,。該流程通過(guò)使用關(guān)鍵技術(shù),確保高效標(biāo)注,將人類標(biāo)注的解決方案從幾行擴(kuò)展到數(shù)千個(gè)token,。
-
完整的思維過(guò)程:記錄試驗(yàn)、反思,、關(guān)聯(lián)和修正過(guò)程至關(guān)重要,。即使是未被有意識(shí)識(shí)別的認(rèn)知轉(zhuǎn)變也應(yīng)記錄,因?yàn)樗鼈儗?duì)訓(xùn)練大型語(yǔ)言模型至關(guān)重要。
-
明確的常識(shí)解釋:為了避免LLMs產(chǎn)生幻覺(jué),人工標(biāo)注應(yīng)包含明確的常識(shí)知識(shí)解釋,即使看似顯而易見(jiàn)的信息也應(yīng)寫(xiě)出,以確保LLMs不會(huì)誤解省略的信息,。
一旦人類標(biāo)注完成,AI驅(qū)動(dòng)的流程便會(huì)接管,。我們使用復(fù)雜的提示進(jìn)行數(shù)據(jù)擴(kuò)充,具體方式如下:
-
數(shù)據(jù)粒度:我們將解題過(guò)程分解為更小、更易消化的步驟,以增強(qiáng)理解,。
-
漸進(jìn)推理:通過(guò)提示LLMs暫停和反思,模擬學(xué)生思考和處理信息的過(guò)程,。
-
學(xué)生-探險(xiǎn)者視角:LLMs以好奇的態(tài)度進(jìn)行問(wèn)題求解,像是第一次思考問(wèn)題一樣,鼓勵(lì)在學(xué)習(xí)過(guò)程中進(jìn)行批判性思考。