【新智元導(dǎo)讀】OpenAI o1和o3模型的秘密,,竟傳出被中國研究者「破解」,?今天,復(fù)旦等機構(gòu)的這篇論文引起了AI社區(qū)的強烈反響,,他們從強化學(xué)習(xí)的角度,,分析了實現(xiàn)o1的路線圖,并總結(jié)了現(xiàn)有的「開源版o1」,。就在今天,,國內(nèi)的一篇論文,引得全球AI學(xué)者震驚不已,。推上多位網(wǎng)友表示,,OpenAI o1和o3模型背后究竟是何原理——這一未解之謎,被中國研究者「發(fā)現(xiàn)」了!注:作者是對如何逼近此類模型進(jìn)行了理論分析,,并未聲稱已經(jīng)「破解」了這個問題實際上,,在這篇長達(dá)51頁的論文中,來自復(fù)旦大學(xué)等機構(gòu)的研究人員,,從強化學(xué)習(xí)的角度分析了實現(xiàn)o1的路線圖,。其中,有四個關(guān)鍵部分需要重點關(guān)注:策略初始化,、獎勵設(shè)計,、搜索和學(xué)習(xí)。此外,,作為路線圖的一部分,,研究者還總結(jié)出了現(xiàn)有的「開源版o1」項目。論文地址:https:///abs/2412.14135
概括來說,,像o1這樣的推理模型,,可以被認(rèn)為是LLM和AlphaGo這類模型的結(jié)合。首先,,模型需要通過「互聯(lián)網(wǎng)數(shù)據(jù)」進(jìn)行訓(xùn)練,,使它們能夠理解文本,并達(dá)到一定的智能水平,。然后,,再加入強化學(xué)習(xí)方法,讓它們「系統(tǒng)地思考」,。最后,,在尋找答案的過程中,模型會去「搜索」解決方案空間,。這種方法既用于實際的「測試時」回答,,也用于改進(jìn)模型,即「學(xué)習(xí)」,。 值得一提的是,,斯坦福和谷歌在2022年的「STaR: Self-Taught Reasoner」論文中提出,可以利用LLM在回答問題之前生成的「推理過程」來微調(diào)未來的模型,,從而提高它們回答此類問題的能力,。STaR讓AI模型能夠通過反復(fù)生成自己的訓(xùn)練數(shù)據(jù),自我「引導(dǎo)」到更高的智能水平,,理論上,這種方法可以讓語言模型超越人類水平的智能,。 因此,,讓模型「深入分析解決方案空間」的這一理念,在訓(xùn)練階段和測試階段都扮演著關(guān)鍵角色。在這項工作中,,研究者主要從以下四個層面對o1的實現(xiàn)進(jìn)行了分析:策略初始化,、獎勵設(shè)計、搜索,、學(xué)習(xí),。策略初始化策略初始化使模型能夠發(fā)展出「類人推理行為」,從而具備高效探索復(fù)雜問題解空間的能力,。獎勵設(shè)計獎勵設(shè)計則通過獎勵塑造或建模提供密集有效的信號,指導(dǎo)模型的學(xué)習(xí)和搜索過程,。搜索搜索在訓(xùn)練和測試中都起著至關(guān)重要的作用,,即通過更多計算資源可以生成更優(yōu)質(zhì)的解決方案。搜索過程中使用的指導(dǎo)類型:內(nèi)部指導(dǎo),、外部指導(dǎo),,以及兩者的結(jié)合學(xué)習(xí)從人工專家數(shù)據(jù)中學(xué)習(xí)需要昂貴的數(shù)據(jù)標(biāo)注。相比之下,,強化學(xué)習(xí)通過與環(huán)境的交互進(jìn)行學(xué)習(xí),,避免了高昂的數(shù)據(jù)標(biāo)注成本,并有可能實現(xiàn)超越人類的表現(xiàn),。綜上,正如研究者們在2023年11月所猜測的,,LLM下一個突破,,很可能就是與谷歌Deepmind的Alpha系列(如AlphaGo)的某種結(jié)合。對此,,有網(wǎng)友表示,,這項研究的意義絕不僅僅是發(fā)表了一篇論文,它還為大多數(shù)模型打開了大門,,讓其他人可以使用RL來實現(xiàn)相同的概念,,提供不同類型的推理反饋,同時還開發(fā)了AI可以使用的劇本和食譜,。研究者總結(jié)道,,盡管o1尚未發(fā)布技術(shù)報告,但學(xué)術(shù)界已經(jīng)提供了多個o1的開源實現(xiàn),。此外,,工業(yè)界也有一些類似o1的模型,例如 k0-math,、skywork-o1,、Deepseek-R1,、QwQ和InternThinker。g1:這項研究可能是最早嘗試重新實現(xiàn)o1的項目,。 Thinking Claude:與g1類似,,但它通過更復(fù)雜和細(xì)粒度的操作來提示LLM。 Open-o1:項目提出了一個SFT數(shù)據(jù)集,,其中每個響應(yīng)都包含CoT,。研究者推測,這些數(shù)據(jù)可能來自人類專家或一個強大的LLM,。 o1 Journey:通過兩篇技術(shù)報告中進(jìn)行了詳細(xì)描述,。第一部分通過束搜索生成的樹數(shù)據(jù)進(jìn)行遍歷,特定節(jié)點由GPT-4優(yōu)化后用于SFT,,這一策略可以被描述為專家迭代,。第二部分則嘗試對o1-mini進(jìn)行蒸餾,并通過prompt來恢復(fù)隱藏的CoT過程,。 Open-Reasoner:框架類似于AlphaGo,,通過強化學(xué)習(xí)提升模型性能。 慢思考與LLM:研究同樣分為兩篇技術(shù)報告,。第一部分與Open-Reasoner類似,,結(jié)合了強化學(xué)習(xí)和測試時的搜索。第二部分從QwQ和Deepseek-R1中蒸餾,,并嘗試了兩種強化學(xué)習(xí)方法,。 Marco-o1:項目將Open-o1的數(shù)據(jù)與模型自身通過MCTS算法生成的數(shù)據(jù)結(jié)合,,用于SFT訓(xùn)練,。 o1-coder:項目嘗試在代碼生成領(lǐng)域重新實現(xiàn)o1。 不同開源o1項目在策略初始化,、獎勵設(shè)計,、搜索和學(xué)習(xí)領(lǐng)域的方法對比在強化學(xué)習(xí)中,策略定義了智能體如何根據(jù)環(huán)境狀態(tài)選擇行動,。其中,,LLM的動作粒度分為三種級別:解決方案級別、步驟級別和Token級別,。智能體與環(huán)境在LLM強化學(xué)習(xí)中的交互過程對于LLM的初始化過程,,主要包括兩個階段:預(yù)訓(xùn)練和指令微調(diào)。在預(yù)訓(xùn)練階段,,模型通過大規(guī)模網(wǎng)絡(luò)語料庫的自監(jiān)督學(xué)習(xí),,發(fā)展出基本的語言理解能力,并遵循計算資源與性能之間的既定冪律規(guī)律,。在指令微調(diào)階段,,則是將LLM從簡單的下一個Token預(yù)測,,轉(zhuǎn)變?yōu)樯膳c人類需求一致的響應(yīng)。對于像o1這樣的模型,,融入類人推理行為對于更復(fù)雜的解決方案空間探索至關(guān)重要。預(yù)訓(xùn)練預(yù)訓(xùn)練通過大規(guī)模文本語料庫的接觸,,為LLM建立基本的語言理解和推理能力,。對于類似o1的模型,這些核心能力是后續(xù)學(xué)習(xí)和搜索中發(fā)展高級行為的基礎(chǔ),。語言理解與生成:語言理解是分層次發(fā)展的——句法模式較早涌現(xiàn),,而邏輯一致性和抽象推理則在訓(xùn)練的后期階段逐步形成。因此除了模型規(guī)模外,,訓(xùn)練時長和數(shù)據(jù)組成也至關(guān)重要,。 世界知識獲取與存儲:知識存儲具有高效的壓縮和泛化特性,而抽象概念相比事實性知識需要更廣泛的訓(xùn)練,。 基礎(chǔ)推理能力:預(yù)訓(xùn)練通過多樣化的推理模式發(fā)展了基礎(chǔ)推理能力,,后者以從簡單推斷到復(fù)雜推理的層次結(jié)構(gòu)逐步涌現(xiàn)。
指令微調(diào)指令微調(diào)通過在多領(lǐng)域的指令-響應(yīng)對上進(jìn)行專門訓(xùn)練,,將預(yù)訓(xùn)練語言模型轉(zhuǎn)變?yōu)槊嫦蛉蝿?wù)的智能體,。這一過程將模型的行為從單純的下一個Token預(yù)測,轉(zhuǎn)變?yōu)榫哂忻鞔_目的的行為,。效果主要取決于兩個關(guān)鍵因素:指令數(shù)據(jù)集的多樣性和指令-響應(yīng)對的質(zhì)量,。類人推理行為盡管經(jīng)過指令微調(diào)的模型展現(xiàn)了通用任務(wù)能力和用戶意圖理解能力,但像o1這樣的模型,,需要更復(fù)雜的類人推理能力來充分發(fā)揮其潛力,。如表1所示,研究者對o1的行為模式進(jìn)行了分析,,識別出六種類人推理行為,。問題分析:問題分析是一個關(guān)鍵的初始化過程,模型在解決問題前會先重新表述并分析問題,。 任務(wù)分解:在面對復(fù)雜問題時,,人類通常會將其分解為若干可管理的子任務(wù)。 任務(wù)完成:之后,,模型通過基于明確問題和分解子任務(wù)的逐步推理,,生成解決方案。 替代方案:當(dāng)面臨推理障礙或思路中斷時,,生成多樣化替代解決方案的能力尤為重要,。如表1所示,o1在密碼破解中展現(xiàn)了這一能力,,能夠系統(tǒng)性地提出多個選項,。 自我評估:任務(wù)完成后,,自我評估作為關(guān)鍵的驗證機制,用于確認(rèn)所提解決方案的正確性,。 自我糾正:當(dāng)推理過程中出現(xiàn)可控錯誤時,,模型會采用自我糾正行為來解決這些問題。在o1的演示中,,當(dāng)遇到諸如「No」或「Wait」之類的信號時,,會觸發(fā)糾正過程。
關(guān)于o1策略初始化的推測策略初始化在開發(fā)類似o1的模型中起到了關(guān)鍵作用,,因為它建立了影響后續(xù)學(xué)習(xí)和搜索過程的基礎(chǔ)能力,。策略初始化階段包括三個核心組成部分:預(yù)訓(xùn)練、指令微調(diào)以及類人推理行為的開發(fā),。盡管這些推理行為在指令微調(diào)后的LLM中已隱性存在,,但其有效部署需要通過監(jiān)督微調(diào)或精心設(shè)計的提示詞來激活。長文本生成能力:在推理過程中,,LLM需要精細(xì)的長文本上下文建模能力,。 合理塑造類人推理行為:模型還需要發(fā)展以邏輯連貫方式,有序安排類人推理行為的能力,。 自我反思:自我評估,、自我糾正和替代方案提議等行為,可視為模型自我反思能力的表現(xiàn),。
在強化學(xué)習(xí)中,,智能體從環(huán)境中接收獎勵反饋信號,并通過改進(jìn)策略來最大化其長期獎勵,。獎勵函數(shù)通常表示為r(st, at),,表示智能體在時間步t的狀態(tài)st下執(zhí)行動作at所獲得的獎勵。獎勵反饋信號在訓(xùn)練和推理過程中至關(guān)重要,,因為它通過數(shù)值評分明確了智能體的期望行為,。結(jié)果獎勵與過程獎勵 結(jié)果獎勵是基于LLM輸出是否符合預(yù)定義期望來分配分?jǐn)?shù)的。但由于缺乏對中間步驟的監(jiān)督,,因此可能會導(dǎo)致LLM生成錯誤的解題步驟,。與結(jié)果獎勵相比,過程獎勵不僅為最終步驟提供獎勵信號,,還為中間步驟提供獎勵,。盡管展現(xiàn)了巨大的潛力,但其學(xué)習(xí)過程比結(jié)果獎勵更具挑戰(zhàn)性,。獎勵設(shè)計方法由于結(jié)果獎勵可以被視為過程獎勵的一種特殊情況,,許多獎勵設(shè)計方法可以同時應(yīng)用于結(jié)果獎勵和過程獎勵的建模。這些模型常被稱為結(jié)果獎勵模型(Outcome Reward Model,,ORM)和過程獎勵模型(Process Reward Model,,PRM),。來自環(huán)境的獎勵:最直接的獎勵設(shè)計方法是直接利用環(huán)境提供的獎勵信號,或者學(xué)習(xí)一個模型來模擬環(huán)境中的獎勵信號,。 從數(shù)據(jù)中建模獎勵:對于某些環(huán)境,,環(huán)境中的獎勵信號無法獲取,也無法進(jìn)行模擬,。相比直接提供獎勵,,收集專家數(shù)據(jù)或偏好數(shù)據(jù)更為容易。通過這些數(shù)據(jù),,可以學(xué)習(xí)一個模型,從而提供有效的獎勵,。
獎勵塑造在某些環(huán)境中,,獎勵信號可能無法有效傳達(dá)學(xué)習(xí)目標(biāo)。在這種情況下,,可以通過獎勵塑造(reward shaping)對獎勵進(jìn)行重新設(shè)計,,使其更豐富且更具信息量。然而,,由于價值函數(shù)依賴于策略π,,從一種策略估計的價值函數(shù)可能并不適合作為另一種策略的獎勵函數(shù)。關(guān)于o1獎勵設(shè)計的推測鑒于o1能夠處理多任務(wù)推理,,其獎勵模型可能結(jié)合了多種獎勵設(shè)計方法,。對于諸如數(shù)學(xué)和代碼等復(fù)雜的推理任務(wù),由于這些任務(wù)的回答通常涉及較長的推理鏈條,,更可能采用過程獎勵模型(PRM)來監(jiān)督中間過程,,而非結(jié)果獎勵模型(ORM)。當(dāng)環(huán)境中無法提供獎勵信號時,,研究者推測,,o1可能依賴于從偏好數(shù)據(jù)或?qū)<覕?shù)據(jù)中學(xué)習(xí)。根據(jù)OpenAI的AGI五階段計劃,,o1已經(jīng)是一個強大的推理模型,,下一階段是訓(xùn)練一個能夠與世界交互并解決現(xiàn)實問題的智能體。為了實現(xiàn)這一目標(biāo),,需要一個獎勵模型,,為智能體在真實環(huán)境中的行為提供獎勵信號。獎勵集成:為通用任務(wù)構(gòu)建獎勵信號的一種直觀方式是通過特定領(lǐng)域的獎勵集成,。 世界模型:世界模型不僅能夠提供獎勵信號,,還可以預(yù)測下一狀態(tài)。有研究認(rèn)為,,視頻生成器可以作為一種世界模型,,因為它能夠預(yù)測未來時間步的圖像,。
對于像o1這樣旨在解決復(fù)雜推理任務(wù)的模型,搜索可能在訓(xùn)練和推理過程中都發(fā)揮重要作用,。搜索指導(dǎo)基于內(nèi)部指導(dǎo)的搜索不依賴于來自外部環(huán)境或代理模型的真實反饋,,而是通過模型自身的狀態(tài)或評估能力來引導(dǎo)搜索過程。外部指導(dǎo)通常不依賴于特定策略,,僅依賴于與環(huán)境或任務(wù)相關(guān)的信號來引導(dǎo)搜索過程,。同時,內(nèi)部指導(dǎo)和外部指導(dǎo)可以結(jié)合起來引導(dǎo)搜索過程,,常見的方法是結(jié)合模型自身的不確定性與來自獎勵模型的代理反饋,。搜索策略樹搜索是一種全局搜索方法,,同時生成多個答案,,用于探索更廣泛的解決方案范圍。相比之下,,序列修正是一種局部搜索方法,,基于先前結(jié)果逐步優(yōu)化每次嘗試,可能具有更高的效率,。樹搜索通常適用于復(fù)雜問題的求解,,而序列修正更適合快速迭代優(yōu)化。搜索在o1中的角色研究者認(rèn)為,,搜索在o1的訓(xùn)練和推理過程中,,都起著至關(guān)重要的作用。他們將這兩個階段中的搜索,,分別稱為訓(xùn)練時搜索(training-time search)和推理時搜索(test-time search),。在訓(xùn)練階段,在線強化學(xué)習(xí)中的試錯過程也可以被視為一種搜索過程,。在推理階段,,o1表明,通過增加推理計算量和延長思考時間可以持續(xù)提高模型性能,。研究者認(rèn)為,,o1的「多思考」方式可以被視為一種搜索,利用更多的推理計算時間來找到更優(yōu)的答案,。關(guān)于o1搜索的推測訓(xùn)練階段搜索:在訓(xùn)練過程中,,o1更可能采用樹搜索技術(shù),例如BoN或樹搜索算法,,并主要依賴外部指導(dǎo),。 推理階段搜索:在推理過程中,o1更可能使用序列修正,結(jié)合內(nèi)部指導(dǎo),,通過反思不斷優(yōu)化和修正其搜索過程,。 從o1博客中的示例可以看出,o1的推理風(fēng)格更接近于序列修正,。種種跡象表明,,o1在推理階段主要依賴內(nèi)部指導(dǎo)。強化學(xué)習(xí)通常使用策略對軌跡進(jìn)行采樣,,并基于獲得的獎勵來改進(jìn)策略,。在o1的背景下,研究者假設(shè)強化學(xué)習(xí)過程通過搜索算法生成軌跡,,而不僅僅依賴于采樣,。基于這一假設(shè),o1的強化學(xué)習(xí)可能涉及一個搜索與學(xué)習(xí)的迭代過程,。在每次迭代中,,學(xué)習(xí)階段利用搜索生成的輸出作為訓(xùn)練數(shù)據(jù)來增強策略,而改進(jìn)后的策略隨后被應(yīng)用于下一次迭代的搜索過程中,。訓(xùn)練階段的搜索與測試階段的搜索有所不同。研究者將搜索輸出的狀態(tài)-動作對集合記為D_search,,將搜索中最優(yōu)解決方案的狀態(tài)-動作對集合記為D_expert,。因此,D_expert是D_search 的一個子集,。學(xué)習(xí)方法給定D_search,,可通過策略梯度方法或行為克隆來改進(jìn)策略。近端策略優(yōu)化(PPO)和直接策略優(yōu)化 DPO)是LLM中最常用的強化學(xué)習(xí)技術(shù),。此外,,在搜索數(shù)據(jù)上執(zhí)行行為克隆或監(jiān)督學(xué)習(xí)也是常見做法。研究者認(rèn)為,,o1的學(xué)習(xí)可能是多種學(xué)習(xí)方法結(jié)合的結(jié)果,。在這一框架中,他們假設(shè)o1的學(xué)習(xí)過程從使用行為克隆的預(yù)熱階段開始,,當(dāng)行為克隆的改進(jìn)效果趨于穩(wěn)定后,,轉(zhuǎn)向使用PPO或DPO。這一流程與LLama2和LLama3中采用的后訓(xùn)練策略一致,。強化學(xué)習(xí)的Scaling Law在預(yù)訓(xùn)練階段,,損失、計算成本,、模型參數(shù)和數(shù)據(jù)規(guī)模之間的關(guān)系,,是遵循冪律Scaling Law的。那么,,對于強化學(xué)習(xí),,是否也會表現(xiàn)出來呢,?根據(jù)OpenAI的博客,推理性能與訓(xùn)練時間計算量,,確實呈對數(shù)線性關(guān)系,。然而,除了這一點之外,,相關(guān)研究并不多,。為了實現(xiàn)像o1這樣的大規(guī)模強化學(xué)習(xí),研究LLM強化學(xué)習(xí)的Scaling Law至關(guān)重要,。https:///MatthewBerman/status/1875202596350415332https:///WesRothMoney/status/1875051479180165489
|