谷歌剛刷新大模型上下文窗口長(zhǎng)度記錄,發(fā)布支持100萬(wàn)token的Gemini 1.5,,微軟就來(lái)砸場(chǎng)子了,。 推出大模型上下文窗口拉長(zhǎng)新方法——LongRoPE,一口氣將上下文拉至2048k token,,也就是200多萬(wàn),! 并且1000步微調(diào)內(nèi),即可完成從短上下文到長(zhǎng)上下文的擴(kuò)展,,同時(shí)保持原來(lái)短上下文窗口性能,,也就是說(shuō)訓(xùn)練成本和時(shí)間又省了一大筆,。 網(wǎng)友看不下去了,直呼“谷歌太慘了”: 此外值得一提的是,,這次LongRoPE為純?nèi)A人團(tuán)隊(duì),,論文一作Yiran Ding,就讀于杭州電子科技大學(xué),,于實(shí)習(xí)期間完成該項(xiàng)工作,。 LongRoPE究竟長(zhǎng)啥樣?先來(lái)看一波測(cè)試效果,。 拿LLaMA2和Mistral試試水 上下文窗口有效拉長(zhǎng),,語(yǔ)言模型長(zhǎng)文本理解能力可以得到很大提高。研究人員在LLaMA2-7B和Mistral-7B上應(yīng)用LongRoPE,,從三個(gè)方面評(píng)估了其性能,。 第一項(xiàng)測(cè)試是在長(zhǎng)文檔上評(píng)估擴(kuò)展上下文語(yǔ)言模型的困惑度。 在256k以內(nèi)的評(píng)估長(zhǎng)度上,,研究人員使用Proof-pile和PG19數(shù)據(jù)集來(lái)進(jìn)行測(cè)試,。 LongRoPE在4k-256k的文本長(zhǎng)度上,整體上顯示出困惑度下降的趨勢(shì),,優(yōu)于基準(zhǔn),。 LongRoPE在Proof-pile數(shù)據(jù)集上的表現(xiàn)
即使在上下文窗口長(zhǎng)度是標(biāo)準(zhǔn)長(zhǎng)度16倍的條件下,LongRoPE-2048k模型在256k上下文長(zhǎng)度內(nèi)也超過(guò)了最新基線水平,。 LongRoPE在PG19數(shù)據(jù)集上的表現(xiàn)
接下來(lái)上難度,,從Books3數(shù)據(jù)集中隨機(jī)選取20本書(shū),每本長(zhǎng)度超2048k,,使用256k的滑動(dòng)窗口,。 研究人員觀察到2048k的LLaMA2和Mistral之間性能差異顯著。 在8k-128k的文本長(zhǎng)度上二者均取得了與基線相當(dāng)?shù)幕蚋鼉?yōu)的困惑度,。LLaMA2的困惑度隨著文本長(zhǎng)度的增加而逐漸下降,,在1024k和2048k長(zhǎng)度處略有上升,展示了較好的性能,。 不過(guò),,Mistral在較短的長(zhǎng)度上勝過(guò)基線,但當(dāng)文本長(zhǎng)度超過(guò)256k時(shí),,其困惑度急劇上升,。研究人員分析,主要原因是對(duì)于Mistral的微調(diào)采用了與YaRN相同的設(shè)置,,即使用16k長(zhǎng)度的文本進(jìn)行訓(xùn)練,,導(dǎo)致了模型難以有效處理更長(zhǎng)的文本。 第二項(xiàng)測(cè)試是用Passkey檢索任務(wù)評(píng)估在海量無(wú)關(guān)文本中檢索簡(jiǎn)單密鑰的能力。 也就是在很長(zhǎng)的文本中隨機(jī)隱藏一個(gè)五位數(shù)的密碼,,讓模型找出這個(gè)密碼,。 結(jié)果顯示,現(xiàn)有模型的準(zhǔn)確率在文本超度超128k后迅速下降到0,。 而LLaMA2-2048k在4k-2048k文本范圍內(nèi)保持了90%以上的檢索準(zhǔn)確率,,Mistral-2048k在1800k之前保持了100%的準(zhǔn)確率,在2048k時(shí)準(zhǔn)確率下降到60%,。 第三項(xiàng)測(cè)試是在短4096上下文窗口長(zhǎng)度內(nèi)的標(biāo)準(zhǔn)大語(yǔ)言模型基準(zhǔn)測(cè)試上評(píng)估,。 這項(xiàng)測(cè)試,主要是為了檢驗(yàn)?zāi)P蜕舷挛拇翱诒粩U(kuò)展后,,在原有任務(wù)上的表現(xiàn)會(huì)不會(huì)受到負(fù)面影響,。 LongRoPE-2048k模型在原始上下文窗口大小的任務(wù)上,與原始模型相比表現(xiàn)相當(dāng),。 在TruthfulQA上,,擴(kuò)展后的Mistral比原始高出0.5%;LLaMA2性能略微下降,,但在合理的范圍內(nèi),。 這是如何做到的? 三大法寶擴(kuò)展上下文窗口 LongRoPE可以有效擴(kuò)展模型上下文窗口關(guān)鍵有三:非均勻位置插值,、漸進(jìn)式擴(kuò)展策略、短上下文窗口性能恢復(fù),。 非均勻位置插值 位置嵌入(Positional Embeddings)在Transformer架構(gòu)中,,用于幫助模型理解長(zhǎng)句中token的順序。 位置嵌入通常是預(yù)先定義的,,并與模型的其他參數(shù)一起訓(xùn)練,,當(dāng)模型需要處理的文本長(zhǎng)度超過(guò)其訓(xùn)練時(shí)的上下文窗口時(shí),新出現(xiàn)的token的位置就需要新的位置嵌入,。 而LongRoPE通過(guò)識(shí)別并利用位置嵌入中兩個(gè)形式的非均勻性,,即不同的RoPE維度和token位置,優(yōu)化了位置嵌入,,不用微調(diào)就能實(shí)現(xiàn)8倍的上下文窗口擴(kuò)展,。 這種方法通過(guò)有效的搜索算法來(lái)確定每個(gè)RoPE維度的最佳縮放因子,針對(duì)每個(gè)RoPE維度的旋轉(zhuǎn)角進(jìn)行了重新縮放,,同時(shí)也考慮了token位置的影響,。 這樣,模型在擴(kuò)展上下文窗口的同時(shí),,能夠更好地保留關(guān)鍵的維度和位置信息,,減少信息損失。 漸進(jìn)式擴(kuò)展策略 此外,,LongRoPE采用了一種漸進(jìn)式擴(kuò)展的方法,。研究人員先對(duì)預(yù)訓(xùn)練的大模型進(jìn)行微調(diào),,使其適應(yīng)256k長(zhǎng)度的文本。 然后,,在微調(diào)后模型基礎(chǔ)上進(jìn)行搜索,,找到新的位置插值參數(shù)以重新縮放RoPE,最終實(shí)現(xiàn)2048k上下文窗口,,這個(gè)過(guò)程無(wú)需額外微調(diào),。 短上下文窗口性能恢復(fù) 在RoPE(旋轉(zhuǎn)位置編碼)中,超長(zhǎng)上下文窗口會(huì)使得原始窗口內(nèi)的維度被迫聚集在更小范圍內(nèi),,從而影響模型性能,。 為此,研究人員調(diào)整了短上下文窗口RoPE的重縮放因子,,使其與長(zhǎng)上下文時(shí)不同,,緩解了性能下降的問(wèn)題。 通過(guò)這種動(dòng)態(tài)調(diào)整機(jī)制,,LongRoPE在處理極長(zhǎng)文本和處理短文本時(shí)都表現(xiàn)良好,。 LongRoPE發(fā)布后,部分網(wǎng)友認(rèn)為RAG恐面臨淘汰: 不過(guò)也有質(zhì)疑的聲音: 那么,,你怎么看,?
|
|
來(lái)自: wupin > 《待分類(lèi)》