200萬(wàn)上下文窗口創(chuàng)飛Gemini 1.5,！微軟來(lái)砸谷歌場(chǎng)子了|研究人員

wupin 2024-02-26 發(fā)布于湖北

展開(kāi)全文

　　谷歌剛刷新大模型上下文窗口長(zhǎng)度記錄，發(fā)布支持100萬(wàn)token的Gemini 1.5,，微軟就來(lái)砸場(chǎng)子了,。

　　推出大模型上下文窗口拉長(zhǎng)新方法——LongRoPE，一口氣將上下文拉至2048k token,，也就是200多萬(wàn),！

　　并且1000步微調(diào)內(nèi)，即可完成從短上下文到長(zhǎng)上下文的擴(kuò)展,，同時(shí)保持原來(lái)短上下文窗口性能,，也就是說(shuō)訓(xùn)練成本和時(shí)間又省了一大筆,。

　　網(wǎng)友看不下去了，直呼“谷歌太慘了”：

　　此外值得一提的是,，這次LongRoPE為純?nèi)A人團(tuán)隊(duì),，論文一作Yiran Ding，就讀于杭州電子科技大學(xué),，于實(shí)習(xí)期間完成該項(xiàng)工作,。

　　LongRoPE究竟長(zhǎng)啥樣？先來(lái)看一波測(cè)試效果,。

　　拿LLaMA2和Mistral試試水

　　上下文窗口有效拉長(zhǎng),，語(yǔ)言模型長(zhǎng)文本理解能力可以得到很大提高。研究人員在LLaMA2-7B和Mistral-7B上應(yīng)用LongRoPE,，從三個(gè)方面評(píng)估了其性能,。

　　第一項(xiàng)測(cè)試是在長(zhǎng)文檔上評(píng)估擴(kuò)展上下文語(yǔ)言模型的困惑度。

　　在256k以內(nèi)的評(píng)估長(zhǎng)度上,，研究人員使用Proof-pile和PG19數(shù)據(jù)集來(lái)進(jìn)行測(cè)試,。

　　LongRoPE在4k-256k的文本長(zhǎng)度上，整體上顯示出困惑度下降的趨勢(shì),，優(yōu)于基準(zhǔn),。

LongRoPE在Proof-pile數(shù)據(jù)集上的表現(xiàn)

　　即使在上下文窗口長(zhǎng)度是標(biāo)準(zhǔn)長(zhǎng)度16倍的條件下，LongRoPE-2048k模型在256k上下文長(zhǎng)度內(nèi)也超過(guò)了最新基線水平,。

LongRoPE在PG19數(shù)據(jù)集上的表現(xiàn)

　　接下來(lái)上難度,，從Books3數(shù)據(jù)集中隨機(jī)選取20本書(shū)，每本長(zhǎng)度超2048k,，使用256k的滑動(dòng)窗口,。

　　研究人員觀察到2048k的LLaMA2和Mistral之間性能差異顯著。

　　在8k-128k的文本長(zhǎng)度上二者均取得了與基線相當(dāng)?shù)幕蚋鼉?yōu)的困惑度,。LLaMA2的困惑度隨著文本長(zhǎng)度的增加而逐漸下降,，在1024k和2048k長(zhǎng)度處略有上升，展示了較好的性能,。

　　不過(guò),，Mistral在較短的長(zhǎng)度上勝過(guò)基線，但當(dāng)文本長(zhǎng)度超過(guò)256k時(shí),，其困惑度急劇上升,。研究人員分析，主要原因是對(duì)于Mistral的微調(diào)采用了與YaRN相同的設(shè)置,，即使用16k長(zhǎng)度的文本進(jìn)行訓(xùn)練,，導(dǎo)致了模型難以有效處理更長(zhǎng)的文本。

　　第二項(xiàng)測(cè)試是用Passkey檢索任務(wù)評(píng)估在海量無(wú)關(guān)文本中檢索簡(jiǎn)單密鑰的能力。

　　也就是在很長(zhǎng)的文本中隨機(jī)隱藏一個(gè)五位數(shù)的密碼,，讓模型找出這個(gè)密碼,。

　　結(jié)果顯示，現(xiàn)有模型的準(zhǔn)確率在文本超度超128k后迅速下降到0,。

　　而LLaMA2-2048k在4k-2048k文本范圍內(nèi)保持了90%以上的檢索準(zhǔn)確率,，Mistral-2048k在1800k之前保持了100%的準(zhǔn)確率，在2048k時(shí)準(zhǔn)確率下降到60%,。

　　第三項(xiàng)測(cè)試是在短4096上下文窗口長(zhǎng)度內(nèi)的標(biāo)準(zhǔn)大語(yǔ)言模型基準(zhǔn)測(cè)試上評(píng)估,。

　　這項(xiàng)測(cè)試，主要是為了檢驗(yàn)?zāi)Ｐ蜕舷挛拇翱诒粩U(kuò)展后,，在原有任務(wù)上的表現(xiàn)會(huì)不會(huì)受到負(fù)面影響,。

　　LongRoPE-2048k模型在原始上下文窗口大小的任務(wù)上，與原始模型相比表現(xiàn)相當(dāng),。

　　在TruthfulQA上,，擴(kuò)展后的Mistral比原始高出0.5%；LLaMA2性能略微下降,，但在合理的范圍內(nèi),。

　　這是如何做到的？

　　三大法寶擴(kuò)展上下文窗口

　　LongRoPE可以有效擴(kuò)展模型上下文窗口關(guān)鍵有三：非均勻位置插值,、漸進(jìn)式擴(kuò)展策略、短上下文窗口性能恢復(fù),。

　　非均勻位置插值

　　位置嵌入（Positional Embeddings）在Transformer架構(gòu)中,，用于幫助模型理解長(zhǎng)句中token的順序。

　　位置嵌入通常是預(yù)先定義的,，并與模型的其他參數(shù)一起訓(xùn)練,，當(dāng)模型需要處理的文本長(zhǎng)度超過(guò)其訓(xùn)練時(shí)的上下文窗口時(shí)，新出現(xiàn)的token的位置就需要新的位置嵌入,。

　　而LongRoPE通過(guò)識(shí)別并利用位置嵌入中兩個(gè)形式的非均勻性,，即不同的RoPE維度和token位置，優(yōu)化了位置嵌入,，不用微調(diào)就能實(shí)現(xiàn)8倍的上下文窗口擴(kuò)展,。

　　這種方法通過(guò)有效的搜索算法來(lái)確定每個(gè)RoPE維度的最佳縮放因子，針對(duì)每個(gè)RoPE維度的旋轉(zhuǎn)角進(jìn)行了重新縮放,，同時(shí)也考慮了token位置的影響,。

　　這樣，模型在擴(kuò)展上下文窗口的同時(shí),，能夠更好地保留關(guān)鍵的維度和位置信息,，減少信息損失。

　　漸進(jìn)式擴(kuò)展策略

　　此外,，LongRoPE采用了一種漸進(jìn)式擴(kuò)展的方法,。研究人員先對(duì)預(yù)訓(xùn)練的大模型進(jìn)行微調(diào),，使其適應(yīng)256k長(zhǎng)度的文本。

　　然后,，在微調(diào)后模型基礎(chǔ)上進(jìn)行搜索,，找到新的位置插值參數(shù)以重新縮放RoPE，最終實(shí)現(xiàn)2048k上下文窗口,，這個(gè)過(guò)程無(wú)需額外微調(diào),。

　　短上下文窗口性能恢復(fù)

　　在RoPE（旋轉(zhuǎn)位置編碼）中，超長(zhǎng)上下文窗口會(huì)使得原始窗口內(nèi)的維度被迫聚集在更小范圍內(nèi),，從而影響模型性能,。

　　為此，研究人員調(diào)整了短上下文窗口RoPE的重縮放因子,，使其與長(zhǎng)上下文時(shí)不同,，緩解了性能下降的問(wèn)題。

　　通過(guò)這種動(dòng)態(tài)調(diào)整機(jī)制,，LongRoPE在處理極長(zhǎng)文本和處理短文本時(shí)都表現(xiàn)良好,。

　　LongRoPE發(fā)布后，部分網(wǎng)友認(rèn)為RAG恐面臨淘汰：

　　不過(guò)也有質(zhì)疑的聲音：

　　那么,，你怎么看,？

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： wupin > 《待分類(lèi)》

舉報(bào)/認(rèn)領(lǐng)