久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

200萬(wàn)上下文窗口創(chuàng)飛Gemini 1.5,!微軟來(lái)砸谷歌場(chǎng)子了|研究人員

 wupin 2024-02-26 發(fā)布于湖北

  谷歌剛刷新大模型上下文窗口長(zhǎng)度記錄,發(fā)布支持100萬(wàn)token的Gemini 1.5,,微軟就來(lái)砸場(chǎng)子了,。

  推出大模型上下文窗口拉長(zhǎng)新方法——LongRoPE,一口氣將上下文拉至2048k token,,也就是200多萬(wàn),!

  并且1000步微調(diào)內(nèi),即可完成從短上下文到長(zhǎng)上下文的擴(kuò)展,,同時(shí)保持原來(lái)短上下文窗口性能,,也就是說(shuō)訓(xùn)練成本和時(shí)間又省了一大筆,。

  網(wǎng)友看不下去了,直呼“谷歌太慘了”:

  此外值得一提的是,,這次LongRoPE為純?nèi)A人團(tuán)隊(duì),,論文一作Yiran Ding,就讀于杭州電子科技大學(xué),,于實(shí)習(xí)期間完成該項(xiàng)工作,。

  LongRoPE究竟長(zhǎng)啥樣?先來(lái)看一波測(cè)試效果,。

  拿LLaMA2和Mistral試試水

  上下文窗口有效拉長(zhǎng),,語(yǔ)言模型長(zhǎng)文本理解能力可以得到很大提高。研究人員在LLaMA2-7BMistral-7B上應(yīng)用LongRoPE,,從三個(gè)方面評(píng)估了其性能,。

  第一項(xiàng)測(cè)試是在長(zhǎng)文檔上評(píng)估擴(kuò)展上下文語(yǔ)言模型的困惑度。

  在256k以內(nèi)的評(píng)估長(zhǎng)度上,,研究人員使用Proof-pile和PG19數(shù)據(jù)集來(lái)進(jìn)行測(cè)試,。

  LongRoPE在4k-256k的文本長(zhǎng)度上,整體上顯示出困惑度下降的趨勢(shì),,優(yōu)于基準(zhǔn),。

LongRoPE在Proof-pile數(shù)據(jù)集上的表現(xiàn)LongRoPE在Proof-pile數(shù)據(jù)集上的表現(xiàn)

  即使在上下文窗口長(zhǎng)度是標(biāo)準(zhǔn)長(zhǎng)度16倍的條件下,LongRoPE-2048k模型在256k上下文長(zhǎng)度內(nèi)也超過(guò)了最新基線水平,。

LongRoPE在PG19數(shù)據(jù)集上的表現(xiàn)LongRoPE在PG19數(shù)據(jù)集上的表現(xiàn)

  接下來(lái)上難度,,從Books3數(shù)據(jù)集中隨機(jī)選取20本書(shū),每本長(zhǎng)度超2048k,,使用256k的滑動(dòng)窗口,。

  研究人員觀察到2048k的LLaMA2和Mistral之間性能差異顯著。

  在8k-128k的文本長(zhǎng)度上二者均取得了與基線相當(dāng)?shù)幕蚋鼉?yōu)的困惑度,。LLaMA2的困惑度隨著文本長(zhǎng)度的增加而逐漸下降,,在1024k和2048k長(zhǎng)度處略有上升,展示了較好的性能,。

  不過(guò),,Mistral在較短的長(zhǎng)度上勝過(guò)基線,但當(dāng)文本長(zhǎng)度超過(guò)256k時(shí),,其困惑度急劇上升,。研究人員分析,主要原因是對(duì)于Mistral的微調(diào)采用了與YaRN相同的設(shè)置,,即使用16k長(zhǎng)度的文本進(jìn)行訓(xùn)練,,導(dǎo)致了模型難以有效處理更長(zhǎng)的文本。

  第二項(xiàng)測(cè)試是用Passkey檢索任務(wù)評(píng)估在海量無(wú)關(guān)文本中檢索簡(jiǎn)單密鑰的能力。

  也就是在很長(zhǎng)的文本中隨機(jī)隱藏一個(gè)五位數(shù)的密碼,,讓模型找出這個(gè)密碼,。

  結(jié)果顯示,現(xiàn)有模型的準(zhǔn)確率在文本超度超128k后迅速下降到0,。

  而LLaMA2-2048k在4k-2048k文本范圍內(nèi)保持了90%以上的檢索準(zhǔn)確率,,Mistral-2048k在1800k之前保持了100%的準(zhǔn)確率,在2048k時(shí)準(zhǔn)確率下降到60%,。

  第三項(xiàng)測(cè)試是在短4096上下文窗口長(zhǎng)度內(nèi)的標(biāo)準(zhǔn)大語(yǔ)言模型基準(zhǔn)測(cè)試上評(píng)估,。

  這項(xiàng)測(cè)試,主要是為了檢驗(yàn)?zāi)P蜕舷挛拇翱诒粩U(kuò)展后,,在原有任務(wù)上的表現(xiàn)會(huì)不會(huì)受到負(fù)面影響,。

  LongRoPE-2048k模型在原始上下文窗口大小的任務(wù)上,與原始模型相比表現(xiàn)相當(dāng),。

  在TruthfulQA上,,擴(kuò)展后的Mistral比原始高出0.5%;LLaMA2性能略微下降,,但在合理的范圍內(nèi),。

  這是如何做到的?

  三大法寶擴(kuò)展上下文窗口

  LongRoPE可以有效擴(kuò)展模型上下文窗口關(guān)鍵有三:非均勻位置插值,、漸進(jìn)式擴(kuò)展策略、短上下文窗口性能恢復(fù),。

  非均勻位置插值

  位置嵌入(Positional Embeddings)在Transformer架構(gòu)中,,用于幫助模型理解長(zhǎng)句中token的順序。

  位置嵌入通常是預(yù)先定義的,,并與模型的其他參數(shù)一起訓(xùn)練,,當(dāng)模型需要處理的文本長(zhǎng)度超過(guò)其訓(xùn)練時(shí)的上下文窗口時(shí),新出現(xiàn)的token的位置就需要新的位置嵌入,。

  而LongRoPE通過(guò)識(shí)別并利用位置嵌入中兩個(gè)形式的非均勻性,,即不同的RoPE維度和token位置,優(yōu)化了位置嵌入,,不用微調(diào)就能實(shí)現(xiàn)8倍的上下文窗口擴(kuò)展,。

  這種方法通過(guò)有效的搜索算法來(lái)確定每個(gè)RoPE維度的最佳縮放因子,針對(duì)每個(gè)RoPE維度的旋轉(zhuǎn)角進(jìn)行了重新縮放,,同時(shí)也考慮了token位置的影響,。

  這樣,模型在擴(kuò)展上下文窗口的同時(shí),,能夠更好地保留關(guān)鍵的維度和位置信息,,減少信息損失。

  漸進(jìn)式擴(kuò)展策略

  此外,,LongRoPE采用了一種漸進(jìn)式擴(kuò)展的方法,。研究人員先對(duì)預(yù)訓(xùn)練的大模型進(jìn)行微調(diào),,使其適應(yīng)256k長(zhǎng)度的文本。

  然后,,在微調(diào)后模型基礎(chǔ)上進(jìn)行搜索,,找到新的位置插值參數(shù)以重新縮放RoPE,最終實(shí)現(xiàn)2048k上下文窗口,,這個(gè)過(guò)程無(wú)需額外微調(diào),。

  短上下文窗口性能恢復(fù)

  在RoPE(旋轉(zhuǎn)位置編碼)中,超長(zhǎng)上下文窗口會(huì)使得原始窗口內(nèi)的維度被迫聚集在更小范圍內(nèi),,從而影響模型性能,。

  為此,研究人員調(diào)整了短上下文窗口RoPE的重縮放因子,,使其與長(zhǎng)上下文時(shí)不同,,緩解了性能下降的問(wèn)題。

  通過(guò)這種動(dòng)態(tài)調(diào)整機(jī)制,,LongRoPE在處理極長(zhǎng)文本和處理短文本時(shí)都表現(xiàn)良好,。

  LongRoPE發(fā)布后,部分網(wǎng)友認(rèn)為RAG恐面臨淘汰:

  不過(guò)也有質(zhì)疑的聲音:

  那么,,你怎么看,?

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章