久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

大模型如何端邊部署,?華盛頓大學(xué)Google提出《逐步蒸餾》法

 ZmlZwh 2023-05-08 發(fā)布于甘肅
大模型的能力如何能在實際場景中進(jìn)行部署使用是個問題?最近來自華盛頓大學(xué),、Google的研究人員提出使用思維鏈在多任務(wù)訓(xùn)練框架內(nèi)為小型模型提取LLM rationales(基本原理/解釋/依據(jù)),,作為額外的監(jiān)督,取得了以更少的訓(xùn)練數(shù)據(jù)和更小的模型規(guī)模超越更大的語言模型,,指明方向,!

圖片

圖片

部署大型語言模型(LLMs)具有挑戰(zhàn)性,因為它們在實際應(yīng)用中的內(nèi)存效率低下且計算密集,。為了應(yīng)對這一問題,,研究人員通過微調(diào)人類標(biāo)簽或利用LLM生成的標(biāo)簽進(jìn)行蒸餾,訓(xùn)練更小的任務(wù)特定模型,。然而,,微調(diào)和蒸餾需要大量的訓(xùn)練數(shù)據(jù),以達(dá)到與LLMs相當(dāng)?shù)男阅堋?strong>我們引入逐步蒸餾,,一種新的機制:(a)訓(xùn)練比LLMs表現(xiàn)更好的較小模型,;(b)通過利用比微調(diào)或蒸餾所需的更少訓(xùn)練數(shù)據(jù)來實現(xiàn)這一點。我們的方法在多任務(wù)訓(xùn)練框架內(nèi)為小型模型提取LLM rationales(基本原理/解釋/依據(jù)),,作為額外的監(jiān)督,。我們在4個NLP基準(zhǔn)測試中得出三個發(fā)現(xiàn):首先,與微調(diào)和蒸餾相比,,我們的機制在使用更少的標(biāo)注/未標(biāo)注訓(xùn)練樣本的情況下實現(xiàn)了更好的性能,。其次,與LLMs相比,,我們使用明顯較小的模型大小實現(xiàn)了更好的性能,。第三,我們減少了模型大小和超過LLMs所需的數(shù)據(jù)量,;在一個基準(zhǔn)任務(wù)中,,我們的770M T5模型使用僅80%的可用數(shù)據(jù)就超過了540B PaLM模型

https://www./paper/fa04cb640eb5b7dd65cddc946c76b80f

1. 引言

圖片

圖1:雖然大型語言模型(LLM)提供了強大的零樣本/少樣本性能,但在實踐中具有挑戰(zhàn)性,。另一方面,,傳統(tǒng)的訓(xùn)練小型特定任務(wù)模型的方法需要大量的訓(xùn)練數(shù)據(jù)。本文提出逐步蒸餾(Distilling step),,一種新的范式,,從LLM中提取基本原理作為信息性任務(wù)知識訓(xùn)練小型模型,既減少了部署的模型大小,,也減少了訓(xùn)練所需的數(shù)據(jù),。

盡管大型語言模型(LLMs)(Brown等人,2020,;Chowdhery等人,,2022;Thoppilan等人,,2022,;Hoffmann等人,2022,;Smith等人,,2022b;Zhang等人,,2022)提供了令人印象深刻的少樣本學(xué)習(xí)能力,,但由于其龐大的規(guī)模,,這些模型在實際應(yīng)用中具有挑戰(zhàn)性,。運行單個1750億參數(shù)的LLM至少需要350GB GPU內(nèi)存,并使用專門的基礎(chǔ)設(shè)施(Zheng等人,,2022),。更糟糕的是,如今的頂級LLMs包含超過5000億個參數(shù)(Chowdhery等人,,2022),,需要更多的內(nèi)存和計算資源。這樣的計算需求遠(yuǎn)遠(yuǎn)超出了大多數(shù)產(chǎn)品團(tuán)隊的承受能力,,特別是對于需要低延遲性能的應(yīng)用程序,。

為了規(guī)避大型模型的部署挑戰(zhàn),從業(yè)者通常選擇部署較小的專用模型,。這些較小的模型使用兩種常見范式之一進(jìn)行訓(xùn)練:微調(diào)或蒸餾,。微調(diào)使用下游人類注釋數(shù)據(jù)更新預(yù)訓(xùn)練的較小模型(例如BERT(Devlin等人,2018)或T5(Raffel等人,,2020))(Howard和Ruder,,2018)。蒸餾使用由更大的LLM生成的標(biāo)簽訓(xùn)練相同的較小模型(Tang等人,,2019,;Wang等人,,2021;Smith等人,,2022a,;Arora等人,2022),。不幸的是,,這些范式以成本降低模型大小:為了達(dá)到與LLMs相當(dāng)?shù)男阅?,微調(diào)需要昂貴的人類標(biāo)簽,,而蒸餾需要大量無標(biāo)簽數(shù)據(jù),這些數(shù)據(jù)可能難以獲得(Tang等人,,2019,;Liang等人,2020),。

在這項工作中,,我們引入逐步蒸餾,一種用更少訓(xùn)練數(shù)據(jù)訓(xùn)練較小模型的新型簡單機制,。我們的機制減少了將LLMs微調(diào)和蒸餾為較小模型所需的訓(xùn)練數(shù)據(jù)量,。我們的機制的核心是從將LLMs視為嘈雜標(biāo)簽的來源轉(zhuǎn)變?yōu)閷⑺鼈円暈榭梢酝评淼拇恚篖LMs可以生成自然語言rationales(基本原理/解釋/依據(jù)),為其預(yù)測的標(biāo)簽辯護(hù)(Wei等人,,2022,;Kojima等人,2022),。例如,,當(dāng)被問到“一個紳士正在攜帶高爾夫球設(shè)備,他可能有什么,?(a)球桿,,(b)禮堂,(c)冥想中心,,(d)會議,,(e)教堂”時,LLM可以通過鏈?zhǔn)剿伎迹–oT)推理(Wei等人,,2022)回答“(a)球桿”,,并通過陳述“答案必須是用于高爾夫球的東西。在上述選項中,,只有球桿是用于高爾夫球的,。”來合理化標(biāo)簽。我們使用這些提取的rationales(基本原理/解釋/依據(jù))作為額外的,、更豐富的信息,,在一個多任務(wù)訓(xùn)練設(shè)置中訓(xùn)練較小的模型,包括標(biāo)簽預(yù)測和rationales(基本原理/解釋/依據(jù))預(yù)測(Raffel等人,,2020,;Narang等人,2020),。

逐步蒸餾使我們能夠?qū)W習(xí)任務(wù)特定的較小模型,,這些模型在使用超過500倍更少的模型參數(shù)時勝過LLMs,并且與傳統(tǒng)微調(diào)或蒸餾相比,,需要更少的訓(xùn)練樣本(圖1),。我們在4個NLP基準(zhǔn)測試中得出三個有前景的實證結(jié)論。首先,,與微調(diào)和蒸餾相比,,我們的模型在各個數(shù)據(jù)集上平均使用超過50%更少的訓(xùn)練樣本(最多減少超過85%)時,實現(xiàn)了更好的性能,。其次,,我們的模型在模型大小上大大優(yōu)于LLMs(最多小2000倍),大大降低了模型部署所需的計算成本,。第三,,我們同時減少了模型大小和超過LLMs所需的數(shù)據(jù)量。我們使用一個770M T5模型超過了540B參數(shù)LLM的性能,;如果使用現(xiàn)有的微調(diào)方法,,這個較小的模型只需使用80%的標(biāo)記數(shù)據(jù)集。當(dāng)只有未標(biāo)記的數(shù)據(jù)時,,我們的小型模型仍然與LLMs表現(xiàn)相當(dāng)或更好,。我們僅使用一個11B T5模型就超過了540B PaLM的性能。我們進(jìn)一步表明,,當(dāng)一個較小的模型比LLM表現(xiàn)差時,逐步蒸餾可以更有效地利用額外的未標(biāo)記數(shù)據(jù)來匹配LLM的性能,,與標(biāo)準(zhǔn)蒸餾方法相比,。

2 逐步蒸餾

我們提出了一種新的范式,逐步蒸餾,,它利用LLMs對其預(yù)測進(jìn)行推理的能力,,以數(shù)據(jù)高效的方式訓(xùn)練較小的模型。我們的整體框架如圖2所示,。我們的范式有兩個簡單的步驟:首先,,給定一個LLM和一個未標(biāo)記的數(shù)據(jù)集,我們提示LLM生成輸出標(biāo)簽以及支持標(biāo)簽的rationales(基本原理/解釋/依據(jù))rationales(基本原理/解釋/依據(jù))是自然語言解釋,,為模型預(yù)測的標(biāo)簽提供支持(見圖2),。rationales(基本原理/解釋/依據(jù))是當(dāng)今自監(jiān)督LLM的一種新興行為特性。其次,,我們利用這些rationales以及任務(wù)標(biāo)簽來訓(xùn)練較小的下游模型,。直觀地說,rationales(基本原理/解釋/依據(jù))提供了關(guān)于為什么輸入映射到特定輸出標(biāo)簽的更豐富,、更詳細(xì)的信息,。

圖片

2.1 從LLMs中提取rationales(基本原理/解釋/依據(jù))

最近的研究發(fā)現(xiàn)LLMs有一個有趣的新興特性:它們能夠生成支持其預(yù)測的rationales(Wei等人,2022,;Kojima等人,,2022)。雖然這些研究主要關(guān)注如何從LLMs中引出這種推理能力(Nye等人,,2021,;Wei等人,2022,;Kojima等人,,2022),但我們在訓(xùn)練較小的下游模型時使用了它們,。具體來說,,我們利用鏈?zhǔn)剿伎迹–oT)提示(Wei等人,2022)從LLMs中引出和提取rationales,。

圖片

2.2 用原理訓(xùn)練較小的模型

本文首先描述了當(dāng)前學(xué)習(xí)特定任務(wù)模型的框架,。有了這個框架,我們對其進(jìn)行了擴展,,以將基本原理納入訓(xùn)練過程,。形式上,我們將數(shù)據(jù)集表示為D = {(xi, yi)} N i=1,,其中每個xi表示一個輸入,,yi是相應(yīng)的所需輸出標(biāo)簽。雖然所提出框架支持任何模態(tài)的輸入和輸出,,但實驗將x和y限制為自然語言,。這個文本到文本框架(Raffel等人,2020)包含各種自然語言處理任務(wù):分類,、自然語言推理,、問題回答等。

訓(xùn)練特定任務(wù)模型的最常見做法是使用監(jiān)督數(shù)據(jù)對預(yù)訓(xùn)練模型進(jìn)行微調(diào)(Howard和Ruder, 2018),。在沒有人工標(biāo)注標(biāo)簽的情況下,,特定任務(wù)的蒸餾(Hinton等人,,2015;Tang et al., 2019)使用LLM教師生成偽噪聲訓(xùn)練標(biāo)簽,,y?i代替yi (Wang et al.,, 2021;Smith等人,2022a;Arora等人,,2022年),。

在這項工作中,我們沒有將rationales作為額外的模型輸入,,而是將學(xué)習(xí)rationales視為一個多任務(wù)問題,。具體來說,我們訓(xùn)練模型 f(xi) → (?yi, r?i),,不僅預(yù)測任務(wù)標(biāo)簽,,還根據(jù)文本輸入生成相應(yīng)的rationales

圖片

圖片

3 實驗

我們通過實證驗證了逐步蒸餾方法的有效性,。首先,,與標(biāo)準(zhǔn)的微調(diào)和任務(wù)蒸餾方法相比,我們展示了逐步蒸餾方法實現(xiàn)的優(yōu)勢,。在訓(xùn)練樣本數(shù)量較少的情況下,,逐步蒸餾方法表現(xiàn)更優(yōu),顯著提高了學(xué)習(xí)小型任務(wù)專用模型的數(shù)據(jù)效率(第4.1節(jié)),。其次,,我們展示了逐步蒸餾方法在模型大小遠(yuǎn)小于大型語言模型(LLMs)的情況下,仍能取得更好的性能,,與大型語言模型相比,,大幅降低了部署成本(第4.2節(jié))。最后,,我們研究了逐步蒸餾方法在超越大型語言模型性能方面所需的最小資源,,包括訓(xùn)練樣本數(shù)量和模型大小。我們發(fā)現(xiàn)逐步蒸餾方法在使用更少數(shù)據(jù)和更小模型的情況下,,勝過大型語言模型,,同時提高了數(shù)據(jù)效率和部署效率(第4.3節(jié))。

在實驗中,,我們將540B PaLM模型(Chowdhery等人,,2022年)視為大型語言模型(LLM)。對于任務(wù)特定的下游模型,,我們使用T5模型(Raffel等人,2020年),,并從公開可用的資源中獲取預(yù)訓(xùn)練權(quán)重來初始化模型,。對于CoT提示,,我們在可用時遵循Wei等人(2022年)的方法,并為新數(shù)據(jù)集策劃我們自己的示例,。我們在附錄A.1中提供了更多實現(xiàn)細(xì)節(jié),。

3.1 減少訓(xùn)練數(shù)據(jù) 

我們將逐步蒸餾方法與學(xué)習(xí)任務(wù)特定模型的兩種最常見方法進(jìn)行比較:(1)當(dāng)有人類標(biāo)注的樣本可用時,使用標(biāo)準(zhǔn)微調(diào)方法,;(2)當(dāng)僅有未標(biāo)注樣本可用時,,使用標(biāo)準(zhǔn)任務(wù)蒸餾方法。具體來說,,標(biāo)準(zhǔn)微調(diào)是指使用標(biāo)準(zhǔn)標(biāo)簽監(jiān)督通過預(yù)訓(xùn)練然后微調(diào)模型的流行范式(Howard和Ruder,,2018年)。另一方面,,當(dāng)僅有未標(biāo)注樣本可用時,,標(biāo)準(zhǔn)任務(wù)蒸餾方法將教師大型語言模型預(yù)測的標(biāo)簽視為真實標(biāo)簽,從而學(xué)習(xí)任務(wù)特定模型(Hinton等人,,2015年,;陳等人,2020年,;Wang等人,,2021年;Smith等人,,2022a,;Arora等人,2022年),。

在以下一系列實驗中,,我們將任務(wù)特定模型固定為220M T5-Base模型,并比較在可用訓(xùn)練樣本數(shù)量不同的情況下,,不同方法所實現(xiàn)的任務(wù)性能,。

逐步蒸餾方法在使用更少的標(biāo)注樣本情況下優(yōu)于標(biāo)準(zhǔn)微調(diào)。當(dāng)使用人類標(biāo)注的樣本進(jìn)行微調(diào)時,,圖4顯示,,在使用不同數(shù)量的標(biāo)注樣本時,逐步蒸餾方法始終比標(biāo)準(zhǔn)微調(diào)表現(xiàn)更好,。此外,,我們發(fā)現(xiàn)逐步蒸餾方法可以在使用更少的標(biāo)注樣本的情況下達(dá)到與標(biāo)準(zhǔn)微調(diào)相同的性能。特別是,,僅使用eSNLI完整數(shù)據(jù)集的12.5%,,逐步蒸餾方法就可以在性能上超過使用完整數(shù)據(jù)集100%訓(xùn)練的標(biāo)準(zhǔn)微調(diào)。同樣,,我們分別在ANLI,、CQA和SVAMP上實現(xiàn)了減少75%,、25%和20%訓(xùn)練樣本數(shù)量以超過標(biāo)準(zhǔn)微調(diào)的表現(xiàn)。

逐步蒸餾方法在使用更少的未標(biāo)注樣本時,,優(yōu)于標(biāo)準(zhǔn)蒸餾方法,。當(dāng)僅有未標(biāo)注數(shù)據(jù)可用時,我們將逐步蒸餾方法與標(biāo)準(zhǔn)任務(wù)蒸餾方法進(jìn)行比較,。在圖5中,,我們觀察到與微調(diào)設(shè)置相類似的整體趨勢。具體來說,,我們發(fā)現(xiàn)逐步蒸餾方法在所有4個數(shù)據(jù)集上,,在使用不同數(shù)量的未標(biāo)注數(shù)據(jù)情況下,均優(yōu)于標(biāo)準(zhǔn)任務(wù)蒸餾方法,。我們同樣發(fā)現(xiàn),,逐步蒸餾方法在使用更少的未標(biāo)注數(shù)據(jù)時仍能勝過標(biāo)準(zhǔn)任務(wù)蒸餾方法。例如,,在e-SNLI數(shù)據(jù)集上,,我們只需要完整未標(biāo)注數(shù)據(jù)集的12.5%,就可以超過使用100%訓(xùn)練樣本的標(biāo)準(zhǔn)任務(wù)蒸餾方法所取得的性能,。

圖片

4.2 減小模型大小 

在以下一系列實驗中,,我們將訓(xùn)練集大小固定(使用數(shù)據(jù)集的100%),并將使用逐步蒸餾方法和標(biāo)準(zhǔn)方法訓(xùn)練的不同大小的小型T5模型與大型語言模型(LLMs)進(jìn)行比較,。具體來說,,我們考慮了3種不同大小的T5模型,即220M T5-Base,、770M T5-Large和11B T5-XXL,。對于LLMs,我們包括兩種基線方法:(1)少樣本CoT(Wei等人,,2022年),;(2)PINTO微調(diào)(Wang等人,2022a),。少樣本CoT直接利用CoT示范來提示540B PaLM模型在預(yù)測最終標(biāo)簽之前生成中間步驟,,而無需對LLM進(jìn)行進(jìn)一步的微調(diào)。PINTO微調(diào)是指我們擴展Wang等人(2022a)的方法來處理除問答任務(wù)之外的任務(wù),,這些任務(wù)沒有被Wang等人(2022a)研究,。在這里,我們在PaLM模型生成的輸出基礎(chǔ)上對220M T5-Base模型進(jìn)行微調(diào),,這可以看作是帶有額外參數(shù)的LLMs的微調(diào)方法(Zhang等人,,2020年;Lester等人,,2021年),。我們分別在圖6和圖7中呈現(xiàn)了在有標(biāo)簽數(shù)據(jù)集或無標(biāo)簽數(shù)據(jù)集的兩種廣泛場景下的實驗結(jié)果,。我們按照預(yù)測時部署的模型大?。▁軸)和相應(yīng)任務(wù)性能(y軸)繪制每種方法,。

逐步蒸餾方法在使用不同模型大小時,相較于標(biāo)準(zhǔn)基線方法有所提升,。在圖6和圖7中,,我們分別看到逐步蒸餾方法在所有大小的T5模型上始終優(yōu)于標(biāo)準(zhǔn)微調(diào)和標(biāo)準(zhǔn)蒸餾。在ANLI上的提升最為顯著,,其中逐步蒸餾方法在任務(wù)準(zhǔn)確性方面分別比標(biāo)準(zhǔn)微調(diào)和蒸餾提高了平均8%和13%,。

逐步蒸餾方法通過使用更小的任務(wù)特定模型超越LLMs。在圖6中,,當(dāng)有人類標(biāo)注的數(shù)據(jù)集可用時,,逐步蒸餾方法可以始終使用更小的T5模型,在所有4個考慮的數(shù)據(jù)集上優(yōu)于少樣本CoT和PINTO微調(diào),。例如,,我們可以在eSNLI上使用220M(超過2000倍小)的T5模型實現(xiàn)比540B PaLM模型的少樣本CoT更好的性能,,使用770M(超過700倍?。┑腡5模型在ANLI和SVAMP上取得更好的性能,以及使用11B(超過45倍?。┑腡5模型在CQA上取得更好的性能,。無標(biāo)簽數(shù)據(jù)增強進(jìn)一步改進(jìn)了逐步蒸餾

圖片

3.3 使用最小模型大小和最少訓(xùn)練數(shù)據(jù)超越LLMs 

在這里,,以LLM的性能作為錨點,,我們探討了逐步蒸餾方法和標(biāo)準(zhǔn)微調(diào)/蒸餾在超越LLM所需的最高效資源需求,包括訓(xùn)練樣本數(shù)量和部署模型大小,。我們分別在圖8和圖9中呈現(xiàn)了在人類標(biāo)注設(shè)置和無標(biāo)注設(shè)置下的結(jié)果,。我們通過繪制不同結(jié)果模型的(1)使用的訓(xùn)練樣本數(shù)量(x軸),(2)實現(xiàn)的最終任務(wù)性能(y軸)以及(3)模型大?。ㄍㄟ^陰影區(qū)域的大小可視化)來展示結(jié)果,。

逐步蒸餾方法在使用更少數(shù)據(jù)的情況下,使用更小的模型超過LLMs,。在圖8中的所有數(shù)據(jù)集上,,我們發(fā)現(xiàn)逐步蒸餾方法在使用更少的數(shù)據(jù)時,性能優(yōu)于PaLM的少樣本CoT,,在只使用部分可用訓(xùn)練樣本的情況下,,使用更小的T5模型。具體來說,,在e-SNLI上,,逐步蒸餾方法可以在模型大小減小2000倍(220M T5)且只使用完整數(shù)據(jù)集的0.1%的情況下,,實現(xiàn)比少樣本CoT更好的性能。在圖9中,,只有無標(biāo)簽數(shù)據(jù)集可用時,,我們觀察到同樣的趨勢,即逐步蒸餾方法在大多數(shù)情況下,,可以使用更小的模型和更少的數(shù)據(jù)超過少樣本CoT,。例如,在ANLI上,,逐步蒸餾方法在模型縮小45倍且只使用完整無標(biāo)簽集50%的情況下,,超過了LLM。標(biāo)準(zhǔn)微調(diào)和蒸餾需要更多的數(shù)據(jù)和更大的模型,。最后,,在圖8和圖9中,我們看到標(biāo)準(zhǔn)微調(diào)和蒸餾通常需要更多的數(shù)據(jù)或更大的模型來匹配LLM的性能,。例如,,在圖8中的e-SNLI上,我們觀察到逐步蒸餾方法在只使用數(shù)據(jù)集的0.1%的情況下就超過了LLM,,而標(biāo)準(zhǔn)微調(diào)需要更多的數(shù)據(jù)來匹配性能,。此外,在圖8中的ANLI上,,我們觀察到逐步蒸餾方法可以在只使用80%的訓(xùn)練集的情況下,,使用770M模型超過PaLM,而標(biāo)準(zhǔn)微調(diào)即使使用完整數(shù)據(jù)集也難以匹配LLM,,因此需要更大的模型來縮小性能差距,。

圖片

4  結(jié)論

我們提出了逐步蒸餾方法,從LLMs中提取rationales作為有益的監(jiān)督信息,,以訓(xùn)練小型任務(wù)特定模型,。我們展示了逐步蒸餾方法減少了訓(xùn)練數(shù)據(jù)集的需求,以創(chuàng)建任務(wù)特定的較小模型,;它還減少了實現(xiàn)甚至超過原始LLM性能所需的模型大小,。與現(xiàn)有方法相比,逐步蒸餾方法提出了一種資源高效的訓(xùn)練到部署范式,。

專知便捷查看

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多