久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

訓(xùn)練ChatGPT的必備資源:語料,、模型和代碼庫完全指南

 黃爸爸好 2023-04-10 發(fā)布于上海
圖片

文|python

前言

近期,,ChatGPT成為了全網(wǎng)熱議的話題。ChatGPT是一種基于大規(guī)模語言模型技術(shù)(LLM,, large language model)實現(xiàn)的人機對話工具,。但是,如果我們想要訓(xùn)練自己的大規(guī)模語言模型,,有哪些公開的資源可以提供幫助呢,?在這個github項目中,人民大學(xué)的老師同學(xué)們從模型參數(shù)(Checkpoints),、語料和代碼庫三個方面,,為大家整理并介紹這些資源。接下來,,讓我們一起來看看吧,。

資源鏈接:
https://github.com/RUCAIBox/LLMSurvey

論文地址:
https:///pdf/2303.18223.pdf

模型參數(shù)

從已經(jīng)訓(xùn)練好的模型參數(shù)做精調(diào)、繼續(xù)訓(xùn)練,,無疑可以極大地降低計算成本,。那目前有哪些開源的大模型參數(shù),可以供我們選擇呢,?

第一類是100~1000億參數(shù)的模型,。這類模型除了LLaMA(650億)之外,參數(shù)范圍都集中在100~200億之間,。具體而言,,包括:LLaMA[1], mT5[2], T0[3], GPT-NeoX-20B[4], CodeGen[5], UL2[6], Flan-T5[7], mT0[8], PanGu-α[9]。

其中,,F(xiàn)lan-T5經(jīng)過instruction tuning的訓(xùn)練,;CodeGen專注于代碼生成;mT0是個跨語言模型,;PanGu-α有大模型版本,,并且在中文下游任務(wù)上表現(xiàn)較好。

第二類是超過1000億參數(shù)規(guī)模的模型,。這類模型開源的較少,,包括:OPT[10], OPT-IML[11], BLOOM[12], BLOOMZ[13], GLM[14], Galactica[15]。參數(shù)規(guī)模都在1000億~2000億之間,。

其中,,OPT是專為開源和大模型復(fù)現(xiàn)提出的,;BLOOM 和 BLOOMZ具有跨語言能力;Galactica, GLM, 和 OPT-IML都是經(jīng)過instruction tuning的,。

這些模型參數(shù)大多使用幾百到上千塊顯卡訓(xùn)練得到,。比如GPT-NeoX-20B(200億參數(shù))使用了96個A100-SXM4-40GB GPU,LLaMA(650億參數(shù))使用了2048塊A100-80G GPU學(xué)習(xí)了21天,,OPT(1750億參數(shù))使用了992 A100-80GB GPU,,GLM(1300億參數(shù))使用了768塊DGX-A100-40G GPU訓(xùn)練了60天。

除了這些可供公開下載參數(shù)的模型之外,,OpenAI還提供在他們的服務(wù)器上精調(diào)GPT-3模型的服務(wù),,可以選擇的初始模型參數(shù)包括babbage(GPT-3 1B), curie(GPT-3 6.7B)和 davinci(GPT-3 175B)。

圖片

上圖中,,標黃的模型均為開源模型,。

語料

訓(xùn)練大規(guī)模語言模型,訓(xùn)練語料不可或缺,。主要的開源語料可以分成5類:書籍,、網(wǎng)頁爬取、社交媒體平臺,、百科,、代碼,。

書籍語料包括:BookCorpus[16] 和 Project Gutenberg[17],,分別包含1.1萬和7萬本書籍。前者在GPT-2等小模型中使用較多,,而MT-NLG 和 LLaMA等大模型均使用了后者作為訓(xùn)練語料,。

最常用的網(wǎng)頁爬取語料是CommonCrawl[18]。不過該語料雖然很大,,但質(zhì)量較差,。大模型大多采用從其中篩選得到的子集用于訓(xùn)練。常用的4個子集包括:C4[19], CC-Stories, CC-News[20], 和 RealNews[21],。CC-Stories的原版現(xiàn)在已不提供下載,,一個替代選項是CC-Stories-R[22]。

社交媒體平臺語料主要獲取自Reddit平臺,。WebText包含了Reddit平臺上的高贊內(nèi)容,,然而現(xiàn)在已經(jīng)不提供下載,現(xiàn)在可以用OpenWebText[23]替代,。此外,,PushShift.io[24]提供了一個實時更新的Reddit的全部內(nèi)容。

百科語料就是維基百科(Wikipedia[25])的下載數(shù)據(jù),。該語料被廣泛地用于多種大語言模型(GPT-3, LaMDA, LLaMA 等),,且提供多種語言版本,,可用于支持跨語言模型訓(xùn)練。

代碼語料主要來自于GitHub中的項目,,或代碼問答社區(qū),。開源的代碼語料有谷歌的BigQuery[26]。大語言模型CodeGen在訓(xùn)練時就使用了BigQuery的一個子集,。

除了這些單一內(nèi)容來源的語料,,還有一些語料集。比如 the Pile[27]合并了22個子集,,構(gòu)建了800GB規(guī)模的混合語料,。而 ROOTS[28]整合了59種語言的語料,包含1.61TB的文本內(nèi)容,。

圖片

上圖統(tǒng)計了這些常用的開源語料,。目前的預(yù)訓(xùn)練模型大多采用多個語料資源合并作為訓(xùn)練數(shù)據(jù)。比如GPT-3使用了5個來源3000億token(word piece),包含開源語料CommonCrawl, Wikipedia 和非開源語料(WebText2,,Books1, Books2),。

代碼庫

使用代碼庫,可以幫助你快速搭建模型結(jié)構(gòu),,而不用一個個矩陣乘法地搭建transformers結(jié)構(gòu),。具體而言,包括以下7個:

  1. Transformers[29]是Hugging Face構(gòu)建的用來快速實現(xiàn)transformers結(jié)構(gòu)的庫,。同時也提供數(shù)據(jù)集處理與評價等相關(guān)功能,。應(yīng)用廣泛,社區(qū)活躍,。

  2. DeepSpeed[30]是一個微軟構(gòu)建的基于PyTorch的庫,。GPT-Neo,BLOOM等模型均是基于該庫開發(fā),。DeepSpeed提供了多種分布式優(yōu)化工具,,如ZeRO,gradient checkpointing等,。

  3. Megatron-LM[31]是NVIDIA構(gòu)建的一個基于PyTorch的大模型訓(xùn)練工具,,并提供一些用于分布式計算的工具如模型與數(shù)據(jù)并行、混合精度訓(xùn)練,,F(xiàn)lashAttention與gradient checkpointing等,。

  4. JAX[32]是Google Brain構(gòu)建的一個工具,支持GPU與TPU,,并且提供了即時編譯加速與自動batching等功能,。

  5. Colossal-AI[33]是EleutherAI基于JAX開發(fā)的一個大模型訓(xùn)練工具,支持并行化與混合精度訓(xùn)練,。最近有一個基于LLaMA訓(xùn)練的對話應(yīng)用ColossalChat就是基于該工具構(gòu)建的,。

  6. BMTrain[34] 是 OpenBMB開發(fā)的一個大模型訓(xùn)練工具,,強調(diào)代碼簡化,低資源與高可用性,。在其ModelCenter中,,已經(jīng)構(gòu)建好如Flan-T5 與 GLM等模型結(jié)構(gòu)可供直接使用。

  7. FastMoE[35] 是一個基于pytorch的用于搭建混合專家模型的工具,,并支持訓(xùn)練時數(shù)據(jù)與模型并行,。

結(jié)束語

通過使用以上提到的模型參數(shù)、語料與代碼,,我們可以極大地方便自己實現(xiàn)大規(guī)模語言模型,,并搭建出自己的對話工具。但是,,盡管數(shù)據(jù)資源相對容易獲取,,計算資源卻十分稀缺。想要獲得足夠的顯卡資源以訓(xùn)練/調(diào)整大規(guī)模模型,,仍然是一件非常困難的事情,。因此,私有化ChatGPT的道路任重而道遠,。在計算資源相對匱乏的情況下,,我們更是要利用好手頭的模型參數(shù)、語料與代碼等資源,,以有限的計算量取得最好的表現(xiàn),。

圖片賣萌屋作者:python

北大畢業(yè)的NLP博士。日常寫點論文,,碼點知乎,,刷點leetcode,。主要關(guān)注問答,、對話、信息抽取,、預(yù)訓(xùn)練,、智能法律等方向。力扣國服第一python選手(經(jīng)常掉下來),。知乎 ID 是 Erutan Lai,, leetcode/力扣 ID 是 pku_erutan,歡迎沒事常來逛逛,。

作品推薦

  1. 恕我直言,,你的實驗結(jié)論可能嚴重依賴隨機數(shù)種子!
  2. AllenAI 發(fā)布萬能問答系統(tǒng) MACAW,!各類題型樣樣精通,,性能大幅超越 GPT-3,!
  3. 吐血整理:論文寫作中注意這些細節(jié),能顯著提升成稿質(zhì)量
  4. 恕我直言,,你的模型可能并沒看懂 prompt 在說啥

圖片

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多