久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

大語言模型: 新的摩爾定律,?

 520jefferson 2023-02-20 發(fā)布于北京

譯者按: 最近一段時間,ChatGPT 作為一個現(xiàn)象級應(yīng)用迅速躥紅,,也帶動了對其背后的大語言模型 (LLM) 的討論,,這些討論甚至出了 AI 技術(shù)圈,頗有些到了街談巷議的程度,。在 AI 技術(shù)圈,,關(guān)于 LLM 和小模型的討論在此之前已經(jīng)持續(xù)了不短的時間,處于不同生態(tài)位置和產(chǎn)業(yè)環(huán)節(jié)的人都有表達(dá)自己的觀點,,其中不少是有沖突的,。

大模型的研究者和大公司出于不同的動機(jī)站位 LLM,研究者出于對 LLM 的突現(xiàn)能力 (emergent ability) 的好奇和對 LLM 對 NLP 領(lǐng)域能力邊界的拓展,、而大公司可能更多出自于商業(yè)利益考量,;而社區(qū)和中小公司猶猶豫豫在小模型的站位上徘徊,一方面是由于對 LLM 最終訓(xùn)練,、推理和數(shù)據(jù)成本的望而卻步,,一方面也是對大模型可能加強(qiáng)大公司數(shù)據(jù)霸權(quán)的隱隱擔(dān)憂,。但討論,尤其是公開透明的討論,,總是好事,,讓大家能夠聽到不同的聲音,才有可能最終收斂至更合理的方案,。

我們選譯的這篇文章來自于 2021 年 10 月的 Hugging Face 博客,,作者在那個時間點站位的是小模型,一年多以后的 2023 年作者的觀點有沒有改變我們不得而知,,但開卷有益,,了解作者當(dāng)時考慮的那些點,把那些合理的點納入自己的思考體系,,并結(jié)合新的進(jìn)展最終作出自己的判斷可能才是最終目的,。

不久前,,微軟和 Nvidia 推出了 Megatron-Turing NLG 530B,,一種基于 Transformer 的模型,被譽(yù)為是 “世界上最大且最強(qiáng)的生成語言模型”,。

介紹 Megatron-Turing NLG 530B 模型的博文:
https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/

毫無疑問,,此項成果對于機(jī)器學(xué)習(xí)工程來講是一場令人印象深刻的能力展示,表明我們的工程能力已經(jīng)能夠訓(xùn)練如此巨大的模型,。然而,,我們應(yīng)該為這種超級模型的趨勢感到興奮嗎?我個人傾向于否定的回答,。我將在通過本文闡述我的理由,。

圖片

這是你的深度學(xué)習(xí)大腦

研究人員估計,人腦平均包含 860 億個神經(jīng)元和 100 萬億個突觸,??梢钥隙ǖ氖牵@里面并非所有的神經(jīng)元和突觸都用于語言,。有趣的是,,GPT-4 預(yù)計有大約 100 萬億個參數(shù)...... 雖然這個類比很粗略,但難道我們不應(yīng)該懷疑一下構(gòu)建與人腦大小相當(dāng)?shù)恼Z言模型長期來講是否是最佳方案,?

Wired 關(guān)于 GPT-4 參數(shù)數(shù)量預(yù)計的文章鏈接:
https://www./story/cerebras-chip-cluster-neural-networks-ai/

當(dāng)然,,我們的大腦是一個了不起的器官,它經(jīng)過數(shù)百萬年的進(jìn)化而產(chǎn)生,,而深度學(xué)習(xí)模型僅有幾十年的歷史,。不過,我們的直覺告訴我們: 有些東西無法計算 (這是個雙關(guān)語,,:)) ,。

深度學(xué)習(xí),,深度銷金窟?

如你所料,,在龐大的文本數(shù)據(jù)集上訓(xùn)練一個 5300 億參數(shù)的模型需要相當(dāng)多的基礎(chǔ)設(shè)施,。事實上,Microsoft 和 Nvidia 使用了數(shù)百臺 DGX A100 GPU 服務(wù)器,,每臺 19 萬 9 千美元,。如果再把網(wǎng)絡(luò)設(shè)備、托管成本等因素考慮進(jìn)去的話,,任何想要重現(xiàn)該實驗的組織或個人都必須花費(fèi)近 1 億美元,。來根薯條壓壓驚?

說真的,,有哪些組織有那種值得花費(fèi) 1 億美元來構(gòu)建深度學(xué)習(xí)基礎(chǔ)設(shè)施的業(yè)務(wù),?再少點,又有哪些組織有那種可以值得花費(fèi) 1000 萬美元基礎(chǔ)設(shè)施的業(yè)務(wù),?很少,。既然很少,那么請問,,這些模型為誰而生呢,?

GPU 集群的熱

盡管訓(xùn)練大模型需要杰出的工程能力,但在 GPU 上訓(xùn)練深度學(xué)習(xí)模型本身卻是一種蠻力技術(shù),。根據(jù)規(guī)格表,,每臺 DGX 服務(wù)器可消耗高達(dá) 6.5 千瓦的功率。同時,,數(shù)據(jù)中心 (或服務(wù)器機(jī)柜) 至少需要同樣多的冷卻能力,。除非你是史塔克家族的人 (Starks) ,需要在冬天讓臨冬城 (Winterfell) 保持溫暖,,否則你必須處理散熱問題,。

此外,隨著公眾對氣候和社會責(zé)任問題意識的增強(qiáng),,還需要考慮碳足跡問題,。根據(jù)馬薩諸塞大學(xué) 2019 年的一項研究,“在 GPU 上訓(xùn)練一次 BERT 產(chǎn)生的碳足跡大致與一次跨美飛行相當(dāng)”,。

2019 年馬賽諸撒大學(xué)研究報告預(yù)印本鏈接:
https:///pdf/1906.02243.pdf

BERT-Large 有 3.4 億個參數(shù),。我們可以通過此推斷 Megatron-Turing 的碳足跡大致如何……認(rèn)識我的人都知道,我并不是一個熱血環(huán)保主義者,。盡管如此,,這些數(shù)字也不容忽視。

所以呢,?

我對 Megatron-Turing NLG 530B 和接下來可能會出現(xiàn)的模型巨獸感到興奮嗎,?不,。我認(rèn)為值得增加成本、復(fù)雜性以及碳足跡去換取 (相對較小的) 測試基準(zhǔn)上的改進(jìn)嗎,?不,。我認(rèn)為構(gòu)建和推廣這些龐大的模型能幫助組織理解和應(yīng)用機(jī)器學(xué)習(xí)嗎?不,。

我想知道這一切有什么意義,。為了科學(xué)而科學(xué)?好的老營銷策略,?技術(shù)至上,?可能每個都有一點。如果是這些意義的話,,我就不奉陪了,。

相反,我更專注于實用且可操作的技術(shù),,大家都可以使用這些技術(shù)來構(gòu)建高質(zhì)量的機(jī)器學(xué)習(xí)解決方案,。

使用預(yù)訓(xùn)練模型

在絕大多數(shù)情況下,你不需要自定義模型架構(gòu),。也許你會 想要 自己定制一個模型架構(gòu) (這是另一回事),,但請注意此處猛獸出沒,僅限資深玩家,!

一個好的起點是尋找已經(jīng)針對你要解決的任務(wù)預(yù)訓(xùn)練過的模型 (例如,英文文本摘要) ,。

Hugging Face 上提供的預(yù)訓(xùn)練模型:
https:///models

然后,,你應(yīng)該快速嘗試一些模型,用它們來預(yù)測你自己的數(shù)據(jù),。如果指標(biāo)效果不錯,,那么打完收工!如果還需要更高一點的準(zhǔn)確率,,你應(yīng)該考慮對模型進(jìn)行微調(diào) (稍后會詳細(xì)介紹) ,。

使用較小的模型

在評估模型時,你應(yīng)該從那些精度滿足要求的模型中選擇尺寸最小的那個,。它預(yù)測得更快,,并且需要更少的硬件資源來進(jìn)行訓(xùn)練和推理。節(jié)儉需要從一開始就做起,。

這其實也不算什么新招,。計算機(jī)視覺從業(yè)者會記得 SqueezeNet 2017 年問世時,與 AlexNet 相比,,模型尺寸減少了 50 倍,,而準(zhǔn)確率卻與 AlexNet 相當(dāng)甚至更高,。多聰明!

計算機(jī)視覺領(lǐng)域的兩篇著名論文地址:

  • SqueezeNet:
    https:///abs/1602.07360
  • AlexNet:
    https://papers./paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-Abstract.html

自然語言處理社區(qū)也在致力于使用遷移學(xué)習(xí)技術(shù)縮減模型尺寸,,如使用知識蒸餾技術(shù),。DistilBERT 也許是其中最廣為人知的工作。與原始 BERT 模型相比,,它保留了 97% 的語言理解能力,,同時尺寸縮小了 40%,速度提高了 60%,。你可以 Hugging Face 嘗試一下 DistilBERT,。同樣的方法也已經(jīng)應(yīng)用于其他模型,例如 Facebook 的 BART,,你可以在 Hugging Face 嘗試 DistilBART,。

NLP 領(lǐng)域的幾個模型或論文地址:

  • DistilBERT 論文地址:
    https:///abs/1910.01108
  • Hugging Face 提供的 DistilBERT 體驗地址:
    https:///distilbert-base-uncased
  • Facebook 的 BART 模型論文:
    https:///abs/1910.13461

Big Science 項目的最新模型也令人印象深刻。下面這張來自于論文的圖表明,,他們的 T0 模型在許多任務(wù)上都優(yōu)于 GPT-3,,同時尺寸小 16 倍。你可以 Hugging Face 嘗試 T0,。

圖片
  • Big Science 項目地址:
    https://bigscience./
  • 上圖出處論文:
    https:///abs/2110.08207
  • T0 體驗地址:
    https:///bigscience/T0pp

我們需要更多的此類研究,!

微調(diào)模型

如果你需要特化一個模型,你不應(yīng)該從頭開始訓(xùn)練它,。相反,,你應(yīng)該對其進(jìn)行微調(diào),也就是說,,僅針對你自己的數(shù)據(jù)訓(xùn)練幾個回合,。如果你缺少數(shù)據(jù),也許這些數(shù)據(jù)集中的某個可以幫助你入門,。

Hugging Face 數(shù)據(jù)集一覽:
https:///datasets

猜對了,,這是進(jìn)行遷移學(xué)習(xí)的另一種方式,它會幫助你節(jié)省一切,!

  • 收集,、存儲、清理和標(biāo)注的數(shù)據(jù)更少,,
  • 更快的實驗和迭代,,
  • 生產(chǎn)過程所需的資源更少。

換句話說: 節(jié)省時間,,節(jié)省金錢,,節(jié)省硬件資源,拯救世界!

如果你需要教程,,Hugging Face 課程可以幫助你立即入門,。

課程地址:
https:///course

使用云基礎(chǔ)設(shè)施

不管你是否喜歡它們,事實是云公司懂得如何構(gòu)建高效的基礎(chǔ)設(shè)施,??沙掷m(xù)性研究表明,基于云的基礎(chǔ)設(shè)施比其他替代方案更節(jié)能減排: 請參閱 AWS,、Azure 和 Google,。Earth.org 宣稱雖然云基礎(chǔ)設(shè)施并不完美,“[它] 比替代方案更節(jié)能,,并促進(jìn)了環(huán)境友好的服務(wù)及經(jīng)濟(jì)增長,。'

幾家知名云計算廠商和機(jī)構(gòu)對于云計算與環(huán)境保護(hù)方面的聲明:

  • AWS:
    https://sustainability./environment/the-cloud
  • Azure:
    https://azure.microsoft.com/en-us/global-infrastructure/sustainability
  • Google:
    https://sustainability.google/intl/zh-CN/
  • Earth.org:
    https:///environmental-impact-of-cloud-computing/

在易用性、靈活性和隨用隨付方面,,云肯定有很多優(yōu)勢,。它也比你想象的更環(huán)保。如果你的 GPU 不夠用,,為什么不嘗試在 AWS 的機(jī)器學(xué)習(xí)托管服務(wù) Amazon SageMaker 上微調(diào)你的 Hugging Face 模型,?我們?yōu)槟銣?zhǔn)備了大量示例。

  • Amazon SageMaker 鏈接:
    https://aws.amazon.com/sagemaker/
  • Hugging Face 提供的 SageMaker 示例:
    https:///docs/sagemaker/train

優(yōu)化你的模型

從編譯器到虛擬機(jī),,軟件工程師長期以來一直在使用能夠針對任何運(yùn)行硬件自動優(yōu)化代碼的工具,。

然而,機(jī)器學(xué)習(xí)社區(qū)仍在這個課題上苦苦掙扎,,這是有充分理由的,。優(yōu)化模型的尺寸和速度是一項極其復(fù)雜的任務(wù),其中涉及以下技術(shù):

  • 專用硬件加速: 如訓(xùn)練加速硬件 (Graphcore,、Habana) ,、推理加速硬件 (Google TPU,AWS Inferentia),。
  • 剪枝: 刪除對預(yù)測結(jié)果影響很小或沒有影響的模型參數(shù)。
  • 融合: 合并模型層 (例如,,卷積和激活) ,。
  • 量化: 以較小的位深存儲模型參數(shù) (例如,使用 8 位而不是 32 位)

幸運(yùn)的是,,自動化工具開始出現(xiàn),,例如 Optimum 開源庫和 Infinity,Infinity 是一個最低能以 1 毫秒的延遲提供 Transformers 推理能力的容器化解決方案,。

  • Graphcore 訓(xùn)練加速硬件:
    https://www./
  • Habana 訓(xùn)練加速硬件:
    https:///
  • Google TPU 推理加速硬件:
    https://cloud.google.com/tpu
  • AWS Inferentia 推理加速硬件:
    https://aws.amazon.com/machine-learning/inferentia/
  • Optimum 開源庫地址:
    https:///hardware
  • Infinity 地址:
    https:///infinity

結(jié)論

在過去的幾年里,,大語言模型的尺寸平均每年增長 10 倍。這開始看起來像另一個摩爾定律。

這條路似曾相識,,我們應(yīng)該知道這條路遲早會遇到收益遞減,、成本增加、復(fù)雜性等問題以及新的風(fēng)險,。指數(shù)的結(jié)局往往不是會很好,。還記得 Meltdown and Spectre 嗎?我們想知道人工智能的 Meltdown and Spectre 會是什么嗎,?

Meltdown and Spectre 網(wǎng)址: 
https:///

英文原文: https:///blog/large-language-models

原作者: Julien Simon

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多