豐色 整理自 凹非寺 量子位 | 公眾號 QbitAI眼下,,“預(yù)訓(xùn)練大模型是AIGC時代的基座”這一觀點(diǎn)已成業(yè)界共識。 但訓(xùn)練一個千億參數(shù)規(guī)模的大模型,,還面臨很多挑戰(zhàn),。 在中國AIGC產(chǎn)業(yè)峰會現(xiàn)場,智譜AI CEO張鵬就指出,,在這方面我們至少面臨三大挑戰(zhàn): 一是成本,,如一個1750億參數(shù)的GPT-3就燒掉了1200萬美元(約合人民幣8300萬元); 二是人力,,一個谷歌PaLM-530B的作者列表就有近70人,,而我國大模型人才還很欠缺; 三是算法,,千億大模型訓(xùn)練過程極其不穩(wěn)定,,一旦出現(xiàn)意外,成本和風(fēng)險(xiǎn)都將額外增加,,性能也無法得到保障,。 因此,張鵬認(rèn)為:我們應(yīng)該多給國產(chǎn)從業(yè)者多一點(diǎn)耐心,。 張鵬,,畢業(yè)于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,現(xiàn)在是北京智譜華章科技有限公司(簡稱智譜AI)的CEO,,公司成立于2019年,,從那個時候,張鵬就帶領(lǐng)公司瞄向“讓機(jī)器像人一樣思考”的愿景奮斗,。幾年來,,公司連續(xù)發(fā)布了GLM系列大模型、ChatGLM,、CodeGeeX代碼大模型等,,已經(jīng)成為國內(nèi)最早也是最有大模型研發(fā)經(jīng)驗(yàn)的企業(yè)之一。 在本次大會上,,除了關(guān)于預(yù)訓(xùn)練大模型本身的思考,,張鵬介紹了智譜AI在該領(lǐng)域的最新研發(fā)和落地進(jìn)展,,包括: (1)可與GPT-3基座模型對標(biāo)的GLM-130B (2)只用單個GPU就能跑起來的ChatGLM-6B,全球下載量超過100萬 (3)每天幫助程序員“編寫”超過400萬行代碼的輔助編程工具CodeGeeX等 為了完整再現(xiàn)這些精彩內(nèi)容,,在不改變原意的基礎(chǔ)上,,量子位對其演講進(jìn)行了編輯整理。 中國AIGC產(chǎn)業(yè)峰會是由量子位主辦的行業(yè)峰會,,近20位產(chǎn)業(yè)代表與會討論,。線下參與觀眾600 ,線上收看觀眾近 300萬,,得到了包括CCTV2,、BTV等在內(nèi)的數(shù)十家媒體的廣泛報(bào)道關(guān)注。 演講要點(diǎn):預(yù)訓(xùn)練大模型是新一代人工智能應(yīng)用的基礎(chǔ)設(shè)施,。 訓(xùn)練高精度千億中英雙語稠密模型,,對大模型研究和應(yīng)用有重大意義。 訓(xùn)練千億大模型的成本高昂,,比如1750億參數(shù)的GPT-3總成本就達(dá)1200萬美元,。 常見的千億級模型訓(xùn)練數(shù)據(jù)量巨大,,訓(xùn)練周期又很長,,在這之中不可避免會有各種各樣的意外發(fā)生。所有這些意外都會帶來額外的成本和風(fēng)險(xiǎn),,以及不可預(yù)測的模型性能下降,。 開源對話模型ChatGLM-6B僅僅62億參數(shù),可以在單個GPU上運(yùn)行起來,,意味著稍微好一點(diǎn)的筆記本帶的顯卡就可以,。 大模型的智能涌現(xiàn)仍未看到極限…… 對于目前的GPT-4,人類至少在考試上已經(jīng)考不過它了,。
以下為張鵬演講全文: 預(yù)訓(xùn)練大模型是AIGC時代的基座AIGC時代的基座到底是什么,? 我相信所有人肯定會說是預(yù)訓(xùn)練大模型。 所謂基座即基礎(chǔ)設(shè)施,,為什么它能夠成為基礎(chǔ)設(shè)施,? 有兩點(diǎn)原因。 第一,,這樣的大模型能夠提供非常強(qiáng)大的通用泛化能力,,可完成多場景任務(wù),降低成本,、提高效率,,這是非常關(guān)鍵的特性。 第二,,模型本身的規(guī)模達(dá)到一定程度之后,,就能允許我們在當(dāng)中融入更多的知識,,包括跨模態(tài)的知識,使得模型能夠更好地模擬人的智能,。 因此,,相關(guān)的工作在過去幾年已經(jīng)成為整個行業(yè)的研究熱點(diǎn),包括ChatGPT,、SD(stable diffusion)等模型所帶來的生成能力,,正是由于這樣的大模型的誕生所衍生出來的。 在這個過程中我們持續(xù)跟蹤技術(shù)前沿,,也做了一些相關(guān)的工作,,后面我們逐漸展開。 如今我們欣喜地觀察到,,大模型能力正在涌現(xiàn),。 為什么量變會引起智能上的質(zhì)變?
過去幾年中,,大家談大模型的摩爾定律,,單模型參數(shù)量每年增長十倍甚至百倍。 現(xiàn)在,,智能涌現(xiàn)程度也呈現(xiàn)摩爾定律,,甚至以更高速度發(fā)展。 在這其中,,訓(xùn)練高精度千億中英雙語稠密模型,,對大模型研究和應(yīng)用有重大意義。 我們可以看到,,過去三四年中,,有很多人來做相關(guān)的探索和研究。 不光是國外,,我們國內(nèi)有很多企業(yè),、很多研究團(tuán)體也做了相關(guān)工作,每一個成功都是今天我們看到的成果的基石,,一塊塊磚拼接成最終的基座,。 ChatGPT讓大家覺得非常驚喜,實(shí)際上從基座GPT-3開始到現(xiàn)在經(jīng)歷兩年半時間,,其中很多工作都是在發(fā)掘和誘導(dǎo)基座模型的智能能力,。 比如SFT、RLHF等方法都是在誘發(fā)基座模型的能力,,這些智能能力已經(jīng)存在于千億基座模型當(dāng)中,。 那么,訓(xùn)練千億模型面臨的挑戰(zhàn)有哪些? 訓(xùn)練千億大模型的三大挑戰(zhàn)第一是訓(xùn)練成本高昂,。 比如訓(xùn)練1750億參數(shù)的GPT-3,,用到了上萬塊V100,機(jī)時費(fèi)用是460萬美元,,總成本可達(dá)1200萬美元,。 第二是人力投入極大。 像谷歌PaLM 530B團(tuán)隊(duì),,前期準(zhǔn)備29人,,訓(xùn)練過程11人,整個作者列表68人,,但我國能做大模型的人才不足百人,。 光是組建這樣一個知識密集型團(tuán)隊(duì)還不夠,還需要成員之間非常緊密的合作,。 第三是訓(xùn)練過程不穩(wěn)定,。 常見的千億級模型訓(xùn)練數(shù)據(jù)量巨大,訓(xùn)練周期又很長,,在這之中不可避免會有各種各樣的意外發(fā)生,。 所有這些意外都會帶來額外的成本和風(fēng)險(xiǎn),以及不可預(yù)測的模型性能下降,。 所以這方面我們也在一直努力和清華大學(xué)聯(lián)合研究,,也提出了自己的一些創(chuàng)新,通過融合GPT和BERT兩種訓(xùn)練框架解決訓(xùn)練模型問題,。 去年8月份,,我們開源了1300億參數(shù)規(guī)模的雙語預(yù)訓(xùn)練模型GLM-130B,。 它不僅英文不輸GPT-3,,中文也超出同類模型。 與此同時,,模型精度也提高了,,還能夠通過量化壓縮加速等在低成本情況下跑起來。 大家知道訓(xùn)練大模型很貴,,如何讓大家用較低的成本用起來,,也是我們作為商業(yè)化公司來講要考慮的問題。 經(jīng)過我們的努力,,不僅能夠讓運(yùn)行成本降低75%,,同時也會不損失任何的精度和推理的速度,最后還能適配國產(chǎn)化硬件,,給大家提供更好的選擇,。 所以這個開源項(xiàng)目受到全球關(guān)注,很多科研機(jī)構(gòu)、大學(xué)都來申請使用我們模型進(jìn)行評測,。 2022年11月,,斯坦福大學(xué)大模型中心對全球30個主流大模型進(jìn)行了全方位的評測,GLM-130B是亞洲唯一入選的大模型,。 在與OpenAI,、谷歌大腦、微軟,、英偉達(dá),、臉書的各大模型對比中,評測報(bào)告顯示GLM-130B在準(zhǔn)確性和公平性指標(biāo)上與GPT-3 175B (davinci) 接近或持平,,魯棒性,、校準(zhǔn)誤差和無偏性優(yōu)于GPT-3 175B。 GLM-130B是去年8月份的開源項(xiàng)目,,9月份我們也開源了另外的項(xiàng)目——CodeGeeX,。 我們專門針對開發(fā)者去設(shè)計(jì)了這樣一款大模型,提供相應(yīng)的服務(wù),,他們可以利用這個模型來寫代碼,,提高他們的生產(chǎn)效率。 CodeGeeX每天線上幫助程序員用戶提供超過400萬行代碼的生成量,,大家可以算算相當(dāng)于多少程序員的工作量,。 就在今年3月份的時候,我們終于把GLM-130B升級到了我們自己的聊天對話模型ChatGLM,。 這個模型已完成第一階段快速的內(nèi)測,,有將近5000人的規(guī)模參與,引起很多關(guān)注,。 在人類指令的意圖理解這方面它表現(xiàn)不錯,,它會比較堅(jiān)持地認(rèn)為它是一個AI機(jī)器人或者是某種人格的智能體,不會被用戶隨便混淆,。 為了讓更多人加入到大模型體驗(yàn)中來,,我們把小一點(diǎn)規(guī)模的ChatGLM-6B,就是62億規(guī)模的模型進(jìn)行了開源,。 這個項(xiàng)目4天就獲得了6K star,,昨天已經(jīng)超過2萬star,這是我們發(fā)布的開源項(xiàng)目中star數(shù)增長速度最快的,。 這個項(xiàng)目為什么引起大家的熱捧,? 因?yàn)槟P鸵?guī)模僅僅62億參數(shù),可以在單獨(dú)一張GPU上就可以運(yùn)行起來,,也就意味著稍微好一點(diǎn)的筆記本帶的顯卡就可以把它跑起來,。 甚至有人還在網(wǎng)絡(luò)平臺直播怎么玩這個模型,,怎么跑這個模型,非常有意思,。 業(yè)界也做了評測,,與GPT-3.5、GPT-4平行評測,,包括關(guān)于安全性方面測,,結(jié)果發(fā)現(xiàn)ChatGLM模型穩(wěn)定性不錯,安全性也還行,。 大模型的智能涌現(xiàn)仍未看到極限基于以上模型,,我們提供商業(yè)化的服務(wù)方式,我們稱之為Model as a Service(MaaS),。 它有多種服務(wù)方式,,包括端到端的模型訓(xùn)練服務(wù),從開始訓(xùn)練到最后應(yīng)用的開發(fā)和集成都囊括,。也可以像OpenAI一樣,,提供API調(diào)用服務(wù),也可以把模型以商業(yè)應(yīng)用的方式提供給大家來進(jìn)行使用,,最后還能幫助大家去開發(fā)一些創(chuàng)新的應(yīng)用,。 在這樣的理念下,我們提供BigModel.ai的開放平臺,,上面有解決方案,、產(chǎn)品、好玩的demo,、生成內(nèi)容,、API請求入口,大家可以了解一下,。 具體介紹幾個產(chǎn)品,。 在座有沒有程序員? 程序員非常喜歡這樣的工具(CodeGeeX),,提升大家的工作效率,,而且這個工具是免費(fèi)的,,所以大家盡管去試,,盡管去用。 其次,,文字工作者們也可以用這樣的輔助寫作工具(寫作蛙),,完成營銷文案、社交媒體內(nèi)容,,或者做細(xì)分場景劃分,,比如可以用他來寫一封給我孩子的信,讓他帶到學(xué)校去,在老師同學(xué)們面前念出來,,我覺得寫得比我自己寫的好,。 在聊天的場景下(小呆)我們也可以讓它去扮演某一種角色每天跟你聊一會兒,安慰你的心靈,,或者你喜歡一個可愛的女朋友,,你可以設(shè)定一下跟你聊一聊。 商業(yè)落地方面,,如美團(tuán)電商平臺,,用我們大模型提升廣告推廣以及提高客戶服務(wù)場景下的任務(wù)的性能;世界杯期間我們也服務(wù)了特殊的人群——聽障人士,,用手語方式現(xiàn)場實(shí)時直播,,關(guān)愛聽障人士。
未來,,大模型能幫大家做很多事情,,包括工作、生活甚至創(chuàng)新范式,,大模型的快速進(jìn)步給實(shí)現(xiàn)通用人工智能(AGI)帶來了曙光,。讓我們一起多一些期待,多一點(diǎn)耐心,,一起擁抱這個偉大的AI時代,,謝謝大家。 量子位智庫「中國AIGC產(chǎn)業(yè)全景報(bào)告」 開放下載,!
行業(yè)首份AIGC產(chǎn)業(yè)全景報(bào)告已經(jīng)開放下載,! 三大類玩家、四種商業(yè)模式,、萬億規(guī)模市場,、最值得關(guān)注的50家企業(yè),還有具體的賽道部署機(jī)會和行業(yè)變革機(jī)遇,,都將在報(bào)告內(nèi)一一分析呈現(xiàn),。更多產(chǎn)業(yè)洞察,不容錯過,。
|