近日,,云知聲創(chuàng)始人梁家恩博士與智次方進(jìn)行了深度對話,本文摘取了兩位大咖對話中的部分精華內(nèi)容,。 當(dāng)前,,人工智能技術(shù)的發(fā)展已經(jīng)進(jìn)入了新拐點(diǎn),AI技術(shù)范式正從過去的“預(yù)訓(xùn)練模型-特定任務(wù)精調(diào)”向“基礎(chǔ)模型-應(yīng)用反饋學(xué)習(xí)”變遷,,這種遷移也必然創(chuàng)造更多應(yīng)用可能,,各行各業(yè)也在紛紛探索AI新范式,包括通用大模型演進(jìn)和利用大模型范式解決醫(yī)療,、工業(yè),、辦公等場景問題,新產(chǎn)品也已經(jīng)快速融入各行各業(yè),不斷塑造新業(yè)態(tài),、新場景,,帶來巨大的商業(yè)價值。 作為國內(nèi)頂尖的語音人工智能獨(dú)角獸企業(yè),,云知聲十年來構(gòu)建了以語音,、語言和知識圖譜為核心,涵蓋感知,、認(rèn)知與生成的全棧AI技術(shù)體系,,并向多模態(tài)人工智能方向拓展。對于云知聲而言,,已經(jīng)把ChatGPT技術(shù)升級作為公司AGI能力構(gòu)建的新起點(diǎn),,并優(yōu)先解決在智慧物聯(lián)和智慧醫(yī)療領(lǐng)域的應(yīng)用問題。 近期,,云知聲創(chuàng)始人,、董事長兼CTO梁家恩博士與智次方·物聯(lián)網(wǎng)智庫創(chuàng)始人彭昭聊了聊大模型在不同場景中的應(yīng)用。 從鑒別式AI到生成式AI的轉(zhuǎn)變 彭昭:過去十年是鑒別式AI為主流,,未來十年則是生成式AI的天下,,眾所周知,生成式AI對于數(shù)據(jù),、算法,、算力這三個方面都提出了更高的要求,請問云知聲在這三方面都做了怎樣的準(zhǔn)備和布局? 梁家恩:生成式AI其實(shí)和過去的鑒別式AI,,在核心算法框架上來說差別并沒有那么大,,鑒別式AI主要研究的是數(shù)據(jù)分布,根據(jù)數(shù)據(jù)分布來區(qū)分不同的類型,,而生成式AI,,則是在數(shù)據(jù)分布做建模的基礎(chǔ)之上,還要去研究數(shù)據(jù)的生成結(jié)構(gòu),,特別是現(xiàn)在跟自然語言結(jié)合在一起以后,,就可以用自然語言的方式去靈活控制它的生成的結(jié)果。 在人工智能領(lǐng)域,,數(shù)據(jù),、算力和算法早已成為不可缺少的“三駕馬車”,對于云知聲來說,,實(shí)際上我們在2012年成立時就已經(jīng)開始布局這三方面,,也是把深度學(xué)習(xí)最早用到產(chǎn)業(yè)界里的公司之一。在數(shù)據(jù)方面,,云知聲構(gòu)建了一個云平臺來匯集數(shù)據(jù);在算力方面,,早期公司就布局了GPU集群,,但規(guī)模并不算大,在2016年的時候,,我們開始把GPU集群升級為Atlas大規(guī)模機(jī)器學(xué)習(xí)超算平臺,,為未來同時調(diào)度上千塊GPU做大模型做了很好的準(zhǔn)備;在算法方面,現(xiàn)在語音,、歌唱和虛擬人合成技術(shù)已經(jīng)比較成熟,云知聲在這方面的技術(shù)儲備也很充分,,未來還需要在多模態(tài)領(lǐng)域延伸,,比如圖像和視頻的生成。多模態(tài)生成目前也都是通過自然語言來銜接在一起的,,需要繼續(xù)增加算力和數(shù)據(jù),,并結(jié)合應(yīng)用場景進(jìn)行拓展。 彭昭:ChatGPT背后使用的是數(shù)年前的Transformer架構(gòu),,但依然取得了驚人的效果,,這在某種程度上說明AI的演進(jìn)已經(jīng)從以算法為中心逐步變?yōu)橐詳?shù)據(jù)為中心,您覺得MaaS這種模式會成為AIGC時代的主流嗎?未來還會如何演變? 梁家恩:在科技圈之外,,Transformer的強(qiáng)大是在ChatGPT出現(xiàn)之后才被大眾才看到,。其實(shí)在它剛剛出現(xiàn)之后,GPT就已經(jīng)用到了Transformer架構(gòu),,雖然幾個月之后就被Google推出的BERT模型打敗,,但BERT本身也用到了Transformer架構(gòu)。過去,,用傳統(tǒng)的方法來處理語言問題是非常困難的,,因?yàn)檎Z言是個離散符號處理問題,要做詞法分析,、句法分析等任務(wù)非常麻煩,,直到通過深度學(xué)習(xí)轉(zhuǎn)化為詞向量表示才有實(shí)質(zhì)性突破,。有了Transformer架構(gòu)以后,,利用它的自注意力(self-attention)機(jī)制,只要訓(xùn)練的數(shù)據(jù)量足夠大,,就可以把序列映射問題做到足夠好,。當(dāng)時,這篇論文的標(biāo)題取的也非?!皣虖垺?,叫“Attention is all you need”,意思是只要用自注意力機(jī)制就可以搞定所有問題,,結(jié)果它確實(shí)在機(jī)器翻譯上取得了非常大的突破,。后來,業(yè)界就用這個框架去解決很多語義理解的問題,,確實(shí)都有很大的提升,,這在過去是不可想象的。不過,,這些都是普通用戶感覺不到的,,用戶真正能夠感覺到的是模型在理解之外,生成的應(yīng)答效果如何,。 而ChatGPT的回應(yīng)超出了用戶的預(yù)期,,大家才覺得終于比過去看到的對話機(jī)器人的智商有了質(zhì)的突破,但其實(shí)技術(shù)在這些年里一直都有突破和進(jìn)展,,只不過是現(xiàn)在的應(yīng)用形式讓大家突然感覺到進(jìn)展確實(shí)非常大,。 剛才說到“以算法為中心轉(zhuǎn)向以數(shù)據(jù)為中心”的趨勢是非常明確的,因?yàn)樵诳蚣芙y(tǒng)一之后,,模型的性能就取決于究竟給什么樣的數(shù)據(jù)去訓(xùn)練,,數(shù)據(jù)就決定了模型性能的上限,數(shù)據(jù)質(zhì)量越高,、規(guī)模越大,,往往模型效果就越好,。 未來,我認(rèn)為Maas的模式會成為大趨勢,。過去,,要處理相對復(fù)雜業(yè)務(wù),都需要根據(jù)業(yè)務(wù)流程來編程解決,,但現(xiàn)在就可以通過自然語言接口來處理這些任務(wù),,在這種情況下就可以用模型優(yōu)化代替流程編碼來直接解決各種問題,只需要收集這個領(lǐng)域和應(yīng)用的數(shù)據(jù)去訓(xùn)練即可,,而不需要自己編程來解決,,這是模型處理業(yè)務(wù)和編程處理業(yè)務(wù)方式的本質(zhì)區(qū)別。 大模型要更加注重數(shù)據(jù)安全 彭昭:如果轉(zhuǎn)變?yōu)镸aas的模式,,如何判斷各種模型的好壞呢? 梁家恩:其實(shí)最終都要從結(jié)果來評判的,ChatGPT比較好的一點(diǎn)就在于它其實(shí)在隱藏了中間的理解問題,,用戶不需要關(guān)心模型中間的“意圖理解”環(huán)節(jié),,也不需要顯式做句法分析、語義理解等動作,,只要看看ChatGPT最終給用戶的反饋質(zhì)量如何就可以,。就像圖靈測試一樣,只要人類無法判斷是真人還是機(jī)器在回應(yīng),,就是足夠智能,。如果單獨(dú)處理“語義理解”任務(wù),過去像BERT這種模型,,要比GPT模型做得更好,,因?yàn)樗褂昧穗p向注意力機(jī)制,但BERT架構(gòu)沒法直接形成直觀的高質(zhì)量回復(fù),,所以讓非技術(shù)用戶感知到,。 彭昭:如果以數(shù)據(jù)為中心的話,掌握大量數(shù)據(jù)的企業(yè)會有很強(qiáng)的競爭優(yōu)勢嗎? 梁家恩:不論是過去的傳統(tǒng)算法,,還是現(xiàn)在的機(jī)器學(xué)習(xí)算法,,數(shù)據(jù)都已經(jīng)變得非常重要,很多公司本質(zhì)上也已經(jīng)變成了數(shù)據(jù)公司,。只要有很多的數(shù)據(jù)沉淀下來,,模型就可以變得足夠聰明,只不過此前使用傳統(tǒng)的統(tǒng)計學(xué)習(xí)方法去挖掘這種能力,,而現(xiàn)在是用深度學(xué)習(xí)和大模型的方法去挖掘,,精度和能力也就越來越強(qiáng)。 彭昭:相比于其它行業(yè)來說,,醫(yī)療領(lǐng)域?qū)Π踩囊蟾呱踔敛蝗莩鲥e,,云知聲是如何在醫(yī)療行業(yè)大模型中滿足近乎嚴(yán)苛的要求,,從而讓模型輸出的結(jié)果更專業(yè)、更可信的? 梁家恩:云知聲之所以把醫(yī)療作為一個主要方向,,是因?yàn)獒t(yī)療行業(yè)的知識密集程度非常高,,如果在醫(yī)療領(lǐng)域的問題都能夠處理好,相信很多其他行業(yè)也都能搞定,,這對我們來說是一個技術(shù)的制高點(diǎn),,所以需要攻克它。另外,,醫(yī)療行業(yè)的應(yīng)用場景,、應(yīng)用空間包括社會價值也都很大。 在數(shù)據(jù)安全性方面,,特別是有些涉及到用戶的隱私數(shù)據(jù),,要求都是很高的,最難的就是真實(shí)的用戶治療案例,,都必須經(jīng)過數(shù)據(jù)的脫敏處理,。另外,在我們和醫(yī)院的合作過程中,,也會把數(shù)據(jù)做相應(yīng)的加密和tokenization,,即把數(shù)據(jù)符號化,只有機(jī)器能夠知道解碼后的含義,。在算法方面,,現(xiàn)在的聯(lián)邦學(xué)習(xí)也可以把各種特征融合后再去計算,使得不接觸初始敏感信息的情況下,,還可以繼續(xù)優(yōu)化模型,。 彭昭:OpenAI的CEO也在積極的做一些生態(tài)投資的布局,云知聲會不會擔(dān)心OpenAI投資醫(yī)療賽道? 梁家恩:我覺得不論是教育還是醫(yī)療,,這些行業(yè)其實(shí)都事關(guān)國計民生,,所以這里面中國一定要有自己獨(dú)立的解決方案,如果他愿意投資這方面的企業(yè),,在國內(nèi)來看,,我相信云知聲是很好的標(biāo)的。過去我們已經(jīng)有很多行業(yè)已經(jīng)遭受到所謂卡脖子的問題,,在這個領(lǐng)域我們肯定不會讓它成為一個新的卡脖子問題,。 彭昭:云知聲是以語音識別技術(shù)起家的,從2012年至今積累了大量相關(guān)經(jīng)驗(yàn),,早期的這些技術(shù)積累對于云知聲推出行業(yè)大模型有怎樣的幫助? 梁家恩:當(dāng)時起“云知聲”這個名字的時候,,我們就不僅僅停留在聲音領(lǐng)域了,聲音只是我們的一個切入點(diǎn),,我們更希望有一個云端大腦,,有強(qiáng)大的認(rèn)知能力,,能夠通過聲音的交互去解決問題。 2012年時,,我們開始布局“三駕馬車”,,到2016年AlphaGo開始興起的時候,我們就已經(jīng)開始布局底層的大規(guī)模計算能力,,也就是Atlas超算平臺,。在此之上,我們還拓展了知識圖譜和認(rèn)知技術(shù)體系,,從而形成一個全棧的技術(shù)體系?,F(xiàn)在拓展到的大模型對我們來說只是一個算法框架的升級。類似過去用BERT主要是解決判別式問題的,,那現(xiàn)在就把它切換成GPT的生成式框架,,而BERT實(shí)際上是Transformer的編碼器部分,GPT則是Transformer的解碼器部分,,算法改變對我們沒有本質(zhì)的挑戰(zhàn),,我們也已經(jīng)具備訓(xùn)練大模型的基礎(chǔ)架構(gòu)。除了算法和算力支撐,,在行業(yè)問題認(rèn)知和數(shù)據(jù)積累方面,也讓我們充滿信心,。包括物聯(lián)網(wǎng)和醫(yī)療領(lǐng)域,,我們理解這些行業(yè)業(yè)務(wù)的核心問題,也有相關(guān)的數(shù)據(jù)積累,,我們是非常有信心能把這個大模型做好的,。 其實(shí)從ChatGPT的算法原理來說,早就已經(jīng)有了,, OpenAI最重要的是率先把產(chǎn)品做了出來,,從而形成一個工程閉環(huán)。另外,,大家對OpenAI的容忍度是遠(yuǎn)遠(yuǎn)高于Google的,,如果OpenAI之前犯的那些錯誤Google同樣犯的話,我估計后果是完全不一樣的,,所以不能說OpenAI在技術(shù)上是一騎絕塵的,,像Google內(nèi)部也有DeepMind在研究AGI,相關(guān)儲備也已經(jīng)非常充足,。 在過去算法,、算力和數(shù)據(jù)積累基礎(chǔ)上,對我們來說就是把過去以BERT為核心的技術(shù)架構(gòu)升級成以ChatGPT為核心的技術(shù)框架,,這樣的好處就在于可以用生成式AI把理解和生成打通,,性能體驗(yàn),、靈活性、擴(kuò)展性會強(qiáng)很多,。 技術(shù)發(fā)展其實(shí)更符合對數(shù)曲線 彭昭:上周,,OpenAI CEO表示誕生ChatGPT的研究策略已經(jīng)結(jié)束,繼續(xù)擴(kuò)展模型規(guī)模帶來的收益將出現(xiàn)遞減,。您覺得模型繼續(xù)向參數(shù)量變大的方向發(fā)展還會持續(xù)多久,,除了拼參數(shù)外,還有哪些發(fā)展方向? 梁家恩:大家其實(shí)對于算法好像有一種不切實(shí)際的預(yù)期,,覺得一個算法就能解決所有問題,,但不論是過去的統(tǒng)計學(xué)習(xí)、支持向量機(jī),,還是現(xiàn)在的深度學(xué)習(xí),,事實(shí)都并非如此,每種算法都有它自身的局限性,,像OpenAI就是把GPT框架的潛力挖掘到盡頭,,并不是說競爭已經(jīng)結(jié)束了,而是按照他們的這種探索策略,,再繼續(xù)加大投入可能已經(jīng)沒有太大收益,。因此,需要尋找一些新的策略,、新的方法,,在這個基礎(chǔ)上去探索,而不是說這個游戲已經(jīng)結(jié)束了,。 另外,,單純擴(kuò)大模型規(guī)模也有它的局限性,對于技術(shù)外行來說,,大都希望技術(shù)進(jìn)步是一條“指數(shù)曲線”,,但它其實(shí)是一條“對數(shù)曲線”,繼續(xù)擴(kuò)大規(guī)模到一定程度后,,進(jìn)步的幅度就會平緩很多,,通過嘗試新的方法可能再做出第二個對數(shù)曲線出來。 當(dāng)然對于國內(nèi)的企業(yè)來說,,和OpenAI還是有差距的,,那我們首先需要先做到現(xiàn)在GPT-3.5 或者GPT-4的水平,然后再繼續(xù)往前走,,我覺得后面還有持續(xù)的工作要做,,畢竟純靠參數(shù)量級的擴(kuò)大,哪怕是做到人腦神經(jīng)元的連接數(shù)量,也不是完全復(fù)制了一個人,,還有其他的技術(shù)瓶頸需要突破,。 彭昭:關(guān)于云知聲將要推出的UniGPT大模型,能否簡單透露一些信息? 梁家恩:其實(shí)去年我們看到ChatGPT出來后,,就覺得這確實(shí)是一個顛覆性的工作,。其實(shí)GPT-3就已經(jīng)有很多新奇特性,但當(dāng)時大家覺得它的可控性很差,,可能無法駕馭好這種能力,,直到ChatGPT展示出很好效果,才引起行業(yè)內(nèi)外的高度關(guān)注,。深度學(xué)習(xí)到今天為止,,最核心的一個問題也還是可解釋性和可控性不足。 而大模型所謂的“思維鏈”能力,,可以告訴用戶推導(dǎo)的過程,,從而知道中間過程里有哪些東西是錯的,優(yōu)化的時候就可以獲得提示了,,而不是像過去一樣只能看見和調(diào)整參數(shù)的權(quán)重,。此外,還有一個比較早期的AutoGPT研究方向,,但我覺得非常有潛力,,就是用大模型來把大模型用好,形成AI for AI,,未來的空間也會很大,。 云知聲的UniGPT,就是希望優(yōu)先提升行業(yè)應(yīng)用中的可控性和可解釋性,,把大模型調(diào)教到真正能解決行業(yè)問題的程度,甚至可以自動化完成,,這樣未來滲透到其他各種業(yè)務(wù)的應(yīng)用中,,效率就會高很多。 彭昭:現(xiàn)在好多人紛紛創(chuàng)業(yè)做大模型,,請問云知聲的大模型和其他人創(chuàng)業(yè)做的大模型相比,,優(yōu)勢在哪里? 梁家恩:從技術(shù)原理角度來說,沒有任何區(qū)別,,我覺得現(xiàn)在做大模型的無非是三類公司,,一類就是巨頭企業(yè),像微軟,、Google,、百度等,他們都在做這事,因?yàn)檫@對他們主營業(yè)務(wù)來說確實(shí)太具顛覆性;第二類公司是以技術(shù)為核心的,,包括云知聲,、科大訊飛和視覺四小龍等企業(yè),需要和行業(yè)玩家結(jié)合去做,,大家比的就是在不同的行業(yè)里誰能真正有效地解決問題,,畢竟只有解決問題才能產(chǎn)生價值;第三類就是從純學(xué)術(shù)屆出來新創(chuàng)業(yè)的公司,他們的挑戰(zhàn)更大的還是在工程上以及對行業(yè)應(yīng)用的理解上面,,與實(shí)際是會有比較大的鴻溝,。 對于巨頭企業(yè)來說,他們肯定是優(yōu)先朝著更加通用的方向發(fā)展,,守住自己的主業(yè),,再逐步進(jìn)入到垂直領(lǐng)域,但是其實(shí)我們并不懼怕任何巨頭團(tuán)隊(duì),,我們很多標(biāo)桿客戶都是這樣競爭獲得的,,因?yàn)楸仨毾纫刈「髯缘闹鳡I業(yè)務(wù),這才是第一要務(wù),。 |
|