【新春第一課｜第八講】：新一輪創(chuàng)新浪潮的機會與風(fēng)險——主講人：張宏江

潘海露 2023-02-02 發(fā)布于江蘇

展開全文

本期課程主講人：

張宏江美國國家工程院外籍院士,，北京智源人工智能研究院理事，微軟亞洲研究院原院長

以下為課程實錄,，略經(jīng)編輯整理：

最近AI大模型開始從學(xué)術(shù)界燒到了產(chǎn)業(yè)界,，現(xiàn)在又燒到了大眾媒體，尤其是人工智能的生成模型的熱還沒有退去,， ChatGPT的熱又一波接著一波,。最近人工智能到底發(fā)生了什么大的變化？這背后的原因是什么,？這些技術(shù)能夠用來做什么,？又將為我們的生活和工作帶來什么？為中國的產(chǎn)業(yè)帶來什么,？我在這里結(jié)合智源人工智能研究院的一些工作,，和大家分享一下我的理解和看法，尤其是針對ChatGPT和AIGC大模型的發(fā)展和機遇,。

過去這兩年,，技術(shù)大模型已經(jīng)成為人工智能快速發(fā)展的關(guān)鍵的技術(shù)。各大企業(yè)和高校,，各個研究機構(gòu)在這個領(lǐng)域上都進行了布局和發(fā)力,。各個領(lǐng)域的模型層出不窮，那么大模型的研究和應(yīng)用也將會逐步的成為人工智能發(fā)展的一個關(guān)鍵的方向,，形成新一波的人工智能的浪潮。尤其是在應(yīng)用這個領(lǐng)域,，我相信又會形成一個非常長久持久的浪潮,。

我們看一下在這里,，從GPT-3在 2020 年 5 月份發(fā)布開始,，智源的悟道在不到一年后開始發(fā)布，隨后中國的大模型的研究就開始風(fēng)起云涌。智源在 2021 年的 6 月發(fā)布了當(dāng)時的世界上最大的模型就是萬億模型,， 1. 7 萬億模型。隨后這一年多以來,，我們也看到有更多的模型出來,，尤其是最近的DALL·E的模型和ChatGPT的模型,，宣告了這個模型進入了一個新的高地,。那么我們在這邊也可以看一下，各個研發(fā)機構(gòu)發(fā)布的技術(shù)模型的數(shù)量,，這個數(shù)量在持續(xù)地增加,。另外一個就是模型的規(guī)模也越來越大,，這個背后其實有它非常非常深遠的技術(shù)和學(xué)術(shù)的背景

我們先看一下，從學(xué)術(shù)角度,，從基礎(chǔ)的技術(shù)的角度來看,，預(yù)訓(xùn)練的大模型的發(fā)展,，回顧一下它的技術(shù)本身的積累,。其實深度學(xué)習(xí)在 15 年前開始逐漸快速發(fā)展的時候,，我們當(dāng)時實際上是一個探索的階段，因為構(gòu)建深度學(xué)習(xí)的主要方式就是監(jiān)督學(xué)習(xí),，這中間需要大量的人工的標(biāo)注的數(shù)據(jù)，而數(shù)據(jù)的生產(chǎn)的周期長,，而且也非常昂貴,。那么如何能夠通過有限的人工標(biāo)注，在特定的任務(wù)上構(gòu)建更有效的神經(jīng)網(wǎng)絡(luò),，或者是自動地產(chǎn)生大量的數(shù)據(jù),，這其實是我們一直在研究的問題。

隨著深度學(xué)習(xí)的技術(shù)的發(fā)展,，在大概七八年前出現(xiàn)了遷移學(xué)習(xí)技術(shù),，從過去學(xué)習(xí)的知識上不用再重新開始訓(xùn)練,，用新的數(shù)據(jù)加上去以后,，就能夠?qū)⒁呀?jīng)捕獲的知識遷移到一個新的目標(biāo)或者一個新的應(yīng)用上去,。這兩塊都是我們今天大模型的非常重要的技術(shù)的基礎(chǔ),，也就是傳統(tǒng)的監(jiān)督學(xué)習(xí),、遷移學(xué)習(xí)加上強化學(xué)習(xí),，實際上是我們今天看到的技術(shù)發(fā)展的核心的基礎(chǔ)。

另外一塊,，人們往往忽略掉了,，人們看到的大模型的快速的發(fā)展,，人們可能意識到這學(xué)術(shù)的發(fā)展非常非?？?，其實不光是學(xué)術(shù)發(fā)展非常快,，剛才我談到大模型的深度學(xué)習(xí),，最重要的是它通過標(biāo)注好的數(shù)據(jù)進行學(xué)習(xí),，在這塊其實過去的時間也有非常大的變化。另外兩塊很大的變化是一方面在算法上,，另外一方面也是算力的要求上,。

所以我們說深度學(xué)習(xí)實際上是三個因素，數(shù)據(jù),、算法加算力,。算法的進展我就不多講，但是數(shù)據(jù)的進展在過去的十幾年,，是非常非?？焖俚模瑥囊粋€最開始的人工的標(biāo)注,，到開放的數(shù)據(jù)集的分享,，到數(shù)據(jù)自動標(biāo)注和深層的研究，這些技術(shù)的進展到了最近的 5 年,，把數(shù)據(jù)變成了一個云服務(wù),，建立起集數(shù)據(jù)標(biāo)注、處理,、存儲,、管理于一體的這種今天的云數(shù)據(jù)中心。這塊實際上是對于人工智能的發(fā)展,，有非常非常重要的推動作用,。

另外一方面，就是我們從一開始推動這個AI 專用芯片,，比如 Nvidia 的GPU,，到后來推動大規(guī)模的分布式的計算環(huán)境，到今天我們已經(jīng)有了大規(guī)模高性能的 AI 算力中心,。這兩塊一個是數(shù)據(jù),，一個是算力，實際上這中間是不可缺少的,。在這個過程中間,，我們另外意識到一點，我們以前認為深度學(xué)習(xí)人工智能實際上是算法,，是基礎(chǔ)的研究,，是一些算法的突破。但今天我們知道到了大模型這個階段,，事實上工程的能力在這塊是非常非常重要的,，尤其是GPT-3，向我們展示了從算法到工程上的一系列的突破。

我們看一下GPT-3,，因為 GPT-3 是大模型的最典型的代表,。 GPT-3從算法上來看，從它的架構(gòu)上來看,，它是建立在Transformer 的基礎(chǔ)上的,。那么Transformer 是一個神經(jīng)網(wǎng)絡(luò)的架構(gòu)，它克服了傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)用淺層的預(yù)訓(xùn)練網(wǎng)絡(luò)來捕捉單詞,，而無法解決一詞多義的等問題的這樣的一些缺陷,。它其實是優(yōu)化了類人腦的這么一個學(xué)習(xí)過程。它關(guān)注于數(shù)據(jù),，你在學(xué)習(xí)的過程中間關(guān)注于重點而非全部,，從而使得它的學(xué)習(xí)的效率非常高。隨著模型的規(guī)模的變大,，基于Transformer 這種結(jié)構(gòu)的預(yù)訓(xùn)練的語言模型,，這種隱含的豐富的語言知識，從而使得它能夠在眾多的下游的NLP 的任務(wù)中間有驚人的表現(xiàn),。

在之前Google的BERT就是建立在Transformer 基礎(chǔ)上的,，而Transformer 本身也是 Google 團隊發(fā)明的。 OpenAI 的GPT這一類模型也都是建立在這個基礎(chǔ)上的,。所以這里我們要記住一點,，就是這個Transformer 實際上是這里面的核心所在，尤其是在表征,，在學(xué)習(xí)語言知識這塊,，Transformer是我們后來這三年看到的大模型的發(fā)展的最核心的一個深度學(xué)習(xí)的架構(gòu)。

那么GPT-3的出現(xiàn),，它有幾個里程碑性的意義,。

第一，它凸顯了Transformer 這樣的生成模型的學(xué)習(xí)的能力,。

第二,，它的規(guī)模是非常非常大，當(dāng)時是1750億,，雖然智源在一年以后推出的模型十倍于它的規(guī)模,，但是GPT-3 是第一個達到了千億的大模型。這個模型在小樣本和零樣本的學(xué)習(xí)中間都表現(xiàn)出了突出的性能,。

另外,，GPT-3對整個的設(shè)計的理念中間也提出了像Meta Learning 就是元學(xué)習(xí)的這種概念。剛才我也提到它在整個學(xué)習(xí)的過程中間關(guān)注重點而非全部,，這樣它能非常有效地用利用它的數(shù)據(jù),。

它整個的核心的學(xué)習(xí)的過程,，你可以想象到，它像人腦一樣,，學(xué)習(xí)一些以前最早的深度學(xué)習(xí)，像人腦一樣學(xué)習(xí)一些已經(jīng)標(biāo)注的數(shù)據(jù),。而今天我們的GPT-3這樣的模型已經(jīng)具備類人腦的學(xué)習(xí)的這種過程,，但是這個數(shù)據(jù)的要求也非常非常大。GPT-3它的整個訓(xùn)練用的是大概 700 多個Gigabyte的數(shù)據(jù),，整個訓(xùn)練過程中間大致花了 1200 多萬美金,。

所以我們知道，回過頭來再看我剛才提到的大模型的發(fā)展,，其實不光是算法上的進步,，在數(shù)據(jù)在算力上的需求，也非常巨大,。有了大模型,，有了Transformer ，有了GPT-3這一類的模型,，它一個核心的優(yōu)勢是我們可以用這種模型再進行一些微調(diào),，就可以用來做一個新的任務(wù)。這一點是以之前的模型所不具備的,。

我們看一下GPT-3它在語言能力上的這種突破,，它無論是在最早的英文的 Glue Benchmark，還是在我們后來的寫作,，它都有了非常非常好的突破,。因為這種大模型里面隱含的大量的知識。這些知識支持模型進行一些推理層面的任務(wù),，并且得到了非常非常好的結(jié)果,。

我們看一下，比如它會寫論文,，我們寫了一篇中文的關(guān)于個性化搜索算法的未來發(fā)展趨勢的論文,。你發(fā)現(xiàn)它其實寫得相當(dāng)相當(dāng)好。這中間它其實背后有一些知識,，它已經(jīng)有了,，除了大量數(shù)據(jù)之外，我們還會給它一些知識,，比如說 1801 年的美國的總統(tǒng)是誰,，比如長頸鹿長了幾只眼睛，青蛙有幾條腿,，這些我們都會給它,，它從中間學(xué)會以后它就會記得住，以后會用在未來的場景里面。

比如另外一個它非常讓人吃驚的就是,，在中文的文言文的理解上也非常讓人驚嘆,。我其實在讀這段話的時候，我其實是文言文我是讀不懂的,，你可以看出來是這一段話我被告知是來自于《孟子》,，是北京市小升初的一個題目，GPT-3 能夠非常好地理解它,。

說完 GPT-3,，ChatGPT簡直就是讓我們對于人機對話有了一個完全新的理解。它實際上是在為對話而優(yōu)化的,，在GPT-3基礎(chǔ)上是優(yōu)化的一個語言大模型,。它在對話，在寫故事,，寫代碼,，參甚至參加 SAT 考試，都比GPT-3 有了非常長足的進步,。我們可以看到它寫代碼,，寫故事，參加SAT的考試,。

咱們注意看一下,，它是之前并沒有做過SAT考試的題，它是練習(xí)了 10 次以后,，它能達到這樣的水平,，所以是相當(dāng)相當(dāng)了不起的。SAT是美國考大學(xué)的相當(dāng)于高考題,，它做了 10 次以后,，它居然能夠拿到這樣的分數(shù)。數(shù)學(xué)的滿分是 800 分,，它已經(jīng)達到 600 分了,。寫作也是 800 分，它已經(jīng)達了 520 分,，所以相當(dāng)相當(dāng)了不起,。所以Elon Musk驚呼ChatGPT是好得嚇人。他甚至預(yù)測危險的,，強大的AI離我們不遠,。我們撇開Elon Musk一貫的一驚一乍的作風(fēng)，ChatGPT確實是在對話上達到了一個新的高度,，完全可以以假亂真,，至少是一個記憶力和學(xué)習(xí)能力超強的,、超級的鸚鵡。

它為什么能夠有這樣的能力呢,？我們知道在GPT-3之后,，在大模型，尤其在針對于語言的大模型,。其實 OpenAI在這基礎(chǔ)上又做了兩個方向的研究,。一個方向是叫做WebGPT，就是搭建基于文字的網(wǎng)頁瀏覽環(huán)境,，教GPT-3上網(wǎng)查詢。這個時候,，我自己查詢來的新的資料生成結(jié)果,，同時生成引用的來源，所以它知道它的一些來源從哪來的,。它相當(dāng)于GPT-3大幅度地提高了生成內(nèi)容的信息量和事實性,。

另外一個叫InstructGPT，它是用基于用戶反饋的強化學(xué)習(xí)的方法,，叫做RLHF,。它實際上是它跟用戶對話，然后用戶會糾正它,。用戶對答案不滿意的時候,，它會進行學(xué)習(xí)。從而經(jīng)過這種學(xué)習(xí),，能夠?qū)⒄Z言模型的輸出,，它自己的認知和用戶的意圖非常好地相關(guān)起來。這是InstructGPT的核心的所在,。那么ChatGPT恰恰是建在InstructGPT的基礎(chǔ)上,。我們反過來看一下，剛才我提到Transformer實際上是里程碑,。

在之前我們都是深度學(xué)習(xí)的,，包括Convolutional neural Network就是CNN，和Regression Network這是 RNN,。這是深度學(xué)習(xí)的最早的一些框架,，在四年多以前的 Transformer出現(xiàn)以后，我們才出現(xiàn)了GPT,。所以還是回到核心,。其實還是Transformer的出現(xiàn)，使得我們今天在深度學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu)上有了新的突破,。

ChatGPT,，剛才我們看它又是作文,，又是考試，又是能寫程序,。它核心的特點在于它有持續(xù)對話的能力,，它能記住歷史的信息和人的反饋，而且它能夠保持對話的一致性,，容許用戶提供后續(xù)的更正,。你回頭更正以后，它能夠持續(xù)再跟你對話,。但是它又有一些非常好的判斷力,，它能夠拒絕不適當(dāng)?shù)恼埱蟆Ｒ蔡魬?zhàn)不正確的前提,。如果你跟它說的一些話,，前提不正確，它會意識到,，而且會挑戰(zhàn)你,。還有就是它做到了知之為知之，不知為不知,，是知也,，就是你問它的一些問題，它無法回答的時候,，它告訴你對不起,，這個問題我不了解，我現(xiàn)在對這個問題不了解,，所以我沒法回答你的問題,，所以它也承認。如果當(dāng)你給它指出以后,，它也會承認錯誤,，它會下一步進一步進行改進。

大家如果是有時間去用一下ChatGPT,，這些你都會慢慢體會出來,。所以它核心的核心的能力，是它通過持續(xù)的迭代,，大幅度地提高了對于用戶的意圖的理解,，和它結(jié)果的準(zhǔn)確性。再反射回去,。其實這都是InstructGPT的特點,，也是Transformer所帶來的能力。

同時它也支持多種任務(wù),，因為它最早的是用來對話的,。在設(shè)計上實際是個語言模型,，語言對話模型。但是同樣它可以用來做藝術(shù)創(chuàng)作,。它可以改寫續(xù)寫故事,，也可以創(chuàng)作短句，寫作文,，寫作食譜,。同樣可以做技術(shù)的創(chuàng)作比如編碼。它可以還可以做Debug 類似解釋代碼,。還可以做一些IOS的APP,。同樣它可以用來做辦公學(xué)習(xí)。它可以寫郵件,，寫總結(jié)報告,，寫技術(shù)博客。同時它還會有邏輯推理和數(shù)學(xué)推理的能力,，比如我剛才我們提到的SAT的考試,，所以雖然它叫ChatGPT,。實際上它的學(xué)習(xí)能力,，它的理解能力，它的創(chuàng)作能力都遠遠不止于僅僅是對話,。

當(dāng)然它也有它的局限性,，可能產(chǎn)生不正確的信息，也可能產(chǎn)生一些有害的指令或者偏見的內(nèi)容,，我覺得其實是很正常,。另外一點也很正常，因為它的訓(xùn)練的數(shù)據(jù)大部分是 2021 年以前的,，所以過去六個月實際上發(fā)生的事情,，它基本上了解很有限，這是ChatGPT,。

另外一點,，在ChatGPT之前已經(jīng)熱起來的。就是生成模型,，尤其是由文字到圖像的生成模型,。我說一段話，你幫我產(chǎn)生一種圖像,，而且要按我說的風(fēng)格來產(chǎn)生圖像,，或者是我給某個人的風(fēng)格，或者按某一個畫家的風(fēng)格來產(chǎn)生圖像,。

這個技術(shù)其實是從一年多以前,，也是OpenAI ,，DALL·E1.0開始，它的核心是如何學(xué)到文字和圖像之間的這種匹配關(guān)系,。自從DALL·E出現(xiàn)以后,，又有一系列的模型出現(xiàn)。幾個月以前才出現(xiàn)的,，叫Stable Diffusion,，是目前最好的技術(shù)。我們的智源研究院在這個基礎(chǔ)上做了一些改善,，做了一個AltDiffusion,，尤其是針對中文，針對多語種,，效果會比Stable Diffusion更好,。

我們看一下它的原理是什么，我不想多講,。今天無論是Stable Diffusion,，還是其它的一些由文字生成圖像的模型，基本的它的原理都從這開始,，通過圖片的離散的編碼,，將圖片的Token 和文字的Token 作為Transformer的 Decoder 進行輸入，在大量的文圖對上,。我現(xiàn)在想強調(diào)的就是對,，一定是有文字和圖像的對，進行訓(xùn)練,，從而形成的模型,。一開始最早的我們可以看到，比如牛油果形狀的扶手椅,，會產(chǎn)生這么一個,。你注意它的描述還是描述得相當(dāng)清晰，那么一開始的DALL·E所產(chǎn)生的圖像還是相當(dāng)相對來說比較簡單,。

在此基礎(chǔ)上,，它的Stable Diffusion就把它的能力提高了一大截。DALL·E的一開始的這個模型,，它還是用的與GPT相同的框架的生成模型,。我順便說一下，我相信大家都知道DALL·E是什么人,，他是西班牙的上一個世紀(jì)的一個非常有名的畫家,。

我這兒就是用智源的多語言生成模型。來一起說一下Stable Diffusion的能力,，和智源的最近的一些工作,。Stable Diffusion在出現(xiàn)之后,，風(fēng)靡了整個的一個圈子。它實際上代表了當(dāng)前的字生圖的最新的算法,。它使用和改進了CLIP技術(shù),，也就是Contrastive Language-Image Pretraining這么一種模式，實際上是基于一種對比學(xué)習(xí)的多模態(tài)預(yù)訓(xùn)練的這種模型,。在諸多的文生圖模型中間,，它的性能脫穎而出。在它算法上進行了一個改進,。比如用AltCLIP代表的代替代了之前的Stable Diffusion里面的文本塔,，使得模型可以支持多種語言。

它有一個核心的想法就是,，因為英文里面高質(zhì)量的圖文對數(shù)據(jù)量比較豐富,，所以它訓(xùn)出來的效果很好。而其它的語言上,，高質(zhì)量的圖文對的資源相對的匱乏,。所以我們利用一個已經(jīng)訓(xùn)練好的英文模型，加上語言對齊,，這樣可以訓(xùn)練出一個更好的跨多語種的,，能力比較強的，尤其多語種語言對齊的能力比較強的文生圖的模型,。所謂的語言對齊能力,，很重要的就是你中文和英文怎么對齊,，阿拉伯文和中文怎么對齊,，那么這實際上不是靠人來做，而是靠機器來做,。這個本身來說是一個很重要的技術(shù),。

我不太想花太多時間在這個原理上，但我們看一下,，比如我們對它進行了一些改善,，所以它對于中文的理解就會更好。而且畫風(fēng)的話,，我們也把中文的國畫的畫風(fēng)引進來了,。

同樣，它也可以支持其他的九種語言,。除了中文之外,，還有日語、法語,、韓語,、西班牙語,、俄語、意大利語,、阿拉伯語,。這中間要支持這種這些語言，不光是有這些語調(diào),，很重要的是它也在模型里面進行了一些改善,。當(dāng)然這塊也有一些很有意思的現(xiàn)象，對于不同語言,、同樣內(nèi)容的輸入,，模型的輸入會有很大的差異。在其實中間也反映出了文化的差異,。我們的模型要能夠適應(yīng)于這一點,，這本身也是一個很好的技術(shù)問題。

我這樣給大家看一下北京智源研究院所做的東西,，我們這是一個開源的文生圖的這么一個系統(tǒng),，叫做 Flag Studio。你注意看它的一個界面,，你可以選擇繪畫的風(fēng)格,，你也可以選擇藝術(shù)家的風(fēng)格，根據(jù)某個藝術(shù)家來定義你的畫風(fēng),。你比如像選擇是虛幻引擎你畫出來的這些虛幻的照片,，但是你還是用文字來描述你想要什么。

比如它也有另外一個功能,，你可以用一個文字來描述,，比如一籃子蘋果，它給你生成一個蘋果,。同樣你看到蘋果不錯,，但你想把蘋果改成比如說梨，你描述一下它能幫你改,。我們可以看一下演示,，先生成一筐蘋果，你寫的一籃子蘋果,，你把蘋果抹掉,，最后把這個改成，比如改成一籃子梨,，幾秒鐘之后就可以改成一籃子梨,，風(fēng)格跟之前的一籃子蘋果一模一樣。

這是這個模型所具有的功能。它不光是可以描述你讓它生成什么樣圖像,，而且生成完以后,，你可以把圖像拿來再進行一些修改，然后產(chǎn)生新的圖像,。另外你可以把語言的描述和一個照片結(jié)合在一起,，而產(chǎn)生一個新的照片。

比如是我要你產(chǎn)生一個帥哥對吧,，放了一個我的照片,，產(chǎn)生這么一個照片。同樣你還可以換一幅照片,，你可以發(fā)現(xiàn)它的風(fēng)格就不太一樣,。所以不光是用文字來產(chǎn)生圖片，而且用文字加圖片產(chǎn)生新的圖片,，這是這個模型所能夠做的,，這也是現(xiàn)代的生成模型的一個很大的進步。

再給大家看一下,。不光是你可以按文字的描述以圖生成圖,，另外你還可以比如給幾幅照片，給幾幅照片,，它總是能夠產(chǎn)生一些不同風(fēng)格的同樣的人物,。可以看一下但凡是你在一個單位,，你就知道下屬最開心的事情就是在背后拿老板開涮,。所以他們做實驗先拿我的照片來做實驗。他們做了一個開源的系統(tǒng),，做了一系列的各種風(fēng)格的我,。左邊我們是我的六幅圖像，不同時期的六幅照片,。右邊是他們根據(jù)不同風(fēng)格的要求產(chǎn)生的圖像,。

比如這個是戰(zhàn)士的風(fēng)格,，這是Matrix 的風(fēng)格,，當(dāng)然你還可以有別的風(fēng)格。當(dāng)然我這兒挑的都是看上去比較年輕氣帥的,，那些看上去更像我,，但形象老態(tài)龍鐘得多的，我就沒在這顯示了,。

我在前面很快地介紹了一下大模型的發(fā)展和尤其是技術(shù)的發(fā)展,，和它們的今天它們所具備的一些能力。我想下面我會花幾分鐘時間來談一下這些大模型對于產(chǎn)業(yè)的影響在哪里。大模型實際上代表了一個新的技術(shù)范式,，也就是各自都研發(fā)專用的小模型,，到煉大模型的這么一個轉(zhuǎn)變，就是研發(fā)超大規(guī)模的通用的智能模型,，這么一個轉(zhuǎn)變,。

這個轉(zhuǎn)變其實是相當(dāng)有意義，通過比較先進的算法架構(gòu),，盡量地整合盡可能多的數(shù)據(jù),，匯集大量的算力，集約化地訓(xùn)練大模型,，這樣可以供大量的用戶使用,。所以大家注意看到，從某種意義上,，它是從小農(nóng)經(jīng)濟到大規(guī)模生產(chǎn)這么一個變化,。所以這個范式是一個很重要的范式的變化。它的意義就像當(dāng)初電網(wǎng)的變革性這么一個意義,，就是以前你建一個工廠,，你第一件要做的事情是自己要先買一臺發(fā)電機，買一臺進行發(fā)電,，供自己用電,。

今天你要做AI的應(yīng)用，可能你不需要再做自己的模型了,，你可能就可以用已有的大模型,，大模型也許就會以一種服務(wù)的方式提供給所有可能的用戶。這樣很可能改變信息產(chǎn)業(yè)的格局,，改變以前作坊式的 AI 的開發(fā)的模式,，會把我們 AI 的應(yīng)用帶入到繼互聯(lián)網(wǎng)、繼云計算之后的大規(guī)模的智能云的這么一個階段,。這里一個很重要的它的優(yōu)勢在哪,？為什么我說它是技術(shù)與產(chǎn)業(yè)的雙重優(yōu)勢。一個很重要點在于大模型,，你能夠通過微調(diào)就能夠把大模型很好的能力,，能夠很有效地轉(zhuǎn)移到各種不同的應(yīng)用場景中間，而不再需要自己重新從零開始做模型,。所以這樣大大地降低了開發(fā)的成本,，從而使得它的應(yīng)用會變得更加迅速，也更加有效,。

最近 IDC 的有一篇報告說,，超大模型將會是快速發(fā)展和快速引爆市場的一個機會型的技術(shù),，這點我其實完全同意。我覺得大模型實際上是人工智能這一波浪潮的,，經(jīng)過了十幾年發(fā)展之后的一個非常非常重要的拐點,。下面我會結(jié)合一下我自己的體會，跟大家分享一下它對產(chǎn)業(yè)影響的一些看法,。

今天我們看從應(yīng)用場景來看,，文本生成或者是圖文生成的模型，會很快用到各種各樣的應(yīng)用中間,。今天我們已經(jīng)看到我剛才給大家演示的圖生文,，文生圖的幾個場景。其實大家可以想象,，它可以用來做一系列的應(yīng)用,，更不用ChatGPT的寫作的能力，它的問答的能力,，所以我相信,，就是這些大模型技術(shù)的本身的不斷的成熟，會帶來新的創(chuàng)業(yè)的機會,，包括更好的對話機器人,，更好的機器翻譯，更好的創(chuàng)作平臺,。

另外還有一方面,，這種大模型它會帶來一些 AI 基礎(chǔ)設(shè)施的創(chuàng)業(yè)的可能性，包括垂直性的訓(xùn)練,，包括大模型的運營管理訓(xùn)練,。我們知道在美國有一家公司已經(jīng)發(fā)展得非常快,，叫Hugging Face,，它就是專門做大模型的訓(xùn)練和推廣開源的，尤其是一些開源的推廣,。

在應(yīng)用這方面,，其實中國發(fā)展的速度也很快。雖然目前的發(fā)展?fàn)顩r是國外的頭部機構(gòu)引領(lǐng)的技術(shù)和商業(yè)應(yīng)用,，國內(nèi)整體來說可能會落后兩年,。從應(yīng)用角度來說，落后兩年其實我不是特別擔(dān)心,，因為中國的落地能力非常非常強,。比較悲催的實際上是技術(shù)研究的這種方面， Open AI 在過去的三年是獨領(lǐng)了風(fēng)騷,。無論從它的一開始GPT 1、 GPT 2、GPT 3,，尤其 GPT 3之后,，它的DALL·E，它的ChatGPT,。實際上從研究的角度來說,，它搭好了框架，它占了第一的位置,。其他的人,。雖然這兩年很多人做了很多模型，但從學(xué)術(shù)角度來說,，其實我們都是在給它補漏,，也就是在給它打工。這是從學(xué)術(shù)角度,，其實是很悲催的,。這其實是呼喚中國的學(xué)術(shù)的原創(chuàng)性，學(xué)術(shù)的創(chuàng)新的能力,。

但是從應(yīng)用的角度來說,，我今天看到所有的應(yīng)用，文字生成,，圖像生成,，音頻生成，視頻生成,，虛擬人,，元宇宙等各個樣子的應(yīng)用場景。只要國外有的公司,，中國都有比它更多的公司,。而且我相信中國的落地能力，中國的應(yīng)用場景一定會比它們走得更快,。

我想在此之外,，在我們的今天說的ChatGPT，還有生成模型之外,，其實大模型還有更多的帶來質(zhì)變的潛力,。尤其是我們今天看到人工智能包括大模型，在生命科學(xué),、在材料科學(xué),，在能源科學(xué)和環(huán)境健康等各個方面，都可以利用大模型來生成,，來驅(qū)動新的研究發(fā)現(xiàn),。尤其是在人工智能制藥,，在材料的設(shè)計等等，也有非常非常好的前景,，而且已經(jīng)開始落地,。

好。我今天講到這,，我總結(jié)一下,。我們認為大模型實際上是 AI 的第三波浪潮的一個新的拐點。這第三次浪潮以深度學(xué)習(xí),，以神經(jīng)網(wǎng)絡(luò)為代表的浪潮的大概 15 年前開始,。

其實在過去的幾年，這一波浪潮已經(jīng)碰到了一些技術(shù)的瓶頸和商業(yè)化的難題,，使得我們 AI 企業(yè)的商業(yè)化非常不順,，高估值的泡沫逐漸破裂，我們也看到一些上市公司,。一些技術(shù)找不到核心的應(yīng)用,，或者是在核心應(yīng)用上也無法進行突破，從而使得它的 AI 技術(shù)的賦能和增值都有限,。這種狀況會隨著大模型的發(fā)展和普及,。

尤其是通過大模型加微調(diào)的這種新的技術(shù)開發(fā)范式，將能夠使得人工智能能力更好地,，也更有效地應(yīng)用到各種場景里面去,，而不需要每家都自己開發(fā)自己的模型，從而大大地降低了開發(fā)成本,。所以,，大模型是一個發(fā)展快速，引爆市場的機會型的這么一個技術(shù),，將會帶來一波新的創(chuàng)業(yè)的熱潮,。無論是我們今天已經(jīng)看到的應(yīng)用，還是我們未來會看到的應(yīng)用,，都將會有非常大的潛力,。