GIF2017
2017 年 1 月 3 日,李飛飛教授正式入職 Google Cloud,,宣布自己從學(xué)術(shù)研究的實(shí)驗(yàn)室走到了產(chǎn)業(yè)界,。她除了依然是「美國斯坦福大學(xué)計(jì)算機(jī)科學(xué)系終身教授、斯坦福大學(xué)人工智能實(shí)驗(yàn)室主任」之外,,又多了一個(gè)新的身份——「谷歌云首席科學(xué)家」,。 談及自己為何愿意加入 Google,李飛飛表示,,「我并沒有離開斯坦福,。我希望看到越來越多的趨勢(shì),就是產(chǎn)業(yè)界和學(xué)術(shù)界比較密切的結(jié)合,(我想)要跟企業(yè)之間建立融合,、建立一種探索的新方式,。」
而云,則是一個(gè)讓人工智能走進(jìn)各個(gè)行業(yè)的最好平臺(tái),,「我覺得,,沒有一個(gè)比云平臺(tái)更大的平臺(tái),能實(shí)現(xiàn)人工智能的普適價(jià)值,。因?yàn)樵粕厦嬗懈鱾€(gè)業(yè)界,,從金融、到健康醫(yī)療,、電商,、交通、再到制造業(yè),、農(nóng)業(yè),。各個(gè)行業(yè)在這種大數(shù)據(jù)、人工智能的推動(dòng)下,,它的轉(zhuǎn)型,,都需要云平臺(tái)的幫助?!?/span> 回首過去,,2007 年,李飛飛與普林斯頓大學(xué)教授李凱發(fā)起的 ImageNet(圖片網(wǎng)絡(luò)),,目前已經(jīng)成為全球最大的圖像識(shí)別數(shù)據(jù)庫,,對(duì)計(jì)算機(jī)圖像識(shí)別的研究起到了顛覆性的推動(dòng)作用,是本世紀(jì)人工智能領(lǐng)域最大的進(jìn)展之一,。 加入 Google Cloud,,可能意味著李飛飛個(gè)人事業(yè)和人工智能產(chǎn)業(yè)的一個(gè)嶄新開始。 在李飛飛看來,,AI 這個(gè)領(lǐng)域已經(jīng)發(fā)展了 60 年了,,它的進(jìn)一步發(fā)展,這是沒有懸念的,。這是一個(gè)新興的行業(yè),,它的發(fā)展帶來諸多希望,、期待和機(jī)會(huì),但同時(shí),,也充滿不確定性,。 在這樣的過程中,有人會(huì)認(rèn)為「這里面會(huì)有巨大的泡沫」,,李飛飛認(rèn)同,,可能會(huì)有一些泡沫,「有一部分的泡沫是會(huì)破滅的,,但是泡沫之后,,這個(gè)行業(yè)絕對(duì)會(huì)給我們?nèi)祟惖纳睿瑤硪恍╊嵏残缘挠绊?。這一點(diǎn),,我也是確信不疑的?!?/span> 那么,,回到最最根源的問題,機(jī)器是如何看懂這個(gè)世界的,?人工智能過去的 60 年以及它的未來是什么樣的,?聽聽李飛飛教授在 GIF 2017 的大會(huì)上的完整演講。 我今天帶來的,,是比較學(xué)術(shù)的演講,。我想跟大家分享一下人工智能,站在我自己的實(shí)驗(yàn)室的角度,,過去的發(fā)展的路徑,,和我們最近在做的一些工作。 人工智能到今天,,已經(jīng)帶來了一場(chǎng)革命的開始,不管是天上,、地下,、云上、手機(jī)上,,我們都會(huì)看到它給我們帶來的一些興奮的可能性,。 其實(shí),智能這個(gè)問題,,從人類文明的最初期,,有了人,就有了這個(gè)問題,。人工智能沒有那么長的時(shí)間,,人類的歷史有上千年的歷史,但人工智能只有大概 60 年的歷史。人工智能的早期,,一個(gè)奠基性的人物是 Alan Turing ,,大家都知道 Turing 是個(gè)數(shù)學(xué)家。大概在五六十年前,,Turing 開始思考,,怎么去創(chuàng)造一個(gè) Thinking Machine。他說:要建造一個(gè)智能的機(jī)器的話,,可能最好的方法就是,,通過最好的感官來提供給它,讓它能夠?qū)W會(huì)并且使用應(yīng)用語言,。 智能的 Machine,,它需要兩個(gè)特別重要的元素: 1. 感知。我們可以看人最大的感知系統(tǒng)是視覺,,人還有其他的感知系統(tǒng),,機(jī)器也可以有其它的感知系統(tǒng),但視覺是一個(gè)最大的感知系統(tǒng),。 2. 對(duì)含義的理解和推斷,。語言是人類最特別的一個(gè)能力,大多數(shù)人都會(huì)同意,,動(dòng)物是沒有這樣的能力的,。 所以,Turing 遠(yuǎn)遠(yuǎn)沒有建立起人工智能這個(gè)領(lǐng)域,。但是,,他帶來了最起初的一些重要的思想元素:我們要做一個(gè)會(huì)思考的機(jī)器,里面需要包括:視覺,、語言,。 Turing 之后,有這么一位科學(xué)家,,他是計(jì)算機(jī)界的一位泰斗,,是跟馬文·明斯基在 MIT 第一批讀人工智能的博士生,后來他到斯坦福做教授,,他的名字叫 Terry Winograd,。 Terry 是人工智能界,第一代把 Turing 的思想貫穿下去的人,。他不光在人工智能領(lǐng)域做了最重要的工作,,而且他后來轉(zhuǎn)行去做人機(jī)交互,也把這個(gè)領(lǐng)域重新帶動(dòng)了起來,。 Terry 和李飛飛二人都是斯坦福教授,,并且是鄰居,。 Terry 帶來了什么?Terry 把人工智能應(yīng)用在了怎么去建造一個(gè)思考的機(jī)器上,。他說一個(gè)人,,或者一個(gè)機(jī)器,要去理解世界,,需要去感知,。感知以后,需要做的第一件事是對(duì)這個(gè)世界的結(jié)構(gòu)進(jìn)行理解,。 這叫 Syntax Understanding,。Syntax 在自然語言處理領(lǐng)域叫語法,在計(jì)算機(jī)視覺這個(gè)領(lǐng)域可能叫三維結(jié)構(gòu),。Terry 說,,Syntax 以后,我們需要理解 Semantics(語義),。Semantis 做的事情就是 Understanding Meaning(了解含義),,語言有語言的含義,視覺有物體,、有動(dòng)作,,有視覺的含義。 最后,,當(dāng)我們把 Semantics 和 Syntax 解決以后,,智能的機(jī)器或者是人,主要解決的問題就是 Inference,,Inference 就是統(tǒng)計(jì)推導(dǎo),、統(tǒng)計(jì)推理這個(gè)過程。 所以在 Terry 看來 ,,要實(shí)現(xiàn)人工智能,,需要有這 3 個(gè)要素:Syntax、Semantics,、Inference,。 有了這樣的思想框架做引導(dǎo),Terry 寫了一篇在人工智能歷史上非常重要的博士畢業(yè)論文,。這個(gè)論文給了我們一個(gè) System,我不知道在座有沒有同行們聽說過這個(gè) SHRDLU,,它用一個(gè)像積木一樣的世界,,用積木搭建了一個(gè)世界,在這個(gè)世界里,,讓我們來完成 Syntax(語法),、Semantics(語義),、Inference(推導(dǎo))這樣的 loop(循環(huán))。 這篇論文是 70 年代初寫的,,從 70 年代初一直到 80 年代末 90 年代,,其實(shí),人工智能貌似沒有太多的發(fā)展,。為什么呢,?如果 70 年代就有一個(gè)計(jì)算機(jī)系統(tǒng),可以理解人的指令,。為什么我們到 2016 年,,才關(guān)注到人工智能?2016 年,,亞馬遜的 Echo 和 Alexa,,也好像做的事情區(qū)別不大。 為什么 60 年代,、70 年代,、80 年代的人工智能, 沒有我們預(yù)期的做得那么好,問題出在它的演進(jìn)的過程,。 在機(jī)器學(xué)習(xí)這個(gè)領(lǐng)域崛起之前,,人工智能的系統(tǒng)都是 hand-design rules,這個(gè) rule 十分復(fù)雜,,而且都完全是用手工,,用科學(xué)家的聰明的腦袋,想出來的 rule,。 這些 rule,,會(huì)有什么樣的問題?其實(shí) Terry 這樣絕頂聰明的人,,他能建立這個(gè)系統(tǒng),,這個(gè) rule 肯定已經(jīng)是包羅萬象了,但是這些 rule 還是有 3 個(gè)比較大的致命問題: 1. Scalable(可擴(kuò)展的),。你不可能把天下所有的 rule,,都寫進(jìn)一個(gè)程序。 2. Adaptable(可適應(yīng)的),。當(dāng)你給系統(tǒng)設(shè)計(jì)這個(gè) rule 的時(shí)候,,你很難把它轉(zhuǎn)換到另外一個(gè) rule。比如說,,英文的語法,、語義,我可以設(shè)計(jì)很多 rule,??墒?,我要把它放進(jìn)中文,它的語法就完全不一樣了,,我就得重新設(shè)計(jì)出來一套 rule,。 3. 它是一個(gè) Closed word。 所以說,,Hand-design Rules 在 AI 這個(gè)領(lǐng)域發(fā)展的早期,,給我們帶來了一些曙光,但是它并沒有把我們帶進(jìn)真正的光明,。到了 80 年代開始,,一個(gè)重要的子領(lǐng)域在人工智能領(lǐng)域開始發(fā)展,就是機(jī)器學(xué)習(xí),。 機(jī)器學(xué)習(xí)是什么呢,?機(jī)器學(xué)習(xí)和傳統(tǒng)學(xué)習(xí)最大的區(qū)別,我在這里給大家畫出來了,。你可以想象,,傳統(tǒng)的學(xué)習(xí),是用人認(rèn)識(shí)這個(gè)知識(shí),,然后再灌輸給它,,讓機(jī)器學(xué)習(xí),這就像 Terry 他們做的事情一樣,。 但是,,機(jī)器學(xué)習(xí)不一樣,機(jī)器學(xué)習(xí)是把認(rèn)知知識(shí)這一層給省掉了,,可以直接把數(shù)據(jù)放進(jìn)學(xué)習(xí)組件,,讓這個(gè)學(xué)習(xí)組件去學(xué)習(xí)一個(gè)知識(shí),這個(gè)知識(shí)可以發(fā)揮作用,。 但最近一個(gè)特別重要的算法,,就是所謂的 Artificial Neural Network,從 80 年代開始,,它叫神經(jīng)網(wǎng)絡(luò),。神經(jīng)網(wǎng)絡(luò)有很長的歷史,50 年代 Rosenbatt 就提出了 PERCEPTRON 這個(gè)概念,,這個(gè)概念就是把這些細(xì)胞怎么結(jié)合起來,,然后一層一層地輸入數(shù)據(jù),然后輸出結(jié)果(take layers of input and take output),。 到了 60 年代初,,一個(gè)重要的神經(jīng)生物學(xué)的發(fā)現(xiàn),又推動(dòng)了這個(gè)思路,這就是 Huble and Wiesel,,在通過對(duì)貓的腦子做實(shí)驗(yàn)的時(shí)候發(fā)現(xiàn),哺乳動(dòng)物視覺的感知,,實(shí)際就有這種神經(jīng)網(wǎng)絡(luò)的概念,,它是一層一層的細(xì)胞不斷的推進(jìn),從簡單的層面到復(fù)雜的層面,。 到了 1980 年,,70 年代末,一個(gè)重要的日本計(jì)算機(jī)科學(xué)家,,叫 Fukushima,,做出了第一個(gè) Neocognnitron 的神經(jīng)網(wǎng)絡(luò),可以識(shí)別數(shù)字和字母,。 到了 90 年代末,,通過 Geoffrey Hinton、Yan LeCun 進(jìn)一步的把學(xué)習(xí)的 rules 更優(yōu)化了以后,,就出現(xiàn)了今天大家比較熟悉的卷積神經(jīng)網(wǎng)絡(luò),。 最近,給我們帶來最大的一次神經(jīng)網(wǎng)絡(luò),,或者叫深度學(xué)習(xí)沖擊的 work,,是 2012 年 Alex Krizhevsky 和他的導(dǎo)師 Geoffrey Hinton,一塊寫的 AlexNet,,其實(shí) AlexNet 和 1998 年的 Convolutional Neural Networks 區(qū)別不大,。但是,為什么在 2012 年這個(gè)大致的歷史時(shí)期,,深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)發(fā)生了一次井噴式的成長和革命呢,?是因?yàn)?3 個(gè)重要的因素: 1. 這些算法的不斷優(yōu)化和成長。 2. 互聯(lián)網(wǎng)給我們帶來的海量數(shù)據(jù),,這也是我和我的學(xué)生們,,在 9 年前做的一項(xiàng)工作 ImageNet。 3. 硬件的發(fā)展,。 所以很多人就說,,Deep Learning 的三個(gè) Ingredients : Algorithms(算法)Data(數(shù)據(jù))和 Computation(運(yùn)算)。它給我們帶來了一次革命性的飛躍,。 有了這個(gè)深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的崛起,,我們其實(shí)可以重新回到 Turing 和 Terry 給我們搭建的 AI 大的思路和框架里,重新解決一些在沒有機(jī)器學(xué)習(xí)前完全解決不了的問題,。 比如說,,計(jì)算機(jī)視覺里面 Syntax 這個(gè)問題,這個(gè)問題實(shí)際上就是三維場(chǎng)景的結(jié)構(gòu),,視覺世界的結(jié)構(gòu),。這個(gè)問題,,在過去的二三十年,有了長足的發(fā)展,,用了很多跟機(jī)器學(xué)習(xí)的方法,。今天,為什么無人車可以開始產(chǎn)業(yè)化,,在算法方面很大的原因要感謝 3D 視覺,,這幾十年來的成就。這是其中一部分,。 第二部分,,我們說 Semantics 這個(gè)問題,在計(jì)算機(jī)視覺里面它是物體分類,、場(chǎng)景分類,、物體切割這些。這個(gè)領(lǐng)域,,也是在這幾年有蓬勃的發(fā)展,,我們 Image Captioning 團(tuán)隊(duì)一直在主持一個(gè)國際上的競賽。從 2010 年開始,,一直到 2015 年,、2016 年,機(jī)器的進(jìn)步,,已經(jīng)基本上達(dá)到了,,甚至它有時(shí)候超越了人的水平。你現(xiàn)在看到的這幅圖是機(jī)器的錯(cuò)誤率,,2010 年第一界 Image Captioning 的時(shí)候,,錯(cuò)誤率還在 28% 左右。到了去年 2015 年,,這個(gè)錯(cuò)誤率已經(jīng)到了 3.6%,,人也差不多就是這個(gè)水平。所以,,這是一個(gè)非常長足的進(jìn)步,。 剛才,我給大家分享的是兩個(gè)單獨(dú)的元素:Syntax,、Semantics,。其實(shí),就像 Terry 提出的一樣,,要真正做好 AI,,要把這些元素全部結(jié)合起來。我們一步一步來看,下一步要結(jié)合的是 Syntax,、Semantics 在計(jì)算機(jī)視覺里面它就是場(chǎng)景結(jié)構(gòu)和語義,,或者物體含義,一塊的融合,。 這項(xiàng)工作,,也有不少人做,前段時(shí)間斯坦福的另外一位計(jì)算機(jī)視覺教授搜沃塞維塞西,,他們做了項(xiàng)比較重要的工作,就把這個(gè) 3D 的建模和物體場(chǎng)景的識(shí)別,,結(jié)合起來了,。 我們?cè)偻峦七M(jìn)一步,可以看出,,我們現(xiàn)在在盡量完善這個(gè)圖片,。我們現(xiàn)在把 Language 加進(jìn)來,結(jié)合 Vision,,這是 Turing 給我們提出來的人的智能終極目標(biāo)之一,。 所以,Language 和 Vision,,是最近人工智能界非常關(guān)注的點(diǎn),。 下面這個(gè)工作,主要結(jié)合的是 Syntax 和 Inference,,它結(jié)合了 Semantics,,這是我的實(shí)驗(yàn)室最近和 Facebook 的一次合作。我們聯(lián)合發(fā)現(xiàn)了一個(gè) Benchmark(基準(zhǔn)),,它的意義是什么呢,?我們跟 ImageNet 比較一下,ImageNet 主要在測(cè)試機(jī)器對(duì) Semantics 的認(rèn)知能力,,就是物體分類,。 這項(xiàng)工作,我們把它取名叫 CLEVR,,它測(cè)試的是機(jī)器對(duì) Language Vision 在 Syntax 和 Inference 方面能達(dá)到多好,,它跟 ImageNet 基本上是反的。 具體是怎么做呢,?具體我們用了一個(gè)圖像引擎,,去模仿很多很多的場(chǎng)景,又回到了更像積木一樣的世界,。 在這些場(chǎng)景里面,,我們又自動(dòng)生成了很多問題。比如說,這張圖里有沒有和半球一樣大的積木,?這些問題是在挑戰(zhàn)這個(gè)計(jì)算機(jī)系統(tǒng)對(duì)場(chǎng)景結(jié)構(gòu)的理解,,這個(gè)結(jié)構(gòu)里面包括物體的大小,或者物體的材料,,包括數(shù)字計(jì)算,,也包括比較的能力,也包括空間的關(guān)系,,最后包括邏輯運(yùn)算,。所以,這在測(cè)試計(jì)算機(jī)好幾層的能力,。 這個(gè)數(shù)據(jù)庫,,組成了很多很多不同的場(chǎng)景,提出了很多不同的問題,。然后,,我們就可以通過用最好的深度學(xué)習(xí)模型,來測(cè)試計(jì)算機(jī)做的怎么樣,。其中最好的,,比如用 CNN 和 LSTM, 沒有聽過也沒有關(guān)系,這是一種深度學(xué)習(xí)的模型,。然后我們就會(huì)發(fā)現(xiàn),,計(jì)算機(jī)現(xiàn)在遠(yuǎn)遠(yuǎn)達(dá)不到人類的,比如數(shù)數(shù)能力,,或者現(xiàn)在對(duì)材料的分析還不夠好,。而且,我們也遠(yuǎn)遠(yuǎn)達(dá)不到比較的能力,,人是很容易比較出一個(gè)東西比另外一個(gè)東西大,,計(jì)算機(jī)現(xiàn)在還遠(yuǎn)遠(yuǎn)沒有達(dá)到。 這項(xiàng)工作還告訴我們,,在 Syntaxt 和 Inference 方面,,人工智能其實(shí)還任重道遠(yuǎn),CLEVR 這個(gè) Benchmark,,就給我們指出了一些比較明確的方向,。 最后一點(diǎn),我們?cè)趺窗?language,、Syntax 和 Semantics 一塊融合進(jìn)來,?這是最近我們做的一系列關(guān)于看圖說話的工作??磮D說話就是,,一個(gè)圖片進(jìn)來,,我希望這個(gè)計(jì)算機(jī)講出一個(gè)故事,比如一句話「兩個(gè)男人在玩飛盤」,。這個(gè)模型,,我們是用了一個(gè)圖片的模型,再加上一個(gè)語言的模型,。 圖片的模型用的是卷機(jī)神經(jīng)網(wǎng)絡(luò),,語言的模型用的是一個(gè) LSTM。 剛開始,,這個(gè)計(jì)算機(jī)在還沒有足夠?qū)W習(xí)能力的時(shí)候,,給出的語句是非常傻的,慢慢的它就開始學(xué)習(xí)這個(gè)圖片的內(nèi)容了,。到了最后,,它可以說出其中的內(nèi)容。 在我結(jié)束之前,,跟大家分享一下,我們認(rèn)為下一步計(jì)算機(jī)視覺和人工智能,,包括自然語言處理,,還要往下怎么走。 Terry 和 Turing 給我們指出了這個(gè)結(jié)合 Syntaxt,,Inference 和 Semantics 的路徑,,我們遠(yuǎn)遠(yuǎn)還沒有完成這個(gè)愿景。比如說這幅圖,,現(xiàn)在計(jì)算機(jī)視覺可以告訴我們,,這個(gè)圖里有一些人,甚至這幅圖的三維結(jié)構(gòu)是什么,,或者給我們一句話或者給我們幾句話,、N 句話,就像剛才我們看的,。 但是,,我們?nèi)丝吹降倪h(yuǎn)遠(yuǎn)不止這些,我們?nèi)丝吹降氖且粋€(gè)非常有意思的故事,,我們知道這里面的人是誰,,我們知道他們的關(guān)系是什么,我們知道他們的情緒是什么,,我們知道這幅圖的幽默點(diǎn)在哪里,。它可以給我們帶來很多很多信息,這是計(jì)算機(jī)現(xiàn)在遠(yuǎn)遠(yuǎn)沒有達(dá)到的,。 謝謝?。ㄍ辏?/span> |
|