李林 若樸 編譯整理 量子位 出品 | 公眾號 QbitAI少年,,你知道Jeff Dean么,? 傳奇一般的Jeff Dean現(xiàn)在領(lǐng)導(dǎo)著Google Brain團隊,也是Google研發(fā)群組的高級研究員(Senior Fellow),。近日,,Jeff Dean為YC AI小組的同學講了一堂時長近1小時的課程,講述了目前Google目前在人工智能方面的研究和進展,。 這節(jié)不容錯過的AI課程,,現(xiàn)在有兩個觀看方式: 第一:視頻方式。 科學前往YouTube(地址:https:///HcStlHGpjN8),,或者查看我們搬運回來的視頻。 第二:圖文方式,。 Jeff Dean這節(jié)課配有86頁PPT,,我們也把全部內(nèi)容搬運過來,,空耳聽譯了Jeff Dean對每一頁的講述,,然后整理配發(fā)為每一頁的要點,。 所以,,開始吧~ 視頻在此
PPT講義在此我會全面地講一講我們正在用深度學習處理哪些任務(wù),正在建立怎樣的系統(tǒng)來提升深度學習的速度,。 這份PPT是很多人合作的成果,,包括我領(lǐng)導(dǎo)的Google Brain團隊,。 Google Brain團隊的任務(wù)是讓機器更智能,,進而讓人們生活得更好,。 為了達到這個目標,我們: 進行長期的研究,; 建立并開源TensorFlow等系統(tǒng),; 與Google和母公司Alphabet的其他部門合作,讓幾十億用戶能在Alphabet的產(chǎn)品中用上我們的工作成果,; 通過實習和Google Brain Residency項目培訓(xùn)新研究者,。
Google Brain的主要研究領(lǐng)域有以上這些。 我今天主要會講到紅色的這些: 一般機器學習算法和技巧,; 機器學習的計算機系統(tǒng),; 自然語言理解; 健康,; 機器人,。
也會涉及一些感知領(lǐng)域的研究。 年初,,我寫了一篇博客,,總結(jié)2016年我們團隊都做了哪些工作。 http://research./2017/01/the-google-brain-team-looking-back-on.html 博客中的每一條超鏈接都指向了這項工作的成果展示或論文,。 你們可能都在做AI相關(guān)的創(chuàng)業(yè)公司,,不過我還是要說,深度學習改變了我們解決很多問題的方式,。 在80,、90年代,對于很多問題來說,,神經(jīng)網(wǎng)絡(luò)還不是最好的解決方案,,當時訓(xùn)練數(shù)據(jù)的量、計算力都還不夠,。所以,,人們或者用其他方法,或者用比較淺層的機器學習方法,,需要人工進行大量的特征工程,。 但是現(xiàn)在,我們有了更強大的計算力,。 90年代,,我的本科論文是關(guān)于神經(jīng)網(wǎng)絡(luò)的并行訓(xùn)練的,神經(jīng)網(wǎng)絡(luò)模型非常吸引我,,我想,,如果我們能通過并行計算獲取更多計算資源,,比如說用一臺64個處理器的超立方體結(jié)構(gòu)機器,結(jié)果我發(fā)現(xiàn),,60倍的計算力遠遠不夠,,我們需要數(shù)十萬倍的計算力。 到今天,,我們已經(jīng)有這樣的計算能力了,。結(jié)果就是神經(jīng)網(wǎng)絡(luò)成了很多問題的最佳解決途徑,。 最開始,,我們的團隊只是想證明大量的計算資源能幫助神經(jīng)網(wǎng)絡(luò)解決一些有趣的問題,于是我們做了大規(guī)模的無監(jiān)督學習,,那時候甚至還沒用上GPU,,我們用了16000個CPU核心,做了一些有趣的事情,。(量子位注:就是機器從YouTube視頻中認出了貓的那一次)
后來,,我們把深度學習用到了更多領(lǐng)域,上圖左側(cè)是包含我們第一代和第二代(TensorFlow)深度學習框架模型描述文件的程序數(shù)量,,我們和Google的其他團隊合作,,把深度學習用到各種產(chǎn)品之中。 我們在工作中關(guān)注的一個重點是如何縮短實驗的周轉(zhuǎn)時間,,提高研究效率,。 實驗周期需要1個月和實驗周期只有幾分鐘,會帶給研究者截然不同的體驗,。所以,,能盡快取得實驗結(jié)果對我們來說非常重要。 為此,,我們要建造正確的工具,。 TensorFlow就是我們?yōu)榻鉀Q深度學習問題而建造的第二代系統(tǒng),它從一開始就是作為一個開源系統(tǒng)而打造的,。 量子位注:我們之前發(fā)文介紹過Google是怎樣管理TensorFlow這么龐大的開源社區(qū)的:TensorFlow技術(shù)主管詳解:Google是怎樣管理開源軟件的 TensorFlow的目標是,,建立一個呈現(xiàn)機器學習創(chuàng)意和系統(tǒng)的通用平臺,并讓這個平臺在研究和生產(chǎn)環(huán)境中都成為世界最佳,,再通過開源,,讓它成為所有人的平臺,而不只是Google的,。 這是GitHub星標數(shù)的趨勢圖,,你可以看到TensorFlow與其他機器學習框架的對比。 我想,,TensorFlow在研究中足夠靈活,,又很容易部署到實際產(chǎn)品上,,還能在多種環(huán)境中運行,這些特性很有吸引力,。 我們經(jīng)常會做一些基準測試,,這些測試顯示TensorFlow的可擴展性還是不錯的。 其實我們很重視速度,。 在TensorFlow剛發(fā)布的時候,,我們推出了很多教程,但是當時我們犯了一個錯誤,,我們發(fā)布的教程代碼追求清晰,、解釋詳細,但忽略了性能,,于是很多人模仿那些代碼來建立高效的TensorFlow模型,。后來我們逐漸更新了那些代碼,對代碼的清晰程度和性能同樣重視,。 在很多任務(wù)上,,TensorFlow支持多達64個GPU,還能隨著GPU的增加保持性能的線性提升,。 如果你聽說TensorFlow很慢,,不要信?? 我們還支持多種平臺,包括iOS,、Android,、CPU、GPU,、我們自己的TPU,,還有Raspberry Pi等等。 我們還支持各種變成語言,,目前支持得最好的是Python,,C 做得也不錯。 除此之外,,我們還有個不錯的用戶基礎(chǔ),。 在GitHub上最受歡迎的程序里,我們排第6,。前5名要么是JS,,要么是LISP編程書。 這是世界上為TensorFlow標星的人口分布,,全世界幾乎都在用機器學習,。 TensorFlow在全世界有近千人的外部貢獻者,為它增加功能、修復(fù)bug,、改進系統(tǒng),。 各種機器學習課程中也在越來越多地使用TensorFlow。 接下來我要談一談深度學習在Google具體產(chǎn)品中的應(yīng)用,。Google Photos是個很好的例子,,計算機視覺讓機器能知道人們的照片中有什么,照片中發(fā)生了什么事情,。 作為人工智能領(lǐng)域的創(chuàng)業(yè)者,,你們需要關(guān)注各種機器學習成果,很多時候,,你可以使用其中的方法,,把它用到另一個數(shù)據(jù)集上,就可能有意想不到的發(fā)現(xiàn),。 給定一張圖片,,讓機器預(yù)測其中的關(guān)鍵像素,是一個常用的模型,,有很多種實現(xiàn)方式。 不過,,我們的做法是用一個能實現(xiàn)這種功能的模型,,遷移到各種其他任務(wù)上。 計算機視覺公司Clarifai的創(chuàng)始人Matt Zeiler是我之前的暑期實習生,,我們和街景團隊合作,,識別街景照片中的文字。
訓(xùn)練數(shù)據(jù)就是人類手工圈出了文字區(qū)域的照片,,任務(wù)是讓機器預(yù)測普通街景照片中哪里有文字,,選定區(qū)域之后,就可以通過OCR來識別這些文字了,。 后來地圖團隊決定開發(fā)另一個程序,,來識別你家房頂適不適合采集太陽能,裝上太陽能板可以生產(chǎn)多少電,。 這個程序的第一件事是在圖中找出房頂,,這和找到文字區(qū)域的模型不完全一樣,但其實只是換了一種訓(xùn)練數(shù)據(jù),。 我們還把這個模型用到了醫(yī)療領(lǐng)域,。 還是一樣的基礎(chǔ)模型,我們用它來解決醫(yī)學圖像問題,。 具體來說,,是用在眼科檢查上。我們讓算法從上圖這樣的視網(wǎng)膜圖片上,分辨出是否有糖尿病視網(wǎng)膜病變,。 在這個問題上,,我們需要識別圖上可能是病變的區(qū)域,然后再進行圖像分類,,確定這個眼部照片是否真的有問題,。 我們的研究收集了15萬張視網(wǎng)膜照片,每張照片找7名眼科專家來標注,,然后訓(xùn)練我們的算法,。 最后,我們獲得了一個識別糖尿病視網(wǎng)膜病變的算法,,和8名協(xié)會認證的眼科專家相比,,算法的準確率和他們的中位數(shù)持平,有時還要高出一點,。 相關(guān)論文: http:///journals/jama/fullarticle/2588763 另外,,我們可以看到,深度學習在機器人領(lǐng)域也非常用用,。 我們在實體機器人和模擬環(huán)境中都做了很多實驗,,還試著讓機器人通過模仿人類的動作來學習。 我們建了個“機械臂農(nóng)場”,,擺了很多機器人,,讓它們學習抓取物體。 我們每天還會把傳感器獲取的數(shù)據(jù)收集起來,,用它們訓(xùn)練一個模型來優(yōu)化機器人的抓取技能,,這些機器人每天都會提高。 我們公開了這個數(shù)據(jù)集,,其中包含80萬次抓取嘗試,。 項目主頁: https://sites.google.com/site/brainrobotdata/home 論文: https:///abs/1603.02199 數(shù)據(jù)集: https://sites.google.com/site/brainrobotdata/home/grasping-dataset 這張圖是我在做動作,試著讓機器人模仿,。 我們首先讓模擬器里的機器人學習人類動作,,然后再遷移到實體機器人。效果還不錯,。 還有一個激動人心的領(lǐng)域,,是深度學習在科學研究中的應(yīng)用。 科學研究通常都會用到高性能計算機上運行的模擬器,,它們會產(chǎn)生大量數(shù)據(jù),,但問題是,模擬器的運行消耗大量資源,,價格昂貴,。 舉個深度學習應(yīng)用在這里例子,我們可以用模擬器中的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),運行一小時模擬器,,然后用獲取的數(shù)據(jù)來訓(xùn)練一個神經(jīng)網(wǎng)絡(luò),,讓它來預(yù)測分子的性質(zhì)。 當然,,模擬器給出的結(jié)果更精確,,但神經(jīng)網(wǎng)絡(luò)給出結(jié)果的速度要快上幾十萬倍。 相關(guān)研究: https://research./2017/04/predicting-properties-of-molecules-with.html https:///abs/1702.05532 https:///abs/1704.01212 圖像處理技術(shù)也能用在細胞研究上,。怎么用呢,? Google有人做了一個模型,嘗試通過一張照片來預(yù)測景深,。 這是一個pixel to pixel的學習問題,,你可以想象,還有很多問題都是類似的,。 在拍照中,,景深的預(yù)測有很多用途,比如說預(yù)測一張人像照片的景深,。 然后就可以做出一些神奇的效果,,比如說保留人像的顏色,把背景變成黑白的,,或者讓背景變得模糊,、給背景加上特定的風格等等。 這種模型還有更神奇的用途: 用顯微鏡原始圖像做為輸入,,可以輸出一張染色后的顯微鏡圖像。 這有助于幫人們分清細胞核和它外層的物質(zhì),。 給細胞染色的時候,,通常會傷害細胞的活性,所以這種虛擬染色的功能非常有用,,能讓你在染色后繼續(xù)追蹤細胞的后續(xù)活動,。 這種技術(shù)也能用來觀察神經(jīng)元的活動。 我們在語言理解領(lǐng)域也做了不少工作,。 最開始,,我們的團隊提出了seq2seq模型。給神經(jīng)網(wǎng)絡(luò)輸入一個序列,,它會輸出一個預(yù)測序列,。 seq2seq能用來處理很多問題。 機器學習就是其中之一,。 比如說你有一組成對的英語-法語句子,,就可以用seq2seq模型,以法語為輸入序列,英語為輸出序列,,將它們對應(yīng)起來,,訓(xùn)練一個RNN。 然后你會通過beam search來找到最合適的輸出序列,。 Gmail中的Smart Reply自動回復(fù)功能也是seq2seq的應(yīng)用之一,。 舉個例子,這是我發(fā)給同事們的一封郵件,,問大家要不要參加感恩節(jié)聚會,。這種郵件只需要簡短的回復(fù),有了Smart Reply用戶只需要選擇“是”或者“否”,。 我們的seq2seq模型會在用戶選了是/否之后,,生成一個簡短的回復(fù)。 這個功能,,是2009年Google開的一個愚人節(jié)玩笑:“哈哈哈哈我們要幫你自動回復(fù)郵件了,!” 2015年11月5日,真正的產(chǎn)品發(fā)布了,;到2016年2月1日,,Inbox手機應(yīng)用中由超過10%郵件是自動回復(fù)的。 實際上,,seq2seq最具潛力的應(yīng)用領(lǐng)域還是翻譯,。 我們把seq2seq用在了在線的谷歌翻譯產(chǎn)品中。 在這篇有很多作者的論文Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation中,,我們介紹了機器翻譯背后的技術(shù)詳情,。 論文地址: https:///abs/1609.08144 這是我們模型的結(jié)構(gòu),它包含很深的LSTM stack,,每一層運行在不同的GPU上,;還有一個注意力模塊,追蹤所有的狀態(tài),,決定在生成輸出序列的各部分時,,分別該注意輸入數(shù)據(jù)中的哪一部分。 每一份這個模型都運行在一臺GPU機器上,。我們把這個模型復(fù)制了很多份,,在訓(xùn)練數(shù)據(jù)上進行平行訓(xùn)練,然后共享學到的參數(shù),。 上圖顯示了人類和Google的兩種機器翻譯模型的翻譯質(zhì)量,。藍色表示我們原來用的基于短語的機器翻譯模型,綠色的是基于seq2seq的神經(jīng)網(wǎng)絡(luò)機器翻譯模型,,黃色的表示雙語人類(非專業(yè)翻譯),。 基于神經(jīng)網(wǎng)絡(luò)的模型遠遠超過了基于短語的統(tǒng)計模型,,越來越接近人類的水平。 我們的日語-英語神經(jīng)網(wǎng)絡(luò)機翻上線后,,很多日本人都發(fā)現(xiàn),,翻譯質(zhì)量好了很多,終于真的能用了,。 這是一位日本教授把海明威《乞力馬扎羅的雪》第一段從英語翻譯成日語,、再從日語翻譯回來的結(jié)果。上邊是基于短語的統(tǒng)計模型的結(jié)果,,下邊是神經(jīng)網(wǎng)絡(luò)模型的結(jié)果,。 我們正在進行大量研究的另一個領(lǐng)域,是如何自動化解決機器學習的問題,,我們稱之為“l(fā)earning to learn”,。 目前解決機器學習問題的主要方式,是機器學習專家 數(shù)據(jù) 計算力,。然后用不同的學習率嘗試某個模型,,希望通過遷移學習的方式從某個數(shù)據(jù)集得到解決方案。 我們研究的解決方案,,是數(shù)據(jù) 100倍的計算力,,這中間不需要人類機器學習專家。如果能做到這一點,,世界上會有更多的組織和數(shù)據(jù)能受益于機器學習,。 我們在這個領(lǐng)域做了很多研究,今天主要討論其中的兩個,。一是自動設(shè)計神經(jīng)網(wǎng)絡(luò)架構(gòu)的方法,,二是自動學習如何優(yōu)化。 架構(gòu)搜索,。這個想法,,是想用一個模型生成另一個模型。目前的機器學習中,,設(shè)計神經(jīng)網(wǎng)絡(luò)的架構(gòu)仍然需要大量的專業(yè)知識并且耗費大量時間。在這個研究中,,我們生成10個模型架構(gòu),,分別訓(xùn)練數(shù)小時,然后使用生成模型的損失,,作為強化學習的信號,。 這一基于梯度的方法,可以找到最優(yōu)的架構(gòu),,不過目前只適用于小問題,。 這是一個例子,。這個模型看起來就不像人類設(shè)計的東西,這些連線有點瘋狂,。這是CIFAR-10數(shù)據(jù)集上的一個應(yīng)用,,架構(gòu)搜索的方法已經(jīng)非常接近目前最先進的技術(shù),這中間并沒有人對底層架構(gòu)進行過干預(yù),。 我們還在Penn Treebank數(shù)據(jù)集上,,嘗試了一個語言建模任務(wù)。我們只是給了架構(gòu)搜索一個LSTM cell,,然后讓它尋找處理順序數(shù)據(jù)的方法,。在這個案例中,架構(gòu)搜索的方法比此前最先進的方法表現(xiàn)更好,。 常見的優(yōu)化方法都是類似的,。經(jīng)常使用的方法包括SGD(隨機梯度下降)、Momentum,、ADAM,、RMSProp等。在這一頁可以看到,,自動化的方法提出了15種完全不同的表達式,,而且表現(xiàn)基本都優(yōu)于人類設(shè)計的優(yōu)化方法。 我們把其中最好的一個表達式遷移應(yīng)用在一個不同的問題上,,結(jié)果發(fā)現(xiàn)這個自動設(shè)計的優(yōu)化器,,表現(xiàn)比現(xiàn)有最好的ADAM更出色。 很多機器學習專家想要解決一個問題,,需要運行非常多的試驗,,有可能一個周末就需要試驗12000次。人類專家不能操作太多的試驗,,但是機器可以,。當然目前也有很多時候,結(jié)果并不盡如人意,。 另一個有趣的事情是,,我們之所以能解決很多問題,是因為我們有了非常多的數(shù)據(jù),,而且能夠在不同的問題上應(yīng)用大規(guī)模計算能力,。 深度學習改變了我們設(shè)計計算機的方式。 深度學習有兩個非常好的特性,。一個是完美的寬容了非常低的計算精度,,另一個是能夠處理多種不同的運算,所以我們有機會建造一個定制化的機器學習硬件系統(tǒng),,能夠以極大降的低精度運算線性代數(shù),。
這是我們一直在搞的定制化機器學習加速器(TPU),,目標是加速推理以及訓(xùn)練,這個硬件的第一代版本已經(jīng)在我們的數(shù)據(jù)中心部署了兩年半,,在五月的Google I/O大會上,,我們展示了第二代TPU。 重要的不是設(shè)計一個芯片,,而是整個系統(tǒng),。 單個芯片不可能提供足夠大的計算量,因此我們把TPU芯片連接在一起,。我們稱其為:TPU Pod,。連接在一起的TPU能夠提供更大的計算力。 通常給一臺超級計算機編程有點煩人,。所以我們決定使用TensorFlow,,基本上可以實現(xiàn)用一個新的接口表達一個模型,而且我們在TensorFlow 1.2中添加了估計量,,相同的程序在CPU,、GPU、TPU上只需要微調(diào)就能運行,。 這些都會引用在TPU云服務(wù)上,,屆時運行TensorFlow應(yīng)該超快。 我們還把上千臺這樣的設(shè)備,,免費提供給全球的研發(fā)人員使用,,只要你致力于有趣的研究,需要更多的計算力,,而且承諾會公開研究成果,。我們想要構(gòu)建一個科學和機器學習研究的生態(tài)系統(tǒng),我們也希望得到使用TPU的反饋,。 這里,,實力廣告一波Google Cloud。 最后講一下,,我們也在嘗試用機器學習的方式得到更高性能的機器學習模型,。 使用強化學習來配置設(shè)備。在這個案例中,,我們使用強化學習的方式,,使用序列到序列模型來預(yù)測TensorFlow數(shù)據(jù)流圖的子集應(yīng)該運行在哪些設(shè)備上。例如,,如何分配兩個GPU的計算力,讓模型能夠盡快的完成運算,。 應(yīng)用這個方法,,我們在神經(jīng)機器翻譯模型,、Inception-V3模型上,都獲得了近20%的速度提升,。此前,,計算資源的分配智能通過人類專家手工摸索設(shè)置。 所以,,我們認為更多的計算力帶來更多的機會和收益,。 這是一些未來會實現(xiàn)的需求。例如通過圖像來發(fā)現(xiàn)糖尿病引發(fā)的視網(wǎng)膜病變,;用西班牙語描述一段視頻,;讓機器人從廚房沏一杯茶來;幫我找到與機器人強化學習有關(guān)的文檔,,并用德語總結(jié)出來,。 結(jié)論。你們肯定已經(jīng)知道深度神經(jīng)網(wǎng)絡(luò)正在帶來巨大的變革,,大家應(yīng)該更關(guān)注這件事,。 這是我們正在研究的一些領(lǐng)域,訪問g.co/brain可以查看更多信息,。你們應(yīng)該可以加入我們的團隊,,不過鑒于你們已經(jīng)開始創(chuàng)業(yè)了~(呵呵噠) PPT下載
|