“問問機(jī)器學(xué)習(xí)從業(yè)者,,究竟是什么還在維持著奄奄一息的神經(jīng)網(wǎng)絡(luò)?你可能會聽到以下三個人名中的一個:Geoffrey Hinton,,加拿大的Yoshua Bengio,,或是Facebook的Yann LeCun?!盵1]
一,、深度學(xué)習(xí)計劃
當(dāng)你想要發(fā)動一場革命,你就要從陰謀開始,。隨著支持向量機(jī)(SVM)的成功以及反向傳播的失敗,,神經(jīng)網(wǎng)絡(luò)的研究在21世紀(jì)迎來了黑暗時期。LeCun和Hinton不約而同的提到了他們或他們學(xué)生的論文,在那樣一個時期是如何被拒絕出版的,,而原因僅僅是他們的主題是有關(guān)神經(jīng)網(wǎng)絡(luò)的,。最上方的引言可能有一些夸張的成分,還是有一些人在從事機(jī)器學(xué)習(xí)和人工智能的研究,,他們也還在使用神經(jīng)網(wǎng)絡(luò),,但是他們自己也清楚神經(jīng)網(wǎng)絡(luò)的研究已經(jīng)陷入了一個低谷。堅持這一研究的他們找到了一個強(qiáng)大的盟友:加拿大政府,。加拿大的高級研究所(CIFAR)出資資助他們從事這種沒有實際應(yīng)用的基礎(chǔ)科學(xué)的研究,而這也在1987年促使Hinton搬到加拿大繼續(xù)他的研究,。然而,,隨著90年代中期社會對神經(jīng)網(wǎng)絡(luò)的態(tài)度再一次反轉(zhuǎn),資助資金取消了,,但Hinton并沒有放棄它的研究,,它設(shè)法繼續(xù)從CIFAR獲得資金,以供自己繼續(xù)從事神經(jīng)網(wǎng)絡(luò)的研究,。
“2004年,,Hinton要求推動一個新的神經(jīng)計算,主流機(jī)器學(xué)習(xí)社區(qū)不可能對神經(jīng)網(wǎng)絡(luò)一點興趣也沒有,?!?/em> “這可能是最糟糕的時間?!?/em>CIFAR的聯(lián)合發(fā)起者,,來自蒙特利爾大學(xué)的Bengio如此說道。“從去年開始,,大家都在忙著不同的事情,,但是不知怎的,Geoff說服了他們”,, “我們應(yīng)該給CIFAR一點信心,,好讓他們愿意加入這個計劃?!?/em> CIFAR“對機(jī)器學(xué)習(xí)社區(qū)的建立起到了巨大的作用,。” CIFAR的另一位聯(lián)合發(fā)起者LeCun補(bǔ)充到,,“我們有點被廣義的機(jī)器學(xué)習(xí)社區(qū)拋棄了的意味:我們的論文無法發(fā)表,。但這給了我們一個可以交流想法的平臺”
盡管資金不多,但也足夠一小群研究人員繼續(xù)工作了,。正如Hinton自己所說,,他們通過把神經(jīng)網(wǎng)絡(luò)改名為深度學(xué)習(xí)這樣一種陰謀方式,來繼續(xù)對神經(jīng)網(wǎng)絡(luò)進(jìn)行研究,。然后,,每一個神經(jīng)網(wǎng)絡(luò)研究者希望看到的事情發(fā)生了:Hinton, Simon Osindero, 和Yee-Whye在2006年發(fā)表了一篇被認(rèn)為可以重新燃起社會對神經(jīng)網(wǎng)絡(luò)的興趣點文章:一種可以實現(xiàn)快速學(xué)習(xí)的深度信念網(wǎng)絡(luò)[2],。盡管這些算法已經(jīng)被新的算法所取代,但是我們已經(jīng)初步看到了“深度學(xué)習(xí)”的端倪,。比這個名字更重要的是,,如果權(quán)重可以以更好的方式來代替隨機(jī)初始化,多層神經(jīng)網(wǎng)絡(luò)可以被訓(xùn)練得很好,。Hinton曾經(jīng)這樣表示:
“這是一個歷史性的時刻,,這個時刻我們克服了對神經(jīng)網(wǎng)絡(luò)的成見。這些成見認(rèn)為神經(jīng)網(wǎng)絡(luò)不好,,永遠(yuǎn)都不會訓(xùn)練,。前不久我的一個朋友向國際機(jī)器學(xué)習(xí)會議(ICML)投稿,但是評審拒絕了他,,僅僅是因為文章的內(nèi)容是關(guān)于神經(jīng)網(wǎng)絡(luò),。可以查ICML近幾年的收錄記錄,,沒有任何一篇文章是有關(guān)神經(jīng)網(wǎng)絡(luò)的,。所以IEEE期刊應(yīng)該是又一個‘不接受神經(jīng)網(wǎng)絡(luò)’的官方政策。所以這是一個重要的時刻”
圖4.1 限制玻爾茲曼機(jī)
那么我們究竟應(yīng)該怎么聰明的初始化權(quán)重,?基本思想是逐層的對每一層神經(jīng)網(wǎng)絡(luò)進(jìn)行無監(jiān)督訓(xùn)練,,起始權(quán)重是一些隨機(jī)值,然后想常規(guī)神經(jīng)網(wǎng)絡(luò)的完成一次監(jiān)督學(xué)習(xí),。每層都會以一個受限玻爾茲曼機(jī)作為開始,,并把它作為隱含層之間的可見單元的連接點,以無監(jiān)督的方式來訓(xùn)練生成模型,。事實證明,,這種訓(xùn)練方式可以按照Hinton在2002年的論文“Training Products of Experts by Minimizing Contrastive Divergence”[3]中提及的方式進(jìn)行,并取得不錯的成果,。該算法不僅使單元產(chǎn)生訓(xùn)練數(shù)據(jù)的可能性最大化,,還被證實訓(xùn)練結(jié)果十分理想。算法如下: 1,、在RBM上使用對比-散度的方式訓(xùn)練數(shù)據(jù),。這是信念網(wǎng)絡(luò)的第一層。 2,、對通過RBM的數(shù)據(jù)生成隱含值,,并使用這些隱含值來訓(xùn)練另外一個RBM。把這些隱含值“堆”在第一層,,并保持權(quán)重在想用的方向,,形成一個信念網(wǎng)。這是第二層。 3,、重復(fù)第二部,,直到達(dá)到需求的信念網(wǎng)的層數(shù)。 4,、如果需要分類,,則需要添加對應(yīng)分類標(biāo)簽的一組隱藏單元,并對喚醒睡眠的的算法作出微調(diào)來調(diào)整權(quán)重,。這種無監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)組合的方式通常被稱為半監(jiān)督學(xué)習(xí),。
圖4.2 Hinton介紹的分層預(yù)訓(xùn)練
該文結(jié)尾處表示,深度信念網(wǎng)絡(luò)(DBNs)對于標(biāo)準(zhǔn)的MNIST識別字符數(shù)據(jù)集具有最優(yōu)性能,,明顯優(yōu)于只有幾層的神經(jīng)網(wǎng)絡(luò),。Yoshua Bengio等人在2007年的論文“Greedy Layer-Wise Training of Deep Networks”[4]中,提出了一個強(qiáng)有力的證明,,證明了深層機(jī)器學(xué)習(xí)方法(有許多步的算法,或等價于有很多維的特征的數(shù)據(jù)),,在處理復(fù)雜的問題比簡單的算法(有兩層的ANN或是支持想理機(jī)之類的算法)更加有效,。
圖4.3 另外一個無監(jiān)督與訓(xùn)練的觀點,使用自動編碼器來代替RBM
他們還提出了添加無監(jiān)督訓(xùn)練的原因和結(jié)果,,因為這樣不僅可以以更優(yōu)化待方式初始化權(quán)重,,更重要的是還可以對數(shù)據(jù)進(jìn)行更有代表性的學(xué)習(xí)。事實上,,使用RBM并不是那么重要,,使用反向傳播或普通自動編碼器的正常神經(jīng)網(wǎng)絡(luò)層的無監(jiān)督的預(yù)訓(xùn)練效果也很好。同樣,,稀疏編碼也表明無監(jiān)督特征學(xué)習(xí)是一種提高監(jiān)督學(xué)習(xí)性能的方式,。 所以,深度網(wǎng)絡(luò)的真正關(guān)鍵之處在于,,多層的計算單元可以更好的訓(xùn)練高維原始數(shù)據(jù),。這與傳統(tǒng)的手動設(shè)計特征提取方法,再進(jìn)行特征學(xué)習(xí)的方式大相徑庭,。Hinton和Bengio的工作也證明了這個事實,,更重要的是打破了深度神經(jīng)網(wǎng)絡(luò)不能被良好的訓(xùn)練這樣一個誤解。盡管LeCun已經(jīng)證明了CNNs,,但神經(jīng)網(wǎng)絡(luò)仍然是去了青睞,。Bengio與Yann LeCun一同在論文 “Scaling Algorithms Towards AI”[5]重申了這一點:
“直到最近,有很多人都認(rèn)為深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法太難優(yōu)化,。然而至少有兩種不同的方法已經(jīng)被證明了在此種架構(gòu)下是很有效的:一是基于卷積神經(jīng)網(wǎng)絡(luò)的簡單梯度下降法[LeCun等人在1989年,、1998年論證],該算法在(圖像和信號領(lǐng)域)逐層進(jìn)行無監(jiān)督學(xué)習(xí)。二是梯度下降法[2006年Hinton等人,,2007年Bengio等人,,2006年Ranzato等人]。深度學(xué)習(xí)架構(gòu)仍處于起步階段,,更好的深度學(xué)習(xí)算法仍有待發(fā)現(xiàn),。從更廣闊的角度來看,我們?nèi)孕枰粋€指引AI未來發(fā)展方向的原則,。我們希望通過鼓勵他人,,大家一起尋找解決通過機(jī)器學(xué)習(xí)方式來解決AI的方法?!?/em>
盡管深度學(xué)習(xí)還沒有獲得今日一般的科研熱潮,,但他們確實在開始并進(jìn)行一些鼓勵性工作,深度學(xué)習(xí)的浪潮也因此開始涌動了,。但是,,論文中這些被證實有效的算法大多數(shù)是針對MNIST數(shù)據(jù)集,這時候MNIST數(shù)據(jù)集作為一個經(jīng)典的機(jī)器學(xué)習(xí)任務(wù)已經(jīng)成為了算法的標(biāo)準(zhǔn)基準(zhǔn)近十年了,。Hinton在2006的論文在測試機(jī)上取得了驚人的1.25%的錯誤率,,但是SVM也取得了1.4%的錯誤率,簡單的算法也可以得到很低的錯誤率,。Yann LeCun在1998年使用CNN證明了錯誤率僅為0.95%,。 所以在MNIST上成績好并不見得是什么大本事。這個時候,,是深度學(xué)習(xí)登上歷史舞臺了,。Hinton和他的兩個研究生Abdel-rahman Mohamed和George Dahl,完成了一個更具有挑戰(zhàn)性的AI任務(wù):語音識別[6],。使用DBN,,Hinton和這兩個學(xué)生在一個標(biāo)準(zhǔn)語音識別數(shù)據(jù)集改進(jìn)了一個塵封了10年的記錄。這是一個令人深刻的成就,,但今天看起來似乎暗示著什么:越來越堵的記錄逐漸被打破了,。
二、硬件的重要性
上述算法的出現(xiàn)無疑促進(jìn)了深度學(xué)習(xí)的發(fā)展,,但是深度學(xué)習(xí)的進(jìn)不來不開另外一個重要組成部分:從上世紀(jì)90年代以來就在不斷進(jìn)步計算能力,。根據(jù)摩爾定律,90年代以來的計算機(jī)的運算速度已經(jīng)提高了十幾倍,,這使得大數(shù)據(jù)的采集和多層學(xué)習(xí)變得更加容易,。但是這還遠(yuǎn)遠(yuǎn)不夠,CPU的運算能力開始達(dá)到頂點,,而計算機(jī)也開始通過幾個CPU并行的方式來增加計算機(jī)的功率,,為了學(xué)習(xí)深度學(xué)習(xí)中上百萬的節(jié)點的權(quán)重,,我們必須大幅度克服CPU并行處理的局限性,并采取大規(guī)模GPU并行的方式來增強(qiáng)計算能力,。為了更好了理解這一點,,我們來看看Abdel-rahman Mohamed,George Dahl和Geoff Hinton是如何提升他們的語音識別算法的性能的[7],。
“受到Hinton一篇關(guān)于深度神經(jīng)網(wǎng)絡(luò)的演講的啟發(fā),,Mohamed開始將這一算法應(yīng)用到語音識別,但是深度神經(jīng)網(wǎng)絡(luò)需要太多的計算機(jī)來提升計算能力,,所以Hinton和Mohamed拉上了Dahl,。Dahl是Hinton實驗室的學(xué)生,他已經(jīng)開始使用相同規(guī)格的高端顯卡來訓(xùn)練和模擬神經(jīng)網(wǎng)絡(luò)了,,而這些高端顯卡是用來提升電腦游戲畫面的,。” 他們采用相同的方法來識別短的語音窗口中的音素片段的問題,Hinton表示,,該方法可以是結(jié)果獲得顯著的提升,。 這種情況很難明確的表示使用GPU比CPU效果具體好多少,同年的“Large-scale Deep Unsupervised Learning using Graphics Processors” [8]大賽給出了明確的數(shù)字:75倍,!70倍的速度將會把幾周的工作量簡化為幾天,,甚至一天就可以完成。包括著名的機(jī)器學(xué)習(xí)研究者Andrew Ng在內(nèi)的眾多稀疏編碼研究者,,開始逐漸意識到大家過多的重視算法的變化,卻忽略了對數(shù)據(jù)量以及算法速度的利用,。這樣的想法在2010年出版的“Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition”[9]里面得到了強(qiáng)烈的支持,,該文的作者是LTSM的聯(lián)合創(chuàng)始人之一的J. Schmidhuber,該文表示大規(guī)模的神經(jīng)網(wǎng)絡(luò),、輸入上的多種變化以及高效的GPU實現(xiàn),,可以在MNIST數(shù)據(jù)集上實現(xiàn)驚人的0.35%的錯誤率。這樣的算法已經(jīng)存在了幾十年,,雖然不能否認(rèn)算法也在進(jìn)步,,但是這個結(jié)果無疑表明大的數(shù)據(jù)量和快速并行計算能力同樣重要。 Dahl和Mohamed使用GPU來打破的紀(jì)錄盡管很小,,但也足以使他們成為微軟研究院的實習(xí)生,。在這里,他們接觸到了另外一種計算趨勢:大數(shù)據(jù),。大數(shù)據(jù)作為一個很寬泛的概念,,卻很容易在機(jī)器學(xué)習(xí)中被理解,大數(shù)據(jù)代表著大量的訓(xùn)練數(shù)據(jù),。大量的訓(xùn)練數(shù)據(jù)才似得神經(jīng)網(wǎng)絡(luò)達(dá)到了現(xiàn)在的高度,,神經(jīng)網(wǎng)絡(luò)過去太過于工作在訓(xùn)練數(shù)據(jù)上,,卻不推廣到新的測試數(shù)據(jù)。這背后的數(shù)學(xué)道理是:大型神經(jīng)網(wǎng)絡(luò)需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,,以避免它們學(xué)習(xí)到訓(xùn)練集中某個不重要的方面,,這在以前是研究人員面臨的一個重要的考驗。現(xiàn)今,,大公司的的數(shù)據(jù)收集和計算能力證明被是無價的,。這兩個學(xué)生在三個月的實習(xí)期間輕松地證明了深度學(xué)習(xí)的力量,而微軟研究院自那時起就一直處于深度學(xué)習(xí)語音識別的前沿,。 微軟不是第一家認(rèn)識到深度學(xué)習(xí)能力的大公司,,但很有可能是第一個。Hinton的另一名學(xué)生Navdeep Jaitly于2011年在Google做了暑期實習(xí),。在那里,,他致力于Google的語音識別,并表示他們現(xiàn)有的設(shè)置可以通過結(jié)合深度學(xué)習(xí)得到很大改進(jìn),。 改進(jìn)的方法很快就支持Android的語音識別,,取代了Google絕大多數(shù)現(xiàn)有的精心制作的解決方案。 除了這些謙遜的博士生對這些公司產(chǎn)品做出的巨大改變,,還有兩家公司我們不得不提,,就是持有開源態(tài)度的微軟和谷歌。就像IBM和Hinton的實驗室一樣,,這里在2012年誕生了題為“Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups”[10]的論文,。這一文章的研究人員分別來自四個研究小組,三個公司,。建立一個支持深度學(xué)習(xí)的包以供大學(xué)的科研小組使用,,來普及這項技術(shù)并推廣到更多的團(tuán)體,這樣一個想法從那以后似乎在科研界中被逐漸采納,。 但我們也不能因此說各大公司是出于慈善的角度才這樣做的,。這只是關(guān)于商業(yè)化技術(shù)的探索,當(dāng)然大多數(shù)都是屬于谷歌的,。但是發(fā)起人可能不是Hinton,,而是Ng博士,正是他提議谷歌成為世界最大的商業(yè)化探索者和技術(shù)的倡導(dǎo)者,。2011年,,Ng在訪問該公司時偶然會見了傳奇的Google員工Jeff Dean,并聊了他利用Google的計算資源訓(xùn)練神經(jīng)網(wǎng)絡(luò)的努力,。這成功的引起了Dean的注意,,也促成了谷歌大腦的形成——建立一個真正巨大的神經(jīng)網(wǎng)絡(luò),并探索他們可以做什么,。這項工作使得了無人監(jiān)管的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)達(dá)到了前所未有的規(guī)模 - 16,000個CPU核心可以學(xué)習(xí)高達(dá)10億的權(quán)重(為了比較,,Hinton2006年點DBN大概突破了100萬權(quán)重),。這個神經(jīng)網(wǎng)絡(luò)經(jīng)過對完全沒有標(biāo)簽的Youtube視頻進(jìn)行訓(xùn)練,最終學(xué)會了識別這些視頻中最常見的對象——互聯(lián)網(wǎng)中最容易帶來快樂的東西,,貓:
圖4.4 谷歌著名的神經(jīng)網(wǎng)絡(luò),,就是該網(wǎng)絡(luò)學(xué)會了小貓。這是對一個神經(jīng)元的最好輸入
小貓不但可愛,,還用重要意義,。正如在定期發(fā)表的論文中描述的,該模型所學(xué)到的特征可用于在標(biāo)準(zhǔn)計算機(jī)視覺上記錄基本的設(shè)置性能[11],。 因此,,Google內(nèi)部用于訓(xùn)練數(shù)據(jù)大規(guī)模的神經(jīng)網(wǎng)絡(luò)工具誕生了,他們?nèi)匀焕^續(xù)發(fā)展,。 因此2006年開始的深度學(xué)習(xí)研究浪潮毫無疑問的把谷歌推入了行業(yè)之中,。
三、機(jī)器學(xué)習(xí)的繁榮期
在工業(yè)界依然開始研究深度學(xué)習(xí)的時候,,學(xué)術(shù)界也很難保持靜止了,。在發(fā)現(xiàn)對GPU的利用和計算能力大大增強(qiáng),我們不禁想到那個很早以前的問題:為什么反向傳播效果不好,?對于為何舊算法效果不好而不是為何新算法效果好的思考,,促成了Xavier Glort 和Yoshua Bengio2010年發(fā)表的論文“Understanding the difficulty of training deep feedforward neural networks” [12]。文中他們討論了兩個非常有意義的發(fā)現(xiàn): 1,、為什么在神經(jīng)網(wǎng)絡(luò)中對神經(jīng)元選擇特定的非線性激活函數(shù)會對性能產(chǎn)生巨大的影響,,通常情況下默認(rèn)的非線性激活函數(shù)不是一個很好的選擇。 2,、隨機(jī)選擇權(quán)重并不是那么有問題,,就如同不考慮是哪一層來選擇隨機(jī)權(quán)重。過去的梯度消失問題是因為反向傳播涉及到一系列乘法運算,,這會導(dǎo)致前層的導(dǎo)數(shù)較小,。這就意味著,,我們要根據(jù)所在層的不同來選擇權(quán)重,,這將會帶來性能上的顯著改變。
圖4.5 不同的激勵函數(shù),,ReLU代表非線性修正單元
第二點就是為了結(jié)局第一點提出的問題:“什么是最好的激勵函數(shù),?”三個不同的小組研究了這個問題(LeCun的團(tuán)隊討論“對象識別領(lǐng)域什么事最好的多級架構(gòu)?”[13],,Hinton的團(tuán)隊討論“線性修正單元改進(jìn)玻爾茲曼機(jī)”[14],,Bengio的團(tuán)隊討論“深度稀疏編碼神經(jīng)網(wǎng)絡(luò)”[15])他們的研究都指向了一個讓人震驚的答案:非常不可微和非常簡單的函數(shù)f(x)= max(0,x)往往是最好的,。吃驚之處就在于方程是嚴(yán)格不可微的,,或者是在0處嚴(yán)格不可微,,所以該方程的數(shù)學(xué)表達(dá)式往往是十分丑陋的。很明顯零的情況是一種數(shù)學(xué)詭辯,,問題在于,,為什么這樣一個在0的兩側(cè)連續(xù)導(dǎo)數(shù)都是0的方程,會有這樣好的效果,?答案似乎還不明確,,但是我們有一些相關(guān)的想法: 1、修正函數(shù)導(dǎo)致稀疏表示,,這就意味著只有少部分的神經(jīng)元對于任何給定的輸入需要輸出一個非零值,。在倡導(dǎo)修正函數(shù)的幾年中,稀疏性被證明是有益的,,因為它不僅可以以更魯棒的方式來表示信息,,還可以更顯著大提升計算效率(如果大多數(shù)神經(jīng)元都輸出零,那么我們可以忽略大多數(shù)的問題并且更快的計算數(shù)據(jù)),。順便提一下,,計算神經(jīng)科學(xué)的科研人員首先提出了稀疏計算在大腦視覺環(huán)境中的重要性,這比其應(yīng)用于機(jī)器學(xué)習(xí)領(lǐng)域早了10年,。 2,、簡單的函數(shù)以及其簡單的導(dǎo)數(shù)使得該函數(shù)的工作速度比指數(shù)型的sigmoid 或是 三角型的tanh快很多。就如同對GPU的使用,,這不僅可以提升一小部分性能,,這甚至可以作為可以在神經(jīng)網(wǎng)絡(luò)擴(kuò)展方面可以做出挑戰(zhàn)性突破的點。 3,、后來,,一篇由Andrew Ng合著的題為“Rectifier Nonlinearities Impro Neural Network Acoustic Models”[16]的論文,也分析了ReLU函數(shù)的常為0或1的微分并不會對學(xué)習(xí)過程造成不利影響,。甚至它還有助于避免梯度消失的問題,,而這些問題都是反向傳播算法中不可避免的。此外除了可以產(chǎn)生更多稀疏表示之外,,它還可以產(chǎn)生分布式的表示——這就意味著可以組合導(dǎo)出多個不同神經(jīng)元的值,,而不是定位到單個神經(jīng)元。 在這一點上,,我們可以知道,,2006年的發(fā)現(xiàn)——無監(jiān)督的預(yù)訓(xùn)練,在深度學(xué)習(xí)之中不是必要的,。雖然毫無疑問,,無監(jiān)督的預(yù)訓(xùn)練是有幫助的,但是在另外一些情況下,,監(jiān)督訓(xùn)練可以比無監(jiān)督訓(xùn)練有更好的結(jié)果,,因為監(jiān)督訓(xùn)練擁有爭取的權(quán)值和激勵函數(shù),。所以,為什么過去監(jiān)督模型和反向傳播不能很好的工作,? Geoffrey Hinton總結(jié)了時至今日的四點發(fā)現(xiàn):
1,、我們的標(biāo)簽數(shù)據(jù)比要求的小了上千倍。 2,、我們的電腦比要求的慢了上百萬倍,。 3、我們很愚蠢的初始化了權(quán)重,。 4,、我們是用了錯誤的非線性激勵函數(shù)。
所以,,經(jīng)過幾十年的刻苦研究,,我們知道: 深度學(xué)習(xí)=大量的訓(xùn)練數(shù)據(jù) 并行計算 可擴(kuò)展的智能算法
圖4.6 深度學(xué)習(xí)中的計算機(jī)視覺“配方”
不是所有的事情都要把其中的細(xì)節(jié)弄的清楚明白。恰恰相反:人類的直覺往往是錯誤的,。特別是毫無疑問的決定和假設(shè)往往是值得質(zhì)疑的,。提出并解答簡單的問題,這才是提高最先進(jìn)的技術(shù)的正確方式,。正是這種一直發(fā)生的行為,,才導(dǎo)致機(jī)器學(xué)習(xí)領(lǐng)域更多的想法和方法被探索喝共享。舉個例子:Hinton等人的“Improving neural networks by preventing co-adaptation of feature detectors”[17]這一想法很簡單——在訓(xùn)練中假設(shè)一些神經(jīng)元離線以防止過度擬合,。這種被稱為Dropout的簡單想法,,是一種非常有效的進(jìn)行集成學(xué)習(xí)的方法,該算法可以對同一個訓(xùn)練集以不同的方式進(jìn)行學(xué)習(xí),。機(jī)器學(xué)習(xí)技術(shù)發(fā)展到今天,,隨機(jī)森林也被認(rèn)為是一種有效的集成學(xué)習(xí)的方式。盡管訓(xùn)練多個不同的神經(jīng)網(wǎng)絡(luò)技術(shù)上是可行的,,但是代價也是十分昂貴的,,但是這個簡單的想法卻在本質(zhì)上實現(xiàn)了相同的目的。 但是2006年之后,,讓這些計算機(jī)視覺團(tuán)體或其他研究人員再次重視神經(jīng)網(wǎng)絡(luò)的并不是這些研究發(fā)現(xiàn),。而是另外一種不高尚的方式:對其他非深度學(xué)習(xí)方法進(jìn)行了一次碾壓。Geoffrey Hinton招募了他的兩個半途而廢的合作者Alex Krizhevsky和Ilya Sutskever,,他們共同參加了ILSVRC-2012計算機(jī)視覺競賽,。今日理解他們的工作十分簡單,,其思想已經(jīng)在“ImageNet Classification with deep convolutional neural networks”[18]中闡述,,組合起一些古老的概念(一個擁有池層和卷基層的CNN,輸入數(shù)據(jù)有所改變),,和幾個創(chuàng)新點(高效的GPU實現(xiàn),,ReLU激勵函數(shù),,Dropout),而這些組合起來正式現(xiàn)代深度學(xué)習(xí),。然后他們碾壓了所有其他參賽者,,他們作為第一名的錯誤率僅有15.3%,遠(yuǎn)遠(yuǎn)高于第二名的26.2%,。這是在該比賽歷史上第一次也是唯一一次出現(xiàn)CNN的項目,,這一跡象表明,CNN和一般的深度學(xué)習(xí)不同,,算機(jī)視覺必須要認(rèn)真對待?,F(xiàn)在,競爭的所有算法幾乎都是CNN——那個由Yann LeCun 1989年提出的神經(jīng)網(wǎng)絡(luò)模型,。還記得90年代由Sepp Hochreiter和JürgenSchmidhuber設(shè)計的用以解決反向傳播問題的LSTM嗎,?這個限制是解決語音處理的首選方案。 這一事件就是整個學(xué)術(shù)屆的轉(zhuǎn)折點,。一波遠(yuǎn)遠(yuǎn)超過其他技術(shù)的機(jī)器學(xué)習(xí)的浪潮終于襲來,,誰都不能否認(rèn)深度學(xué)習(xí)的成就。我們在最開始就把這種浪潮比做海嘯,,現(xiàn)在它終于成長到了這一天,,在經(jīng)歷了那么多的寒冬以后,深度學(xué)習(xí)就這樣屹立在這兒,,再無寒冬可見,。
圖4.7 一些深度學(xué)習(xí)關(guān)鍵人物的論文索引數(shù)量,相信不需要我指出2012年以后的變化趨勢,,數(shù)據(jù)來源于谷歌學(xué)術(shù),。
四、最先進(jìn)的技術(shù) 如果這是一部電影,,那么無疑2012年的ImageNet大賽可以作為高潮,。下面我們要具體介紹一下他們現(xiàn)在還在哪:Yann LeCun - Facebook;Geoffrey Hinton - Google,;Andrew Ng - Coursera,,Google,百度(譯者注,,吳恩達(dá)已于2014年5月16日離職google,,任百度人工智能首席科學(xué)家);Bengio,,Schmidhuber和Hochreiter仍然在學(xué)術(shù)界(譯者注,,在實驗室Maluuba被微軟收購后,Yoshua Bengio已于2017年1月14日稱為微軟的科學(xué)家),還有一些其他未被提到研究人員/研究生[19],。事實上,,正是這些人在機(jī)器學(xué)習(xí)領(lǐng)域深耕幾十年(甚至被學(xué)術(shù)界所拋棄),才換來深度學(xué)習(xí)今日的成就,。與以往的研究工作相比,,這些人的想法仍然是十分開放的,甚至所有公司都是采購他們的深度學(xué)習(xí)框架,,就像一種工業(yè)界引導(dǎo)學(xué)術(shù)界的傳奇故事,。 不會妄自菲薄的認(rèn)為自己可以在一部分里面總結(jié)近幾年的研究成果,因為這幾年機(jī)器學(xué)習(xí)的科研成果層出不窮,,我很清楚我們是無法在一部分里面全部列出的,。也許有一天我們會通過五個部分把這些成果完成的故事列出來,下面我們來對做一個簡介:
1,、LSTM和RNN通過分布式的方式重現(xiàn)“想法”
圖4.8 去年的研究成果
2,、使用深度學(xué)習(xí)的強(qiáng)化學(xué)習(xí)(這一次更好了)https:///V1eYniJ0Rnk(來源于youtube的視頻)
3、添加外部可讀寫存儲器的神經(jīng)網(wǎng)絡(luò)
https:///U_Wgc1JOsBk(來源于youtube的視頻)
|
|