神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)簡史（四）

若浪出雲(yún) 2017-09-04

展開全文

“問問機(jī)器學(xué)習(xí)從業(yè)者,，究竟是什么還在維持著奄奄一息的神經(jīng)網(wǎng)絡(luò)？你可能會聽到以下三個人名中的一個：Geoffrey Hinton,，加拿大的Yoshua Bengio,，或是Facebook的Yann LeCun?！盵1]

一,、深度學(xué)習(xí)計劃

當(dāng)你想要發(fā)動一場革命，你就要從陰謀開始,。隨著支持向量機(jī)（SVM）的成功以及反向傳播的失敗,，神經(jīng)網(wǎng)絡(luò)的研究在21世紀(jì)迎來了黑暗時期。LeCun和Hinton不約而同的提到了他們或他們學(xué)生的論文，在那樣一個時期是如何被拒絕出版的,，而原因僅僅是他們的主題是有關(guān)神經(jīng)網(wǎng)絡(luò)的,。最上方的引言可能有一些夸張的成分，還是有一些人在從事機(jī)器學(xué)習(xí)和人工智能的研究,，他們也還在使用神經(jīng)網(wǎng)絡(luò),，但是他們自己也清楚神經(jīng)網(wǎng)絡(luò)的研究已經(jīng)陷入了一個低谷。堅持這一研究的他們找到了一個強(qiáng)大的盟友：加拿大政府,。加拿大的高級研究所（CIFAR）出資資助他們從事這種沒有實際應(yīng)用的基礎(chǔ)科學(xué)的研究，而這也在1987年促使Hinton搬到加拿大繼續(xù)他的研究,。然而,，隨著90年代中期社會對神經(jīng)網(wǎng)絡(luò)的態(tài)度再一次反轉(zhuǎn)，資助資金取消了,，但Hinton并沒有放棄它的研究,，它設(shè)法繼續(xù)從CIFAR獲得資金，以供自己繼續(xù)從事神經(jīng)網(wǎng)絡(luò)的研究,。

“2004年,，Hinton要求推動一個新的神經(jīng)計算，主流機(jī)器學(xué)習(xí)社區(qū)不可能對神經(jīng)網(wǎng)絡(luò)一點興趣也沒有,?！?/em>

   “這可能是最糟糕的時間?！?/em>CIFAR的聯(lián)合發(fā)起者,，來自蒙特利爾大學(xué)的Bengio如此說道。“從去年開始,，大家都在忙著不同的事情,，但是不知怎的，Geoff說服了他們”,，

“我們應(yīng)該給CIFAR一點信心,，好讓他們愿意加入這個計劃?！?/em>

CIFAR“對機(jī)器學(xué)習(xí)社區(qū)的建立起到了巨大的作用,。” CIFAR的另一位聯(lián)合發(fā)起者LeCun補(bǔ)充到,，“我們有點被廣義的機(jī)器學(xué)習(xí)社區(qū)拋棄了的意味：我們的論文無法發(fā)表,。但這給了我們一個可以交流想法的平臺”

盡管資金不多，但也足夠一小群研究人員繼續(xù)工作了,。正如Hinton自己所說,，他們通過把神經(jīng)網(wǎng)絡(luò)改名為深度學(xué)習(xí)這樣一種陰謀方式，來繼續(xù)對神經(jīng)網(wǎng)絡(luò)進(jìn)行研究,。然后,，每一個神經(jīng)網(wǎng)絡(luò)研究者希望看到的事情發(fā)生了：Hinton, Simon Osindero, 和Yee-Whye在2006年發(fā)表了一篇被認(rèn)為可以重新燃起社會對神經(jīng)網(wǎng)絡(luò)的興趣點文章：一種可以實現(xiàn)快速學(xué)習(xí)的深度信念網(wǎng)絡(luò)[2],。盡管這些算法已經(jīng)被新的算法所取代，但是我們已經(jīng)初步看到了“深度學(xué)習(xí)”的端倪,。比這個名字更重要的是,，如果權(quán)重可以以更好的方式來代替隨機(jī)初始化，多層神經(jīng)網(wǎng)絡(luò)可以被訓(xùn)練得很好,。Hinton曾經(jīng)這樣表示：

   “這是一個歷史性的時刻,，這個時刻我們克服了對神經(jīng)網(wǎng)絡(luò)的成見。這些成見認(rèn)為神經(jīng)網(wǎng)絡(luò)不好,，永遠(yuǎn)都不會訓(xùn)練,。前不久我的一個朋友向國際機(jī)器學(xué)習(xí)會議（ICML）投稿，但是評審拒絕了他,，僅僅是因為文章的內(nèi)容是關(guān)于神經(jīng)網(wǎng)絡(luò),。可以查ICML近幾年的收錄記錄,，沒有任何一篇文章是有關(guān)神經(jīng)網(wǎng)絡(luò)的,。所以IEEE期刊應(yīng)該是又一個‘不接受神經(jīng)網(wǎng)絡(luò)’的官方政策。所以這是一個重要的時刻”

圖4.1 限制玻爾茲曼機(jī)



那么我們究竟應(yīng)該怎么聰明的初始化權(quán)重,？基本思想是逐層的對每一層神經(jīng)網(wǎng)絡(luò)進(jìn)行無監(jiān)督訓(xùn)練,，起始權(quán)重是一些隨機(jī)值，然后想常規(guī)神經(jīng)網(wǎng)絡(luò)的完成一次監(jiān)督學(xué)習(xí),。每層都會以一個受限玻爾茲曼機(jī)作為開始,，并把它作為隱含層之間的可見單元的連接點，以無監(jiān)督的方式來訓(xùn)練生成模型,。事實證明,，這種訓(xùn)練方式可以按照Hinton在2002年的論文“Training Products of Experts by Minimizing Contrastive Divergence”[3]中提及的方式進(jìn)行，并取得不錯的成果,。該算法不僅使單元產(chǎn)生訓(xùn)練數(shù)據(jù)的可能性最大化,，還被證實訓(xùn)練結(jié)果十分理想。算法如下：

1,、在RBM上使用對比-散度的方式訓(xùn)練數(shù)據(jù),。這是信念網(wǎng)絡(luò)的第一層。

2,、對通過RBM的數(shù)據(jù)生成隱含值,，并使用這些隱含值來訓(xùn)練另外一個RBM。把這些隱含值“堆”在第一層,，并保持權(quán)重在想用的方向,，形成一個信念網(wǎng)。這是第二層。

3,、重復(fù)第二部,，直到達(dá)到需求的信念網(wǎng)的層數(shù)。

4,、如果需要分類,，則需要添加對應(yīng)分類標(biāo)簽的一組隱藏單元，并對喚醒睡眠的的算法作出微調(diào)來調(diào)整權(quán)重,。這種無監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)組合的方式通常被稱為半監(jiān)督學(xué)習(xí),。

圖4.2 Hinton介紹的分層預(yù)訓(xùn)練

該文結(jié)尾處表示，深度信念網(wǎng)絡(luò)（DBNs）對于標(biāo)準(zhǔn)的MNIST識別字符數(shù)據(jù)集具有最優(yōu)性能,，明顯優(yōu)于只有幾層的神經(jīng)網(wǎng)絡(luò),。Yoshua Bengio等人在2007年的論文“Greedy Layer-Wise Training of Deep Networks”[4]中，提出了一個強(qiáng)有力的證明,，證明了深層機(jī)器學(xué)習(xí)方法（有許多步的算法，或等價于有很多維的特征的數(shù)據(jù)）,，在處理復(fù)雜的問題比簡單的算法（有兩層的ANN或是支持想理機(jī)之類的算法）更加有效,。

圖4.3 另外一個無監(jiān)督與訓(xùn)練的觀點，使用自動編碼器來代替RBM

他們還提出了添加無監(jiān)督訓(xùn)練的原因和結(jié)果,，因為這樣不僅可以以更優(yōu)化待方式初始化權(quán)重,，更重要的是還可以對數(shù)據(jù)進(jìn)行更有代表性的學(xué)習(xí)。事實上,，使用RBM并不是那么重要,，使用反向傳播或普通自動編碼器的正常神經(jīng)網(wǎng)絡(luò)層的無監(jiān)督的預(yù)訓(xùn)練效果也很好。同樣,，稀疏編碼也表明無監(jiān)督特征學(xué)習(xí)是一種提高監(jiān)督學(xué)習(xí)性能的方式,。

所以，深度網(wǎng)絡(luò)的真正關(guān)鍵之處在于,，多層的計算單元可以更好的訓(xùn)練高維原始數(shù)據(jù),。這與傳統(tǒng)的手動設(shè)計特征提取方法，再進(jìn)行特征學(xué)習(xí)的方式大相徑庭,。Hinton和Bengio的工作也證明了這個事實,，更重要的是打破了深度神經(jīng)網(wǎng)絡(luò)不能被良好的訓(xùn)練這樣一個誤解。盡管LeCun已經(jīng)證明了CNNs,，但神經(jīng)網(wǎng)絡(luò)仍然是去了青睞,。Bengio與Yann LeCun一同在論文 “Scaling Algorithms Towards AI”[5]重申了這一點：



“直到最近，有很多人都認(rèn)為深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法太難優(yōu)化,。然而至少有兩種不同的方法已經(jīng)被證明了在此種架構(gòu)下是很有效的：一是基于卷積神經(jīng)網(wǎng)絡(luò)的簡單梯度下降法[LeCun等人在1989年,、1998年論證]，該算法在（圖像和信號領(lǐng)域）逐層進(jìn)行無監(jiān)督學(xué)習(xí)。二是梯度下降法[2006年Hinton等人,，2007年Bengio等人,，2006年Ranzato等人]。深度學(xué)習(xí)架構(gòu)仍處于起步階段,，更好的深度學(xué)習(xí)算法仍有待發(fā)現(xiàn),。從更廣闊的角度來看，我們?nèi)孕枰粋€指引AI未來發(fā)展方向的原則,。我們希望通過鼓勵他人,，大家一起尋找解決通過機(jī)器學(xué)習(xí)方式來解決AI的方法?！?/em>

  盡管深度學(xué)習(xí)還沒有獲得今日一般的科研熱潮,，但他們確實在開始并進(jìn)行一些鼓勵性工作，深度學(xué)習(xí)的浪潮也因此開始涌動了,。但是,，論文中這些被證實有效的算法大多數(shù)是針對MNIST數(shù)據(jù)集，這時候MNIST數(shù)據(jù)集作為一個經(jīng)典的機(jī)器學(xué)習(xí)任務(wù)已經(jīng)成為了算法的標(biāo)準(zhǔn)基準(zhǔn)近十年了,。Hinton在2006的論文在測試機(jī)上取得了驚人的1.25％的錯誤率,，但是SVM也取得了1.4%的錯誤率，簡單的算法也可以得到很低的錯誤率,。Yann LeCun在1998年使用CNN證明了錯誤率僅為0.95％,。

所以在MNIST上成績好并不見得是什么大本事。這個時候,，是深度學(xué)習(xí)登上歷史舞臺了,。Hinton和他的兩個研究生Abdel-rahman Mohamed和George Dahl，完成了一個更具有挑戰(zhàn)性的AI任務(wù)：語音識別[6],。使用DBN,，Hinton和這兩個學(xué)生在一個標(biāo)準(zhǔn)語音識別數(shù)據(jù)集改進(jìn)了一個塵封了10年的記錄。這是一個令人深刻的成就,，但今天看起來似乎暗示著什么：越來越堵的記錄逐漸被打破了,。

二、硬件的重要性

上述算法的出現(xiàn)無疑促進(jìn)了深度學(xué)習(xí)的發(fā)展,，但是深度學(xué)習(xí)的進(jìn)不來不開另外一個重要組成部分：從上世紀(jì)90年代以來就在不斷進(jìn)步計算能力,。根據(jù)摩爾定律，90年代以來的計算機(jī)的運算速度已經(jīng)提高了十幾倍,，這使得大數(shù)據(jù)的采集和多層學(xué)習(xí)變得更加容易,。但是這還遠(yuǎn)遠(yuǎn)不夠，CPU的運算能力開始達(dá)到頂點,，而計算機(jī)也開始通過幾個CPU并行的方式來增加計算機(jī)的功率,，為了學(xué)習(xí)深度學(xué)習(xí)中上百萬的節(jié)點的權(quán)重,，我們必須大幅度克服CPU并行處理的局限性，并采取大規(guī)模GPU并行的方式來增強(qiáng)計算能力,。為了更好了理解這一點,，我們來看看Abdel-rahman Mohamed，George Dahl和Geoff Hinton是如何提升他們的語音識別算法的性能的[7],。



“受到Hinton一篇關(guān)于深度神經(jīng)網(wǎng)絡(luò)的演講的啟發(fā),，Mohamed開始將這一算法應(yīng)用到語音識別，但是深度神經(jīng)網(wǎng)絡(luò)需要太多的計算機(jī)來提升計算能力,，所以Hinton和Mohamed拉上了Dahl,。Dahl是Hinton實驗室的學(xué)生，他已經(jīng)開始使用相同規(guī)格的高端顯卡來訓(xùn)練和模擬神經(jīng)網(wǎng)絡(luò)了,，而這些高端顯卡是用來提升電腦游戲畫面的,。”

他們采用相同的方法來識別短的語音窗口中的音素片段的問題，Hinton表示,，該方法可以是結(jié)果獲得顯著的提升,。

這種情況很難明確的表示使用GPU比CPU效果具體好多少，同年的“Large-scale Deep Unsupervised Learning using Graphics Processors” [8]大賽給出了明確的數(shù)字：75倍,！70倍的速度將會把幾周的工作量簡化為幾天,，甚至一天就可以完成。包括著名的機(jī)器學(xué)習(xí)研究者Andrew Ng在內(nèi)的眾多稀疏編碼研究者,，開始逐漸意識到大家過多的重視算法的變化，卻忽略了對數(shù)據(jù)量以及算法速度的利用,。這樣的想法在2010年出版的“Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition”[9]里面得到了強(qiáng)烈的支持,，該文的作者是LTSM的聯(lián)合創(chuàng)始人之一的J. Schmidhuber，該文表示大規(guī)模的神經(jīng)網(wǎng)絡(luò),、輸入上的多種變化以及高效的GPU實現(xiàn),，可以在MNIST數(shù)據(jù)集上實現(xiàn)驚人的0.35%的錯誤率。這樣的算法已經(jīng)存在了幾十年,，雖然不能否認(rèn)算法也在進(jìn)步,，但是這個結(jié)果無疑表明大的數(shù)據(jù)量和快速并行計算能力同樣重要。

  Dahl和Mohamed使用GPU來打破的紀(jì)錄盡管很小,，但也足以使他們成為微軟研究院的實習(xí)生,。在這里，他們接觸到了另外一種計算趨勢：大數(shù)據(jù),。大數(shù)據(jù)作為一個很寬泛的概念,，卻很容易在機(jī)器學(xué)習(xí)中被理解，大數(shù)據(jù)代表著大量的訓(xùn)練數(shù)據(jù),。大量的訓(xùn)練數(shù)據(jù)才似得神經(jīng)網(wǎng)絡(luò)達(dá)到了現(xiàn)在的高度,，神經(jīng)網(wǎng)絡(luò)過去太過于工作在訓(xùn)練數(shù)據(jù)上,，卻不推廣到新的測試數(shù)據(jù)。這背后的數(shù)學(xué)道理是：大型神經(jīng)網(wǎng)絡(luò)需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,，以避免它們學(xué)習(xí)到訓(xùn)練集中某個不重要的方面,，這在以前是研究人員面臨的一個重要的考驗。現(xiàn)今,，大公司的的數(shù)據(jù)收集和計算能力證明被是無價的,。這兩個學(xué)生在三個月的實習(xí)期間輕松地證明了深度學(xué)習(xí)的力量，而微軟研究院自那時起就一直處于深度學(xué)習(xí)語音識別的前沿,。

微軟不是第一家認(rèn)識到深度學(xué)習(xí)能力的大公司,，但很有可能是第一個。Hinton的另一名學(xué)生Navdeep Jaitly于2011年在Google做了暑期實習(xí),。在那里,，他致力于Google的語音識別，并表示他們現(xiàn)有的設(shè)置可以通過結(jié)合深度學(xué)習(xí)得到很大改進(jìn),。改進(jìn)的方法很快就支持Android的語音識別,，取代了Google絕大多數(shù)現(xiàn)有的精心制作的解決方案。

除了這些謙遜的博士生對這些公司產(chǎn)品做出的巨大改變,，還有兩家公司我們不得不提,，就是持有開源態(tài)度的微軟和谷歌。就像IBM和Hinton的實驗室一樣,，這里在2012年誕生了題為“Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups”[10]的論文,。這一文章的研究人員分別來自四個研究小組，三個公司,。建立一個支持深度學(xué)習(xí)的包以供大學(xué)的科研小組使用,，來普及這項技術(shù)并推廣到更多的團(tuán)體，這樣一個想法從那以后似乎在科研界中被逐漸采納,。

但我們也不能因此說各大公司是出于慈善的角度才這樣做的,。這只是關(guān)于商業(yè)化技術(shù)的探索，當(dāng)然大多數(shù)都是屬于谷歌的,。但是發(fā)起人可能不是Hinton,，而是Ng博士，正是他提議谷歌成為世界最大的商業(yè)化探索者和技術(shù)的倡導(dǎo)者,。2011年,，Ng在訪問該公司時偶然會見了傳奇的Google員工Jeff Dean，并聊了他利用Google的計算資源訓(xùn)練神經(jīng)網(wǎng)絡(luò)的努力,。這成功的引起了Dean的注意,，也促成了谷歌大腦的形成——建立一個真正巨大的神經(jīng)網(wǎng)絡(luò)，并探索他們可以做什么,。這項工作使得了無人監(jiān)管的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)達(dá)到了前所未有的規(guī)模 - 16,000個CPU核心可以學(xué)習(xí)高達(dá)10億的權(quán)重（為了比較,，Hinton2006年點DBN大概突破了100萬權(quán)重）,。這個神經(jīng)網(wǎng)絡(luò)經(jīng)過對完全沒有標(biāo)簽的Youtube視頻進(jìn)行訓(xùn)練，最終學(xué)會了識別這些視頻中最常見的對象——互聯(lián)網(wǎng)中最容易帶來快樂的東西,，貓：

圖4.4 谷歌著名的神經(jīng)網(wǎng)絡(luò),，就是該網(wǎng)絡(luò)學(xué)會了小貓。這是對一個神經(jīng)元的最好輸入

小貓不但可愛,，還用重要意義,。正如在定期發(fā)表的論文中描述的，該模型所學(xué)到的特征可用于在標(biāo)準(zhǔn)計算機(jī)視覺上記錄基本的設(shè)置性能[11],。因此,，Google內(nèi)部用于訓(xùn)練數(shù)據(jù)大規(guī)模的神經(jīng)網(wǎng)絡(luò)工具誕生了，他們?nèi)匀焕^續(xù)發(fā)展,。因此2006年開始的深度學(xué)習(xí)研究浪潮毫無疑問的把谷歌推入了行業(yè)之中,。

三、機(jī)器學(xué)習(xí)的繁榮期



在工業(yè)界依然開始研究深度學(xué)習(xí)的時候,，學(xué)術(shù)界也很難保持靜止了,。在發(fā)現(xiàn)對GPU的利用和計算能力大大增強(qiáng)，我們不禁想到那個很早以前的問題：為什么反向傳播效果不好,？對于為何舊算法效果不好而不是為何新算法效果好的思考,，促成了Xavier Glort 和Yoshua Bengio2010年發(fā)表的論文“Understanding the difficulty of training deep feedforward neural networks” [12]。文中他們討論了兩個非常有意義的發(fā)現(xiàn)：

1,、為什么在神經(jīng)網(wǎng)絡(luò)中對神經(jīng)元選擇特定的非線性激活函數(shù)會對性能產(chǎn)生巨大的影響,，通常情況下默認(rèn)的非線性激活函數(shù)不是一個很好的選擇。

2,、隨機(jī)選擇權(quán)重并不是那么有問題,，就如同不考慮是哪一層來選擇隨機(jī)權(quán)重。過去的梯度消失問題是因為反向傳播涉及到一系列乘法運算,，這會導(dǎo)致前層的導(dǎo)數(shù)較小,。這就意味著,，我們要根據(jù)所在層的不同來選擇權(quán)重,，這將會帶來性能上的顯著改變。

圖4.5 不同的激勵函數(shù),，ReLU代表非線性修正單元

第二點就是為了結(jié)局第一點提出的問題：“什么是最好的激勵函數(shù),？”三個不同的小組研究了這個問題（LeCun的團(tuán)隊討論“對象識別領(lǐng)域什么事最好的多級架構(gòu)？”[13],，Hinton的團(tuán)隊討論“線性修正單元改進(jìn)玻爾茲曼機(jī)”[14],，Bengio的團(tuán)隊討論“深度稀疏編碼神經(jīng)網(wǎng)絡(luò)”[15]）他們的研究都指向了一個讓人震驚的答案：非常不可微和非常簡單的函數(shù)f（x）= max（0，x）往往是最好的,。吃驚之處就在于方程是嚴(yán)格不可微的,，或者是在0處嚴(yán)格不可微,，所以該方程的數(shù)學(xué)表達(dá)式往往是十分丑陋的。很明顯零的情況是一種數(shù)學(xué)詭辯,，問題在于,，為什么這樣一個在0的兩側(cè)連續(xù)導(dǎo)數(shù)都是0的方程，會有這樣好的效果,？答案似乎還不明確,，但是我們有一些相關(guān)的想法：

1、修正函數(shù)導(dǎo)致稀疏表示,，這就意味著只有少部分的神經(jīng)元對于任何給定的輸入需要輸出一個非零值,。在倡導(dǎo)修正函數(shù)的幾年中，稀疏性被證明是有益的,，因為它不僅可以以更魯棒的方式來表示信息,，還可以更顯著大提升計算效率（如果大多數(shù)神經(jīng)元都輸出零，那么我們可以忽略大多數(shù)的問題并且更快的計算數(shù)據(jù)）,。順便提一下,，計算神經(jīng)科學(xué)的科研人員首先提出了稀疏計算在大腦視覺環(huán)境中的重要性，這比其應(yīng)用于機(jī)器學(xué)習(xí)領(lǐng)域早了10年,。

2,、簡單的函數(shù)以及其簡單的導(dǎo)數(shù)使得該函數(shù)的工作速度比指數(shù)型的sigmoid 或是三角型的tanh快很多。就如同對GPU的使用,，這不僅可以提升一小部分性能,，這甚至可以作為可以在神經(jīng)網(wǎng)絡(luò)擴(kuò)展方面可以做出挑戰(zhàn)性突破的點。

3,、后來,，一篇由Andrew Ng合著的題為“Rectifier Nonlinearities Impro Neural Network Acoustic Models”[16]的論文，也分析了ReLU函數(shù)的常為0或1的微分并不會對學(xué)習(xí)過程造成不利影響,。甚至它還有助于避免梯度消失的問題,，而這些問題都是反向傳播算法中不可避免的。此外除了可以產(chǎn)生更多稀疏表示之外,，它還可以產(chǎn)生分布式的表示——這就意味著可以組合導(dǎo)出多個不同神經(jīng)元的值,，而不是定位到單個神經(jīng)元。

在這一點上,，我們可以知道,，2006年的發(fā)現(xiàn)——無監(jiān)督的預(yù)訓(xùn)練，在深度學(xué)習(xí)之中不是必要的,。雖然毫無疑問,，無監(jiān)督的預(yù)訓(xùn)練是有幫助的，但是在另外一些情況下,，監(jiān)督訓(xùn)練可以比無監(jiān)督訓(xùn)練有更好的結(jié)果,，因為監(jiān)督訓(xùn)練擁有爭取的權(quán)值和激勵函數(shù),。所以，為什么過去監(jiān)督模型和反向傳播不能很好的工作,？ Geoffrey Hinton總結(jié)了時至今日的四點發(fā)現(xiàn)：

1,、我們的標(biāo)簽數(shù)據(jù)比要求的小了上千倍。

2,、我們的電腦比要求的慢了上百萬倍,。

3、我們很愚蠢的初始化了權(quán)重,。

4,、我們是用了錯誤的非線性激勵函數(shù)。

所以,，經(jīng)過幾十年的刻苦研究,，我們知道：

深度學(xué)習(xí)=大量的訓(xùn)練數(shù)據(jù) 并行計算可擴(kuò)展的智能算法



圖4.6 深度學(xué)習(xí)中的計算機(jī)視覺“配方”

不是所有的事情都要把其中的細(xì)節(jié)弄的清楚明白。恰恰相反：人類的直覺往往是錯誤的,。特別是毫無疑問的決定和假設(shè)往往是值得質(zhì)疑的,。提出并解答簡單的問題，這才是提高最先進(jìn)的技術(shù)的正確方式,。正是這種一直發(fā)生的行為,，才導(dǎo)致機(jī)器學(xué)習(xí)領(lǐng)域更多的想法和方法被探索喝共享。舉個例子：Hinton等人的“Improving neural networks by preventing co-adaptation of feature detectors”[17]這一想法很簡單——在訓(xùn)練中假設(shè)一些神經(jīng)元離線以防止過度擬合,。這種被稱為Dropout的簡單想法,，是一種非常有效的進(jìn)行集成學(xué)習(xí)的方法，該算法可以對同一個訓(xùn)練集以不同的方式進(jìn)行學(xué)習(xí),。機(jī)器學(xué)習(xí)技術(shù)發(fā)展到今天,，隨機(jī)森林也被認(rèn)為是一種有效的集成學(xué)習(xí)的方式。盡管訓(xùn)練多個不同的神經(jīng)網(wǎng)絡(luò)技術(shù)上是可行的,，但是代價也是十分昂貴的,，但是這個簡單的想法卻在本質(zhì)上實現(xiàn)了相同的目的。

但是2006年之后,，讓這些計算機(jī)視覺團(tuán)體或其他研究人員再次重視神經(jīng)網(wǎng)絡(luò)的并不是這些研究發(fā)現(xiàn),。而是另外一種不高尚的方式：對其他非深度學(xué)習(xí)方法進(jìn)行了一次碾壓。Geoffrey Hinton招募了他的兩個半途而廢的合作者Alex Krizhevsky和Ilya Sutskever,，他們共同參加了ILSVRC-2012計算機(jī)視覺競賽,。今日理解他們的工作十分簡單,，其思想已經(jīng)在“ImageNet Classification with deep convolutional neural networks”[18]中闡述,，組合起一些古老的概念（一個擁有池層和卷基層的CNN，輸入數(shù)據(jù)有所改變）,，和幾個創(chuàng)新點（高效的GPU實現(xiàn),，ReLU激勵函數(shù),，Dropout），而這些組合起來正式現(xiàn)代深度學(xué)習(xí),。然后他們碾壓了所有其他參賽者,，他們作為第一名的錯誤率僅有15.3%，遠(yuǎn)遠(yuǎn)高于第二名的26.2%,。這是在該比賽歷史上第一次也是唯一一次出現(xiàn)CNN的項目,，這一跡象表明，CNN和一般的深度學(xué)習(xí)不同,，算機(jī)視覺必須要認(rèn)真對待?，F(xiàn)在，競爭的所有算法幾乎都是CNN——那個由Yann LeCun 1989年提出的神經(jīng)網(wǎng)絡(luò)模型,。還記得90年代由Sepp Hochreiter和JürgenSchmidhuber設(shè)計的用以解決反向傳播問題的LSTM嗎,？這個限制是解決語音處理的首選方案。

這一事件就是整個學(xué)術(shù)屆的轉(zhuǎn)折點,。一波遠(yuǎn)遠(yuǎn)超過其他技術(shù)的機(jī)器學(xué)習(xí)的浪潮終于襲來,，誰都不能否認(rèn)深度學(xué)習(xí)的成就。我們在最開始就把這種浪潮比做海嘯,，現(xiàn)在它終于成長到了這一天,，在經(jīng)歷了那么多的寒冬以后，深度學(xué)習(xí)就這樣屹立在這兒,，再無寒冬可見,。

圖4.7 一些深度學(xué)習(xí)關(guān)鍵人物的論文索引數(shù)量，相信不需要我指出2012年以后的變化趨勢,，數(shù)據(jù)來源于谷歌學(xué)術(shù),。

四、最先進(jìn)的技術(shù)

如果這是一部電影,，那么無疑2012年的ImageNet大賽可以作為高潮,。下面我們要具體介紹一下他們現(xiàn)在還在哪：Yann LeCun - Facebook；Geoffrey Hinton - Google,；Andrew Ng - Coursera,，Google，百度（譯者注,，吳恩達(dá)已于2014年5月16日離職google,，任百度人工智能首席科學(xué)家）；Bengio,，Schmidhuber和Hochreiter仍然在學(xué)術(shù)界（譯者注,，在實驗室Maluuba被微軟收購后，Yoshua Bengio已于2017年1月14日稱為微軟的科學(xué)家），還有一些其他未被提到研究人員／研究生[19],。事實上,，正是這些人在機(jī)器學(xué)習(xí)領(lǐng)域深耕幾十年（甚至被學(xué)術(shù)界所拋棄），才換來深度學(xué)習(xí)今日的成就,。與以往的研究工作相比,，這些人的想法仍然是十分開放的，甚至所有公司都是采購他們的深度學(xué)習(xí)框架,，就像一種工業(yè)界引導(dǎo)學(xué)術(shù)界的傳奇故事,。

不會妄自菲薄的認(rèn)為自己可以在一部分里面總結(jié)近幾年的研究成果，因為這幾年機(jī)器學(xué)習(xí)的科研成果層出不窮,，我很清楚我們是無法在一部分里面全部列出的,。也許有一天我們會通過五個部分把這些成果完成的故事列出來，下面我們來對做一個簡介：

1,、LSTM和RNN通過分布式的方式重現(xiàn)“想法”



圖4.8 去年的研究成果

2,、使用深度學(xué)習(xí)的強(qiáng)化學(xué)習(xí)（這一次更好了）

https:///V1eYniJ0Rnk（來源于youtube的視頻）

3、添加外部可讀寫存儲器的神經(jīng)網(wǎng)絡(luò)

https:///U_Wgc1JOsBk（來源于youtube的視頻）

Kate Allen. How a Toronto professor’s research revolutionized artificial intelligence Science and Technology reporter, Apr 17 2015 http://www./news/world/2015/04/17/how-a-toronto-professors-research-revolutionized-artificial-intelligence.html ? ?2 ?3 ?4 ?5

Hinton, G. E., Osindero, S., & Teh, Y. W. (2006). A fast learning algorithm for deep belief nets. Neural computation, 18(7), 1527-1554. ?

Hinton, G. E. (2002). Training products of experts by minimizing contrastive divergence. Neural computation, 14(8), 1771-1800. ?

Bengio, Y., Lamblin, P., Popovici, D., & Larochelle, H. (2007). Greedy layer-wise training of deep networks. Advances in neural information processing systems, 19, 153. ?

Bengio, Y., & LeCun, Y. (2007). Scaling learning algorithms towards AI. Large-scale kernel machines, 34(5). ?

Mohamed, A. R., Sainath, T. N., Dahl, G., Ramabhadran, B., Hinton, G. E., & Picheny, M. (2011, May). Deep belief networks using discriminative features for phone recognition. In Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on (pp. 5060-5063). IEEE. ?

November 26, 2012. Leading breakthroughs in speech recognition software at Microsoft, Google, IBM Source: http://news./leading-breakthroughs-speech-recognition-software-microsoft-google-ibm ?

Raina, R., Madhavan, A., & Ng, A. Y. (2009, June). Large-scale deep unsupervised learning using graphics processors. In Proceedings of the 26th annual international conference on machine learning (pp. 873-880). ACM. ?

Claudiu Ciresan, D., Meier, U., Gambardella, L. M., & Schmidhuber, J. (2010). Deep big simple neural nets excel on handwritten digit recognition. arXiv preprint arXiv:1003.0358. ?

Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., … & Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. Signal Processing Magazine, IEEE, 29(6), 82-97. ?

Le, Q. V. (2013, May). Building high-level features using large scale unsupervised learning. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on (pp. 8595-8598). IEEE. ?

Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks. In International conference on artificial intelligence and statistics (pp. 249-256). ?

Jarrett, K., Kavukcuoglu, K., Ranzato, M. A., & LeCun, Y. (2009, September). What is the best multi-stage architecture for object recognition?. In Computer Vision, 2009 IEEE 12th International Conference on (pp. 2146-2153). IEEE. ?

Nair, V., & Hinton, G. E. (2010). Rectified linear units improve restricted boltzmann machines. In Proceedings of the 27th International Conference on Machine Learning (ICML-10) (pp. 807-814). ?

Glorot, X., Bordes, A., & Bengio, Y. (2011). Deep sparse rectifier neural networks. In International Conference on Artificial Intelligence and Statistics (pp. 315-323). ?

Maas, A. L., Hannun, A. Y., & Ng, A. Y. (2013, June). Rectifier nonlinearities improve neural network acoustic models. In Proc. ICML (Vol. 30). ?

Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. R. (2012). Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580. ?

Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105). ?

http://www./news/524026/is-google-cornering-the-market-on-deep-learning/ ?

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：若浪出雲(yún) > 《待分類》

舉報/認(rèn)領(lǐng)