深度學(xué)習(xí)淺談

東泰山人 2017-01-29

展開(kāi)全文

編者的話：

本期文章” Deep learning”發(fā)表在2015年5月的《Nature》期刊上，是由深度學(xué)習(xí)領(lǐng)域最為知名的學(xué)者Yann LeCun,、Yoshua Bengio和Geoffrey Hinton首次合作的綜述文章,。

2016年初，阿爾法狗(AlphaGo)擊敗李世石,，也讓深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)名聲大噪,。然而不為人知的是，在相當(dāng)長(zhǎng)的一段時(shí)期內(nèi),，神經(jīng)網(wǎng)絡(luò)經(jīng)歷了非常曲折的發(fā)展過(guò)程,。尤其是從90年代開(kāi)始，機(jī)器學(xué)習(xí)領(lǐng)域中向量機(jī)（SVM）,，可學(xué)習(xí)理論(Boosting),，概率圖模型（Graphical Model）等研究的興起，導(dǎo)致大量研究人員的轉(zhuǎn)向,，神經(jīng)網(wǎng)絡(luò)的研究一度陷入停滯,。而在神經(jīng)網(wǎng)絡(luò)研究最困難的時(shí)期，正是本文作者Yann LeCun,、Yoshua Bengio和Geoffrey Hinton等少數(shù)學(xué)者的堅(jiān)持,，使人們真正認(rèn)識(shí)到深度學(xué)習(xí)的價(jià)值，也讓深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)領(lǐng)域的研究迎來(lái)了更加光明的時(shí)代,。

因內(nèi)容較多,，關(guān)于深度學(xué)習(xí)淺談，我們也會(huì)分上下兩期進(jìn)行介紹,。上期就深度學(xué)習(xí)的概念進(jìn)行介紹,，下期針對(duì)深度學(xué)習(xí)的種類(lèi)進(jìn)行討論。

深度學(xué)習(xí)淺談（上）

什么是深度學(xué)習(xí),？

深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究，它基于神經(jīng)網(wǎng)絡(luò)框架,，通過(guò)模擬人腦學(xué)習(xí)的方式的來(lái)處理數(shù)據(jù),，通過(guò)神經(jīng)網(wǎng)絡(luò)的分層處理，將低層特征組合形成更加抽象的高層表示屬性類(lèi)別或特征,，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示,。

Geoffrey Hinton于2006年在《Science》上發(fā)表的論文首次提出深度學(xué)習(xí)的主要觀點(diǎn)：

1）多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,，學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻畫(huà)，從而有利于可視化或分類(lèi),；

2）深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,，可以通過(guò)“逐層初始化”（layer-wise pre-training）來(lái)有效克服，逐層初始化可通過(guò)無(wú)監(jiān)督學(xué)習(xí)實(shí)現(xiàn),。

機(jī)器學(xué)習(xí)的關(guān)鍵在于對(duì)對(duì)象特征的處理,。因此幾十年來(lái)，人工智能領(lǐng)域一直想要構(gòu)建一個(gè)模式識(shí)別系統(tǒng)或者機(jī)器學(xué)習(xí)系統(tǒng),，比如分類(lèi)器,，將原始數(shù)據(jù)的外部屬性（如圖像的像素值）轉(zhuǎn)換成一個(gè)合適的內(nèi)部特征表示或特征向量，來(lái)對(duì)輸入的樣本進(jìn)行檢測(cè)或分類(lèi),。但是這樣的處理方式需要相當(dāng)專(zhuān)業(yè)的知識(shí)來(lái)手工獲取特征,。深度學(xué)習(xí)的優(yōu)點(diǎn)在于，它用非監(jiān)督式或半監(jiān)督式的特征學(xué)習(xí)和分層特征提取的高效算法來(lái)替代手工獲取特征的方式,。因此該文章的作者Yann LeCun,、Yoshua Bengio、Geoffrey Hinton（2015）將深度學(xué)習(xí)定義為“一種特征學(xué)習(xí)方法,，把原始數(shù)據(jù)通過(guò)一些簡(jiǎn)單的但是非線性的模型轉(zhuǎn)變成為更高層次的,，更加抽象的表達(dá)。通過(guò)足夠多的轉(zhuǎn)換的組合,，非常復(fù)雜的函數(shù)也可以被學(xué)習(xí)”,。

從2012年取得ImageNet競(jìng)賽的標(biāo)志性事件之后，深度學(xué)習(xí)不斷取得一系列的重大進(jìn)展,，解決了人工智能界的盡最大努力很多年仍沒(méi)有進(jìn)展的問(wèn)題,，除了在圖像識(shí)別、語(yǔ)音識(shí)別等領(lǐng)域打破了紀(jì)錄,，還在其他的領(lǐng)域擊敗了其他機(jī)器學(xué)習(xí)技術(shù),，包括預(yù)測(cè)潛在的藥物分子的活性、分析粒子加速器數(shù)據(jù),、重建大腦回路,、預(yù)測(cè)非編碼DNA突變對(duì)基因表達(dá)和疾病的影響。更令人驚訝的是,，深度學(xué)習(xí)在自然語(yǔ)言理解的各項(xiàng)任務(wù)中也有非?？上驳某晒貏e是主題分類(lèi),、情感分析,、自動(dòng)問(wèn)答和語(yǔ)言翻譯。如今深度學(xué)習(xí)已經(jīng)成為人工智能中最炙手可熱的研究方向,。深度學(xué)習(xí)的原理為何,？又能夠取得如此突破,？本文希望結(jié)合本次推送的文章，通過(guò)對(duì)深度學(xué)習(xí)的大致介紹,，讓讀者對(duì)深度學(xué)習(xí)主要的原理和方法有一個(gè)基本的認(rèn)識(shí),。

深度學(xué)習(xí)原理-來(lái)自人腦的啟發(fā)

機(jī)器學(xué)習(xí)中，不論是否是深層,，最常見(jiàn)的形式是監(jiān)督學(xué)習(xí),。如果要建立一個(gè)分類(lèi)系統(tǒng)，對(duì)包含了一座房子,、一輛汽車(chē),、一個(gè)人或一個(gè)寵物的圖像進(jìn)行分類(lèi)，首先要收集大量的房子,，汽車(chē),，人與寵物的圖像的數(shù)據(jù)集，并對(duì)每個(gè)對(duì)象標(biāo)上它的類(lèi)別,。在訓(xùn)練期間,，機(jī)器會(huì)獲取一副圖片，然后產(chǎn)生一個(gè)輸出,，這個(gè)輸出以向量形式的分?jǐn)?shù)來(lái)表示,，每個(gè)類(lèi)別都有一個(gè)這樣的向量。

圖 1 特征提取

為了最終完成分類(lèi)的目標(biāo),，我們必須去提取被分類(lèi)對(duì)象的特征來(lái)區(qū)分這些對(duì)象,，比如在對(duì)摩托車(chē)進(jìn)行分類(lèi)識(shí)別時(shí)（如圖1），傳統(tǒng)的識(shí)別方法是將特征提取和分類(lèi)器設(shè)計(jì)分開(kāi)處理,，然后在應(yīng)用時(shí)合二為一,。因此首先需要提取圖中摩托車(chē)的特征，然后把提取出來(lái)的特征放到學(xué)習(xí)算法中,。良好的特征提取,，對(duì)最終算法的準(zhǔn)確性起了非常關(guān)鍵的作用，直接決定了系統(tǒng)的計(jì)算和測(cè)試的效果,。但是,，這樣的處理方式導(dǎo)致了兩方面的問(wèn)題，一方面,，在傳統(tǒng)的數(shù)據(jù)挖掘方法中,，特征的選擇一般都是通過(guò)手工完成的，手工選取的好處是可以借助人的經(jīng)驗(yàn)或者專(zhuān)業(yè)知識(shí)選擇出正確的特征,；缺點(diǎn)是效率低,，而且在復(fù)雜的問(wèn)題中，人工選擇可能也會(huì)陷入困惑,。另一方面,，許多機(jī)器學(xué)習(xí)技術(shù)使用的是線性分類(lèi)器來(lái)對(duì)人工提取的特征進(jìn)行分類(lèi)。在圖像和語(yǔ)音識(shí)別過(guò)程中,，線性分類(lèi)器需要的輸入-輸出函數(shù)要對(duì)輸入樣本中不相關(guān)因素的變化不要過(guò)于的敏感,，如位置的變化，目標(biāo)的方向或光照,，或者語(yǔ)音中音調(diào)或語(yǔ)調(diào)的變化等,，而對(duì)于一些特定的微小變化需要非常敏感（例如，一只白色的狼和跟狼類(lèi)似的白色狗——薩莫耶德犬之間的差異）,。在像素這一級(jí)別上,，兩條薩莫耶德犬在不同的姿勢(shì)和在不同的環(huán)境下的圖像可以說(shuō)差異是非常大的，但是一只薩摩耶德犬和一只狼在相同的位置并在相似背景下的兩個(gè)圖像可能就非常類(lèi)似,。

如何區(qū)分對(duì)象細(xì)微和本質(zhì)的特征上的差別呢,？深度學(xué)習(xí)從人腦視覺(jué)神經(jīng)的處理機(jī)制中獲得了靈感。

圖 2 大腦視覺(jué)處理機(jī)制

1958年,，兩位后來(lái)的諾貝爾醫(yī)學(xué)獎(jiǎng)得主DavidHubel 和Torsten Wiesel 發(fā)現(xiàn)：大腦的視覺(jué)系統(tǒng)在處理視網(wǎng)膜傳遞過(guò)來(lái)的感官信息時(shí),，并未直接地對(duì)數(shù)據(jù)進(jìn)行處理，而是將接收到的刺激信號(hào)通過(guò)一個(gè)復(fù)雜的層狀網(wǎng)絡(luò)模型,，進(jìn)而得到對(duì)視覺(jué)信息的認(rèn)識(shí)（如圖2）,。例如，當(dāng)人在看到氣球的時(shí)候,，大腦所獲取的信息并不是一張完整的氣球的圖片,，而是從原始信號(hào)攝入開(kāi)始（瞳孔攝入像素），接著做初步處理（大腦皮層某些細(xì)胞發(fā)現(xiàn)邊緣和方向）,，然后抽象（大腦判定,，眼前的物體的形狀，是圓形的）,，然后進(jìn)一步抽象（大腦進(jìn)一步判定該物體是只氣球）,，也就表示，神經(jīng)-中樞-大腦的工作過(guò)程,，是一個(gè)不斷分層抽象的過(guò)程,。因此大腦視覺(jué)系統(tǒng)的功能是對(duì)感知信號(hào)進(jìn)行特征提取和計(jì)算，而不僅僅是簡(jiǎn)單地重現(xiàn)視網(wǎng)膜的圖像,。

這一生理學(xué)的發(fā)現(xiàn),，促成了計(jì)算機(jī)人工智能在四十年后的突破性進(jìn)展。深度學(xué)習(xí)恰恰是借鑒了大腦視覺(jué)系統(tǒng)處理信息特征的這一思路,，從而實(shí)現(xiàn)自動(dòng)的特征學(xué)習(xí),，而不需要人工參與特征的選取。2006年前后,，CIFAR（加拿大高級(jí)研究院）把一些研究者聚集在一起,，人們對(duì)深度前饋式神經(jīng)網(wǎng)絡(luò)重新燃起了興趣,。研究者們提出了一種非監(jiān)督的學(xué)習(xí)方法，這種方法可以創(chuàng)建一些網(wǎng)絡(luò)層來(lái)檢測(cè)特征而不使用帶標(biāo)簽的數(shù)據(jù),，這些網(wǎng)絡(luò)層可以用來(lái)重構(gòu)或者對(duì)特征檢測(cè)器的活動(dòng)進(jìn)行建模,。通過(guò)預(yù)訓(xùn)練過(guò)程，深度網(wǎng)絡(luò)的權(quán)值可以被初始化為合理的值,。然后一個(gè)輸出層被添加到該網(wǎng)絡(luò)的頂部,，并且使用標(biāo)準(zhǔn)的反向傳播算法進(jìn)行微調(diào)。比如,，一副圖像的原始格式是一個(gè)像素?cái)?shù)組,，那么在第一層上的學(xué)習(xí)特征通常指的是在圖像的特定位置和方向上有沒(méi)有邊的存在。第二層通常會(huì)根據(jù)那些邊的位置而來(lái)檢測(cè)圖案,，這時(shí)候會(huì)忽略掉一些邊上的一些小的干擾,。第三層或許會(huì)把那些圖案進(jìn)行組合，從而使其對(duì)應(yīng)于熟悉目標(biāo)的某部分,。隨后的一些層會(huì)將這些部分再組合,，從而構(gòu)成待檢測(cè)目標(biāo)。在這一過(guò)程,，深度學(xué)習(xí)在多個(gè)層級(jí)中通過(guò)組合低層特征形成更抽象的高層特征,。LeCun Y，Bengio Y和HintonG（2015）認(rèn)為,，這就是深度學(xué)習(xí)的關(guān)鍵優(yōu)勢(shì),。

深度學(xué)習(xí)的體系結(jié)構(gòu)是簡(jiǎn)單模塊的多層堆棧，所有（或大部分）模塊的目標(biāo)是學(xué)習(xí),，還有許多計(jì)算非線性輸入輸出的映射,。堆棧中的每個(gè)模塊將其輸入進(jìn)行轉(zhuǎn)換，以增加特征的可選擇性和不變性,。比如說(shuō),，具有5到20層的非線性多層系統(tǒng)能夠?qū)崿F(xiàn)非常復(fù)雜的功能，比如輸入數(shù)據(jù)對(duì)細(xì)節(jié)非常敏感——能夠區(qū)分白狼和薩莫耶德犬,，同時(shí)又具有強(qiáng)大的抗干擾能力,，比如可以忽略掉不同的背景、姿勢(shì),、光照和周?chē)奈矬w等,。

參考文獻(xiàn):

LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature， 2015,521(7553): 436-444.

http://www./news/201605/zZqsZiVpcBBPqcGG.html

http://www./cnn-learning-notes-1.html

http:///9822.html

http://www./html/617/201608/2650790861/1.html

http://blog.csdn.net/heyongluoyao8/article/details/48636251

https://zh./wiki/LSTM

http://blog.csdn.net/zouxy09/article/details/8781543

深度學(xué)習(xí)淺談（下）

卷積神經(jīng)網(wǎng)絡(luò)與圖像理解

卷積神經(jīng)網(wǎng)絡(luò)（CNN,，Convolutional neural networks）是深度學(xué)習(xí)中最具代表性的一類(lèi)框架,，從21世紀(jì)開(kāi)始，卷積神經(jīng)網(wǎng)絡(luò)就被成功的大量用于檢測(cè)、分割,、物體識(shí)別以及圖像識(shí)別的各個(gè)領(lǐng)域,，比如交通信號(hào)識(shí)別，生物信息分割,，面部探測(cè),，文本、行人探測(cè)等,，特別是最近幾年，卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別領(lǐng)域更是取得了巨大的成功,。

在圖像識(shí)別中,，卷積神經(jīng)網(wǎng)絡(luò)通過(guò)組合圖像的低級(jí)特征的來(lái)合成高級(jí)特征，即先將圖像局部邊緣的組合形成基本圖案,，這些圖案形成物體的局部,，然后再形成物體。在這個(gè)過(guò)程中,，卷積神經(jīng)網(wǎng)絡(luò)使用4個(gè)關(guān)鍵的想法來(lái)進(jìn)行特征處理：局部連接（local connections）,、權(quán)值共享（shared weights）、池化（pooling）以及多網(wǎng)絡(luò)層（many layers）的使用,。

圖 3 局部連接

局部連接可以大大減少訓(xùn)練參數(shù)的數(shù)量（如圖3）,。比如，圖中左邊是全連接,，右邊是局部連接,。對(duì)于一個(gè)1000 × 1000的輸入圖像而言，如果下一個(gè)隱藏層的神經(jīng)元數(shù)目為10^6個(gè),，采用全連接則有1000 ×1000 × 10^6 = 10^12個(gè)權(quán)值參數(shù),，如此數(shù)目巨大的參數(shù)幾乎難以訓(xùn)練；而采用局部連接,，隱藏層的每個(gè)神經(jīng)元僅與圖像中10 × 10的局部圖像相連接,，那么此時(shí)的權(quán)值參數(shù)數(shù)量為10 × 10 × 10^6 =10^8，將直接減少4個(gè)數(shù)量級(jí),。

圖 4 權(quán)值共享

另外一種減少參數(shù)的方式是權(quán)值共享（如圖4）,。局部連接中隱藏層的每一個(gè)神經(jīng)元連接的是一個(gè)10 × 10的局部圖像，因此有10 × 10個(gè)權(quán)值參數(shù),，將這10 × 10個(gè)權(quán)值參數(shù)共享給剩下的神經(jīng)元,，也就是說(shuō)隱藏層中10^6個(gè)神經(jīng)元的權(quán)值參數(shù)相同，此時(shí)不管隱藏層神經(jīng)元的數(shù)目是多少,，需要訓(xùn)練的參數(shù)就是這 10× 10個(gè)權(quán)值參數(shù)（也就是卷積核(也稱(chēng)濾波器)的大?。Ｔ谟?jì)算機(jī)視覺(jué)和圖像處理中，卷積時(shí)的權(quán)值矩陣被稱(chēng)為卷積核(Kernel),，在信號(hào)處理中也成為濾波(Filter),。不同的卷積核能夠得到圖像的不同映射下的特征，稱(chēng)之為特征映射（FeatureMap）,。

卷積神經(jīng)網(wǎng)絡(luò)主要包括兩種網(wǎng)絡(luò)層（如圖5）,，分別是卷積層（convolutional layer）和池化/采樣層(pooling layers)。卷積層的作用是提取圖像的各種特征,，卷積層中的單元被組織在特征映射中,，其中每個(gè)單元通過(guò)濾波器組的權(quán)值來(lái)連接到前一層的特征映射中的局部塊，然后這個(gè)局部加權(quán)和被傳給一個(gè)非線性函數(shù)（激勵(lì)函數(shù)）,，比如ReLU,。特征映射中的所有單元共享相同的濾波器組.。不同的特征映射使用不同的濾波器組,。池化層的作用是對(duì)原始特征信號(hào)進(jìn)行抽象,，從而大幅度減少訓(xùn)練參數(shù)，減輕模型過(guò)擬合的程度,。池化層把相似的特征進(jìn)行合并,，一般地，池化單元選擇特征映射中的一個(gè)局部塊的最大值或是平均值,，由于一個(gè)映射面上的神經(jīng)元共享權(quán)值,，因而減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù)，降低了網(wǎng)絡(luò)參數(shù)選擇的復(fù)雜度,。卷積神經(jīng)網(wǎng)絡(luò)上進(jìn)行的反向傳播算法和在一般的深度網(wǎng)絡(luò)上是一樣的,，可以讓所有的濾波器組的權(quán)值得到訓(xùn)練。在數(shù)學(xué)上,，由于特征映射執(zhí)行的過(guò)濾操作是離散的卷積,，卷積神經(jīng)網(wǎng)絡(luò)因此得名。

圖 5 卷積神經(jīng)網(wǎng)絡(luò)

對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用,，LeCun Y,，Bengio Y，Hinton G（2015）重點(diǎn)提到了標(biāo)志性的2012年的ImageNet競(jìng)賽,。在該競(jìng)賽中,，深度卷積神經(jīng)網(wǎng)絡(luò)被用在上百萬(wàn)張網(wǎng)絡(luò)圖片數(shù)據(jù)集，這個(gè)數(shù)據(jù)集包含了1000個(gè)不同的類(lèi),。該結(jié)果獲得了前所未有的成功,，幾乎比當(dāng)時(shí)最好的方法降低了一半的錯(cuò)誤率。這個(gè)成功來(lái)自有效地利用了GPU,、ReLU,、一個(gè)新的被稱(chēng)為dropout的正則技術(shù)，以及通過(guò)分解現(xiàn)有樣本產(chǎn)生更多訓(xùn)練樣本的技術(shù)。這個(gè)成功給計(jì)算機(jī)視覺(jué)帶來(lái)一場(chǎng)革命,。正是這次競(jìng)賽讓學(xué)界重新認(rèn)識(shí)到深度學(xué)習(xí)的價(jià)值,，并且得到Google、Facebook,、Microsoft,、IBM，yahoo,！,、Twitter和Adobe等公司的高度重視。

分布式特征表示與語(yǔ)言處理

深度學(xué)習(xí)在自然語(yǔ)言處理的應(yīng)用中,，將語(yǔ)義信息處理成稠密,、低維的實(shí)值向量。向量的每一維都表示文本的某種潛在的語(yǔ)法或語(yǔ)義特征,。這樣的表示形式被稱(chēng)作分布式特征表示（Distributed representations）。將原有高維,、稀疏,、離散的詞匯表示方法（又稱(chēng)One-hot表示）映射為分布式特征表示這一種降維方法，可有效克服機(jī)器學(xué)習(xí)中的維數(shù)災(zāi)難（Curseof Dimensionality）問(wèn)題,，從而獲得更好的學(xué)習(xí)效果,。在分布式特征表示中，不同維度表示了詞的不同主題,，各維度上的數(shù)值表示了一個(gè)詞對(duì)于不同主題的權(quán)重,，這相當(dāng)于將原來(lái)線性不可分的一個(gè)詞抽取出其各個(gè)屬性，從而更有利于分類(lèi),。這樣的處理方式,，可以通過(guò)計(jì)算向量之間相似度的方法（如余弦相似度），來(lái)計(jì)算語(yǔ)義的相似度,。比如西紅柿和番茄的詞向量比較相似,，即使在訓(xùn)練中我們并沒(méi)有觀察到番茄，但通過(guò)兩者的詞向量,，我們也可以判斷兩者的相似程度很高,，從而緩解了自然語(yǔ)言處理中常見(jiàn)的數(shù)據(jù)稀疏問(wèn)題。

LeCun Y,，BengioY,，Hinton G（2015）認(rèn)為，特征表示基于對(duì)邏輯啟發(fā)和神經(jīng)網(wǎng)絡(luò)的認(rèn)識(shí),。在邏輯啟發(fā)的范式中,，一個(gè)符號(hào)實(shí)例表示某一事物，因?yàn)槠湮ㄒ坏膶傩耘c其他符號(hào)實(shí)例相同或者不同。該符號(hào)實(shí)例沒(méi)有內(nèi)部結(jié)構(gòu),，并且結(jié)構(gòu)與使用是相關(guān)的,，為了理解符號(hào)的語(yǔ)義，就必須與變化的推理規(guī)則合理對(duì)應(yīng),。與之相反,，神經(jīng)網(wǎng)絡(luò)利用了大量活動(dòng)載體、權(quán)值矩陣和標(biāo)量非線性化,，來(lái)實(shí)現(xiàn)能夠支撐簡(jiǎn)單容易的,、具有常識(shí)推理的快速“直覺(jué)”功能。這樣一來(lái),，可以更容易的預(yù)測(cè)目標(biāo)輸出,，比如將本地文本的內(nèi)容作為輸入，訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)句子中下一個(gè)單詞,。

遞歸神經(jīng)網(wǎng)絡(luò)

遞歸神經(jīng)網(wǎng)絡(luò)（RNNs）又稱(chēng)循環(huán)神經(jīng)網(wǎng)絡(luò),，不同于傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)（feedforwardneural network），遞歸神經(jīng)網(wǎng)絡(luò)中的每層的神經(jīng)元之間是有向連接的,，即神經(jīng)元間連接構(gòu)成有向圖,。利用這樣的結(jié)構(gòu)，遞歸神經(jīng)網(wǎng)絡(luò)（RNNs）將狀態(tài)在自身網(wǎng)絡(luò)中循環(huán)傳遞,，因此可以處理更廣泛的時(shí)間序列數(shù)據(jù),。RNNs一次處理一個(gè)輸入序列元素，同時(shí)維護(hù)網(wǎng)絡(luò)隱藏層中包含過(guò)去時(shí)間序列數(shù)據(jù)的歷史信息的“狀態(tài)向量”,。

圖 6 遞歸神經(jīng)網(wǎng)絡(luò)

RNNs一旦展開(kāi)（如圖6）,，可以將之視為一個(gè)所有層共享同樣權(quán)值的深度前饋神經(jīng)網(wǎng)絡(luò)。但是在實(shí)際的訓(xùn)練中,，這樣的結(jié)構(gòu)會(huì)產(chǎn)生“梯度的爆發(fā)與消失”（exploding and vanishing gradients）問(wèn)題,，難以做到長(zhǎng)期保存信息。為了解決這個(gè)問(wèn)題,，一些學(xué)者提出了采用了特殊隱式單元的長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)（LSTM,，long short-termmemory networks），由于獨(dú)特的設(shè)計(jì)結(jié)構(gòu),，LSTM適合于處理和預(yù)測(cè)時(shí)間序列中間隔和延遲非常長(zhǎng)的重要事件,，該結(jié)構(gòu)可以長(zhǎng)期的保存輸入。LSTM單元包含一個(gè)嘗試將信息儲(chǔ)存較久的存儲(chǔ)單元,。這個(gè)記憶單元的入口被一些特殊的門(mén)神經(jīng)元（gate neurons）所保護(hù),，被保護(hù)的功能包括保存、寫(xiě)入和讀取操作,。

LSTM網(wǎng)絡(luò)被證明比傳統(tǒng)的RNNs效果更好,。目前LSTM網(wǎng)絡(luò)或者相關(guān)的門(mén)控單元同樣用于編碼和解碼網(wǎng)絡(luò),，并且在機(jī)器翻譯中表現(xiàn)良好。而在過(guò)去幾年中,，幾位學(xué)者提出了用于增強(qiáng)RNNs的記憶的其他模塊,，比如神經(jīng)圖靈機(jī)和記憶網(wǎng)絡(luò)等。

深度學(xué)習(xí)的未來(lái)展望

最后,，LeCun Y,，Bengio Y，Hinton G（2015）提出了對(duì)于深度學(xué)習(xí)的未來(lái)展望,。

無(wú)監(jiān)督學(xué)習(xí)對(duì)于重新點(diǎn)燃深度學(xué)習(xí)的熱潮起到了促進(jìn)的作用,，但是純粹的有監(jiān)督學(xué)習(xí)的成功蓋過(guò)了無(wú)監(jiān)督學(xué)習(xí)。在本篇綜述中雖然這不是重點(diǎn),，LeCun Y,，Bengio Y和HintonG（2015）還是期望無(wú)監(jiān)督學(xué)習(xí)在長(zhǎng)期內(nèi)越來(lái)越重要。無(wú)監(jiān)督學(xué)習(xí)在人類(lèi)和動(dòng)物的學(xué)習(xí)中占據(jù)主導(dǎo)地位：通過(guò)觀察能夠發(fā)現(xiàn)世界的內(nèi)在結(jié)構(gòu),，而不是單純被告知每一個(gè)客觀事物的名稱(chēng),。

人類(lèi)視覺(jué)是一個(gè)智能的、基于特定方式的利用小或大分辨率的視網(wǎng)膜中央窩與周?chē)h(huán)繞區(qū)域?qū)饩€采集成像的活躍的過(guò)程,。LeCun Y,，Bengio Y，HintonG（2015）期望未來(lái)在機(jī)器視覺(jué)方面會(huì)有更多的進(jìn)步,，這些進(jìn)步來(lái)自那些端對(duì)端的訓(xùn)練系統(tǒng)，并結(jié)合ConvNets和RNNs,，采用強(qiáng)化學(xué)習(xí)來(lái)決定走向,。結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的系統(tǒng)雖然正處于初級(jí)階段，但已經(jīng)在分類(lèi)任務(wù)中超過(guò)了被動(dòng)視頻系統(tǒng),，并在學(xué)習(xí)操作視頻游戲中產(chǎn)生了令人印象深刻的效果,。

在未來(lái)幾年，自然語(yǔ)言理解將是深度學(xué)習(xí)做出巨大影響的另一個(gè)領(lǐng)域,。LeCun Y,，Bengio Y，HintonG（2015）預(yù)測(cè)那些利用了RNNs的系統(tǒng)將會(huì)更好地理解句子或者整個(gè)文檔,。

最終,，在人工智能方面取得的重大進(jìn)步將來(lái)自那些結(jié)合了復(fù)雜推理表示學(xué)習(xí)（representation learning ）的系統(tǒng)。盡管深度學(xué)習(xí)和簡(jiǎn)單推理已經(jīng)在語(yǔ)音和手寫(xiě)字識(shí)別應(yīng)用了很長(zhǎng)一段時(shí)間,，但仍需要通過(guò)操作大量向量的新范式來(lái)代替基于規(guī)則的字符表達(dá)式操作,。

參考文獻(xiàn):

LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature， 2015,521(7553): 436-444.

http://www./news/201605/zZqsZiVpcBBPqcGG.html

http://www./cnn-learning-notes-1.html

http:///9822.html

http://www./html/617/201608/2650790861/1.html

http://blog.csdn.net/heyongluoyao8/article/details/48636251

https://zh./wiki/LSTM

http://blog.csdn.net/zouxy09/article/details/8781543

作者簡(jiǎn)介：

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：東泰山人 > 《學(xué)習(xí)學(xué)\治學(xué)方法》

舉報(bào)/認(rèn)領(lǐng)