久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

技術(shù)向:一文讀懂卷積神經(jīng)網(wǎng)絡(luò)CNN

 盛夏流年閃耀 2016-02-04

 

 

轉(zhuǎn)自:http:///11692.html

 

34

作者:張雨石

自今年七月份以來,,一直在實(shí)驗(yàn)室負(fù)責(zé)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),,期間配置和使用過theano和cuda-convnet,、cuda-convnet2。為了增進(jìn)CNN的理解和使用,,特寫此博文,,以其與人交流,互有增益,。正文之前,,先說幾點(diǎn)自己對于CNN的感觸。先明確一點(diǎn)就是,,Deep Learning是全部深度學(xué)習(xí)算法的總稱,,CNN是深度學(xué)習(xí)算法在圖像處理領(lǐng)域的一個(gè)應(yīng)用。

第一點(diǎn),,在學(xué)習(xí)Deep learning和CNN之前,,總以為它們是很了不得的知識,總以為它們能解決很多問題,,學(xué)習(xí)了之后,,才知道它們不過與其他機(jī)器學(xué)習(xí)算法如svm等相似,仍然可以把它當(dāng)做一個(gè)分類器,,仍然可以像使用一個(gè)黑盒子那樣使用它,。

第二點(diǎn),,Deep Learning強(qiáng)大的地方就是可以利用網(wǎng)絡(luò)中間某一層的輸出當(dāng)做是數(shù)據(jù)的另一種表達(dá),從而可以將其認(rèn)為是經(jīng)過網(wǎng)絡(luò)學(xué)習(xí)到的特征,?;谠撎卣鳎梢赃M(jìn)行進(jìn)一步的相似度比較等,。

第三點(diǎn),,Deep Learning算法能夠有效的關(guān)鍵其實(shí)是大規(guī)模的數(shù)據(jù),這一點(diǎn)原因在于每個(gè)DL都有眾多的參數(shù),,少量數(shù)據(jù)無法將參數(shù)訓(xùn)練充分,。

接下來話不多說,直接奔入主題開始CNN之旅,。

卷積神經(jīng)網(wǎng)絡(luò)簡介(Convolutional Neural Networks,,簡稱CNN)

卷積神經(jīng)網(wǎng)絡(luò)是近年發(fā)展起來,并引起廣泛重視的一種高效識別方法,。20世紀(jì)60年代,,Hubel和Wiesel在研究貓腦皮層中用于局部敏感和方向選擇的神經(jīng)元時(shí)發(fā)現(xiàn)其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,繼而提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks-簡稱CNN)?,F(xiàn)在,,CNN已經(jīng)成為眾多科學(xué)領(lǐng)域的研究熱點(diǎn)之一,特別是在模式分類領(lǐng)域,,由于該網(wǎng)絡(luò)避免了對圖像的復(fù)雜前期預(yù)處理,,可以直接輸入原始圖像,因而得到了更為廣泛的應(yīng)用,。 K.Fukushima在1980年提出的新識別機(jī)是卷積神經(jīng)網(wǎng)絡(luò)的第一個(gè)實(shí)現(xiàn)網(wǎng)絡(luò),。隨后,更多的科研工作者對該網(wǎng)絡(luò)進(jìn)行了改進(jìn),。其中,具有代表性的研究成果是Alexander和Taylor提出的“改進(jìn)認(rèn)知機(jī)”,,該方法綜合了各種改進(jìn)方法的優(yōu)點(diǎn)并避免了耗時(shí)的誤差反向傳播,。

一般地,CNN的基本結(jié)構(gòu)包括兩層,,其一為特征提取層,,每個(gè)神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征,。一旦該局部特征被提取后,,它與其它特征間的位置關(guān)系也隨之確定下來;其二是特征映射層,,網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成,,每個(gè)特征映射是一個(gè)平面,,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),,使得特征映射具有位移不變性,。此外,由于一個(gè)映射面上的神經(jīng)元共享權(quán)值,,因而減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù),。卷積神經(jīng)網(wǎng)絡(luò)中的每一個(gè)卷積層都緊跟著一個(gè)用來求局部平均與二次提取的計(jì)算層,這種特有的兩次特征提取結(jié)構(gòu)減小了特征分辨率,。

CNN主要用來識別位移,、縮放及其他形式扭曲不變性的二維圖形。由于CNN的特征檢測層通過訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),,所以在使用CNN時(shí),,避免了顯示的特征抽取,而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí),;再者由于同一特征映射面上的神經(jīng)元權(quán)值相同,,所以網(wǎng)絡(luò)可以并行學(xué)習(xí),這也是卷積網(wǎng)絡(luò)相對于神經(jīng)元彼此相連網(wǎng)絡(luò)的一大優(yōu)勢,。卷積神經(jīng)網(wǎng)絡(luò)以其局部權(quán)值共享的特殊結(jié)構(gòu)在語音識別和圖像處理方面有著獨(dú)特的優(yōu)越性,,其布局更接近于實(shí)際的生物神經(jīng)網(wǎng)絡(luò),權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性,,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點(diǎn)避免了特征提取和分類過程中數(shù)據(jù)重建的復(fù)雜度,。

1. 神經(jīng)網(wǎng)絡(luò)

首先介紹神經(jīng)網(wǎng)絡(luò),這一步的詳細(xì)可以參考資源1,。簡要介紹下,。神經(jīng)網(wǎng)絡(luò)的每個(gè)單元如下:

卷積神經(jīng)網(wǎng)絡(luò)

其對應(yīng)的公式如下:

卷積神經(jīng)網(wǎng)絡(luò)

其中,該單元也可以被稱作是Logistic回歸模型,。當(dāng)將多個(gè)單元組合起來并具有分層結(jié)構(gòu)時(shí),,就形成了神經(jīng)網(wǎng)絡(luò)模型。下圖展示了一個(gè)具有一個(gè)隱含層的神經(jīng)網(wǎng)絡(luò),。

卷積神經(jīng)網(wǎng)絡(luò)

其對應(yīng)的公式如下:

卷積神經(jīng)網(wǎng)絡(luò)

比較類似的,,可以拓展到有2,3,4,5,…個(gè)隱含層,。

神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法也同Logistic類似,,不過由于其多層性,還需要利用鏈?zhǔn)角髮?dǎo)法則對隱含層的節(jié)點(diǎn)進(jìn)行求導(dǎo),,即梯度下降+鏈?zhǔn)角髮?dǎo)法則,,專業(yè)名稱為反向傳播。關(guān)于訓(xùn)練算法,,本文暫不涉及,。

2 卷積神經(jīng)網(wǎng)絡(luò)

在圖像處理中,,往往把圖像表示為像素的向量,比如一個(gè)1000×1000的圖像,,可以表示為一個(gè)1000000的向量,。在上一節(jié)中提到的神經(jīng)網(wǎng)絡(luò)中,如果隱含層數(shù)目與輸入層一樣,,即也是1000000時(shí),,那么輸入層到隱含層的參數(shù)數(shù)據(jù)為1000000×1000000=10^12,這樣就太多了,,基本沒法訓(xùn)練,。所以圖像處理要想練成神經(jīng)網(wǎng)絡(luò)大法,必先減少參數(shù)加快速度,。就跟辟邪劍譜似的,,普通人練得很挫,一旦自宮后內(nèi)力變強(qiáng)劍法變快,,就變的很牛了,。

2.1 局部感知

卷積神經(jīng)網(wǎng)絡(luò)有兩種神器可以降低參數(shù)數(shù)目,第一種神器叫做局部感知野,。一般認(rèn)為人對外界的認(rèn)知是從局部到全局的,,而圖像的空間聯(lián)系也是局部的像素聯(lián)系較為緊密,而距離較遠(yuǎn)的像素相關(guān)性則較弱,。因而,,每個(gè)神經(jīng)元其實(shí)沒有必要對全局圖像進(jìn)行感知,只需要對局部進(jìn)行感知,,然后在更高層將局部的信息綜合起來就得到了全局的信息,。網(wǎng)絡(luò)部分連通的思想,也是受啟發(fā)于生物學(xué)里面的視覺系統(tǒng)結(jié)構(gòu),。視覺皮層的神經(jīng)元就是局部接受信息的(即這些神經(jīng)元只響應(yīng)某些特定區(qū)域的刺激),。如下圖所示:左圖為全連接,右圖為局部連接,。

卷積神經(jīng)網(wǎng)絡(luò)

在上右圖中,,假如每個(gè)神經(jīng)元只和10×10個(gè)像素值相連,那么權(quán)值數(shù)據(jù)為1000000×100個(gè)參數(shù),,減少為原來的千分之一。而那10×10個(gè)像素值對應(yīng)的10×10個(gè)參數(shù),,其實(shí)就相當(dāng)于卷積操作,。

2.2 參數(shù)共享

但其實(shí)這樣的話參數(shù)仍然過多,那么就啟動(dòng)第二級神器,,即權(quán)值共享,。在上面的局部連接中,,每個(gè)神經(jīng)元都對應(yīng)100個(gè)參數(shù),一共1000000個(gè)神經(jīng)元,,如果這1000000個(gè)神經(jīng)元的100個(gè)參數(shù)都是相等的,,那么參數(shù)數(shù)目就變?yōu)?00了。

怎么理解權(quán)值共享呢,?我們可以這100個(gè)參數(shù)(也就是卷積操作)看成是提取特征的方式,,該方式與位置無關(guān)。這其中隱含的原理則是:圖像的一部分的統(tǒng)計(jì)特性與其他部分是一樣的,。這也意味著我們在這一部分學(xué)習(xí)的特征也能用在另一部分上,,所以對于這個(gè)圖像上的所有位置,我們都能使用同樣的學(xué)習(xí)特征,。

更直觀一些,,當(dāng)從一個(gè)大尺寸圖像中隨機(jī)選取一小塊,比如說 8×8 作為樣本,,并且從這個(gè)小塊樣本中學(xué)習(xí)到了一些特征,,這時(shí)我們可以把從這個(gè) 8×8 樣本中學(xué)習(xí)到的特征作為探測器,應(yīng)用到這個(gè)圖像的任意地方中去,。特別是,,我們可以用從 8×8 樣本中所學(xué)習(xí)到的特征跟原本的大尺寸圖像作卷積,從而對這個(gè)大尺寸圖像上的任一位置獲得一個(gè)不同特征的激活值,。

如下圖所示,,展示了一個(gè)33的卷積核在55的圖像上做卷積的過程。每個(gè)卷積都是一種特征提取方式,,就像一個(gè)篩子,,將圖像中符合條件(激活值越大越符合條件)的部分篩選出來。

卷積神經(jīng)網(wǎng)絡(luò)

2.3 多卷積核

上面所述只有100個(gè)參數(shù)時(shí),,表明只有1個(gè)100*100的卷積核,,顯然,特征提取是不充分的,,我們可以添加多個(gè)卷積核,,比如32個(gè)卷積核,可以學(xué)習(xí)32種特征,。在有多個(gè)卷積核時(shí),,如下圖所示:

卷積神經(jīng)網(wǎng)絡(luò)

上圖右,不同顏色表明不同的卷積核,。每個(gè)卷積核都會(huì)將圖像生成為另一幅圖像,。比如兩個(gè)卷積核就可以將生成兩幅圖像,這兩幅圖像可以看做是一張圖像的不同的通道。如下圖所示,,下圖有個(gè)小錯(cuò)誤,,即將w1改為w0,w2改為w1即可,。下文中仍以w1和w2稱呼它們,。

下圖展示了在四個(gè)通道上的卷積操作,有兩個(gè)卷積核,,生成兩個(gè)通道,。其中需要注意的是,四個(gè)通道上每個(gè)通道對應(yīng)一個(gè)卷積核,,先將w2忽略,,只看w1,那么在w1的某位置(i,j)處的值,,是由四個(gè)通道上(i,j)處的卷積結(jié)果相加然后再取激活函數(shù)值得到的,。

卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)

所以,在上圖由4個(gè)通道卷積得到2個(gè)通道的過程中,,參數(shù)的數(shù)目為4×2×2×2個(gè),,其中4表示4個(gè)通道,第一個(gè)2表示生成2個(gè)通道,,最后的2×2表示卷積核大小,。

2.4 Down-pooling

在通過卷積獲得了特征 (features) 之后,下一步我們希望利用這些特征去做分類,。理論上講,,人們可以用所有提取得到的特征去訓(xùn)練分類器,例如 softmax 分類器,,但這樣做面臨計(jì)算量的挑戰(zhàn),。例如:對于一個(gè) 96X96 像素的圖像,假設(shè)我們已經(jīng)學(xué)習(xí)得到了400個(gè)定義在8X8輸入上的特征,,每一個(gè)特征和圖像卷積都會(huì)得到一個(gè) (96 ? 8 + 1) × (96 ? 8 + 1) = 7921 維的卷積特征,,由于有 400 個(gè)特征,所以每個(gè)樣例 (example) 都會(huì)得到一個(gè) 892 × 400 = 3,168,400 維的卷積特征向量,。學(xué)習(xí)一個(gè)擁有超過 3 百萬特征輸入的分類器十分不便,,并且容易出現(xiàn)過擬合 (over-fitting)。

為了解決這個(gè)問題,,首先回憶一下,,我們之所以決定使用卷積后的特征是因?yàn)閳D像具有一種“靜態(tài)性”的屬性,這也就意味著在一個(gè)圖像區(qū)域有用的特征極有可能在另一個(gè)區(qū)域同樣適用,。因此,,為了描述大的圖像,,一個(gè)很自然的想法就是對不同位置的特征進(jìn)行聚合統(tǒng)計(jì),例如,,人們可以計(jì)算圖像一個(gè)區(qū)域上的某個(gè)特定特征的平均值 (或最大值)。這些概要統(tǒng)計(jì)特征不僅具有低得多的維度 (相比使用所有提取得到的特征),,同時(shí)還會(huì)改善結(jié)果(不容易過擬合),。這種聚合的操作就叫做池化 (pooling),有時(shí)也稱為平均池化或者最大池化 (取決于計(jì)算池化的方法),。

卷積神經(jīng)網(wǎng)絡(luò)

至此,,卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和原理已經(jīng)闡述完畢。

2.5 多層卷積

在實(shí)際應(yīng)用中,,往往使用多層卷積,,然后再使用全連接層進(jìn)行訓(xùn)練,多層卷積的目的是一層卷積學(xué)到的特征往往是局部的,,層數(shù)越高,,學(xué)到的特征就越全局化。

3 ImageNet-2010網(wǎng)絡(luò)結(jié)構(gòu)

ImageNet LSVRC是一個(gè)圖片分類的比賽,,其訓(xùn)練集包括127W+張圖片,,驗(yàn)證集有5W張圖片,測試集有15W張圖片,。本文截取2010年Alex Krizhevsky的CNN結(jié)構(gòu)進(jìn)行說明,,該結(jié)構(gòu)在2010年取得冠軍,top-5錯(cuò)誤率為15.3%,。值得一提的是,,在今年的ImageNet LSVRC比賽中,取得冠軍的GoogNet已經(jīng)達(dá)到了top-5錯(cuò)誤率6.67%,??梢姡疃葘W(xué)習(xí)的提升空間還很巨大,。

下圖即為Alex的CNN結(jié)構(gòu)圖,。需要注意的是,該模型采用了2-GPU并行結(jié)構(gòu),,即第1,、2、4,、5卷積層都是將模型參數(shù)分為2部分進(jìn)行訓(xùn)練的,。在這里,更進(jìn)一步,,并行結(jié)構(gòu)分為數(shù)據(jù)并行與模型并行,。數(shù)據(jù)并行是指在不同的GPU上,,模型結(jié)構(gòu)相同,但將訓(xùn)練數(shù)據(jù)進(jìn)行切分,,分別訓(xùn)練得到不同的模型,,然后再將模型進(jìn)行融合。而模型并行則是,,將若干層的模型參數(shù)進(jìn)行切分,,不同的GPU上使用相同的數(shù)據(jù)進(jìn)行訓(xùn)練,得到的結(jié)果直接連接作為下一層的輸入,。

卷積神經(jīng)網(wǎng)絡(luò)

上圖模型的基本參數(shù)為:

輸入:224×224大小的圖片,,3通道
第一層卷積:5×5大小的卷積核96個(gè),每個(gè)GPU上48個(gè),。
第一層max-pooling:2×2的核,。
第二層卷積:3×3卷積核256個(gè),,每個(gè)GPU上128個(gè)。
第二層max-pooling:2×2的核,。
第三層卷積:與上一層是全連接,,3*3的卷積核384個(gè),。分到兩個(gè)GPU上個(gè)192個(gè),。
第四層卷積:3×3的卷積核384個(gè),,兩個(gè)GPU各192個(gè),。該層與上一層連接沒有經(jīng)過pooling層。
第五層卷積:3×3的卷積核256個(gè),,兩個(gè)GPU上個(gè)128個(gè)。
第五層max-pooling:2×2的核,。
第一層全連接:4096維,將第五層max-pooling的輸出連接成為一個(gè)一維向量,,作為該層的輸入,。
第二層全連接:4096維
Softmax層:輸出為1000,,輸出的每一維都是圖片屬于該類別的概率。

4 DeepID網(wǎng)絡(luò)結(jié)構(gòu)

DeepID網(wǎng)絡(luò)結(jié)構(gòu)是香港中文大學(xué)的Sun Yi開發(fā)出來用來學(xué)習(xí)人臉特征的卷積神經(jīng)網(wǎng)絡(luò),。每張輸入的人臉被表示為160維的向量,,學(xué)習(xí)到的向量經(jīng)過其他模型進(jìn)行分類,,在人臉驗(yàn)證試驗(yàn)上得到了97.45%的正確率,更進(jìn)一步的,,原作者改進(jìn)了CNN,又得到了99.15%的正確率,。

如下圖所示,,該結(jié)構(gòu)與ImageNet的具體參數(shù)類似,所以只解釋一下不同的部分吧,。

卷積神經(jīng)網(wǎng)絡(luò)

上圖中的結(jié)構(gòu),,在最后只有一層全連接層,,然后就是softmax層了。論文中就是以該全連接層作為圖像的表示,。在全連接層,,以第四層卷積和第三層max-pooling的輸出作為全連接層的輸入,這樣可以學(xué)習(xí)到局部的和全局的特征,。

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多