幾種經(jīng)典的圖像分類模型

命運(yùn)之輪 2021-08-26

展開全文

計(jì)算機(jī)視覺中經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

聲明：本文圖片和文字來(lái)自百度AI Studio 網(wǎng)站,，僅僅是做一個(gè)搬運(yùn)處理,，以便于后期需要時(shí)查詢。

LeNet：Yan LeCun等人于1998年第一次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到圖像分類任務(wù)上[1],，在手寫數(shù)字識(shí)別任務(wù)上取得了巨大成功,。
AlexNet：Alex Krizhevsky等人在2012年提出了AlexNet[2],并應(yīng)用在大尺寸圖片數(shù)據(jù)集ImageNet上，獲得了2012年ImageNet比賽冠軍(ImageNet Large ScaleVisual Recognition Challenge,，ILSVRC）,。
VGG：Simonyan和Zisserman于2014年提出了VGG網(wǎng)絡(luò)結(jié)構(gòu)[3]，是當(dāng)前最流行的卷積神經(jīng)網(wǎng)絡(luò)之一,，由于其結(jié)構(gòu)簡(jiǎn)單,、應(yīng)用性極強(qiáng)而深受廣大研究者歡迎。
GoogLeNet：ChristianSzegedy等人在2014提出了GoogLeNet[4],，并取得了2014年ImageNet比賽冠軍,。
ResNet：Kaiming He等人在2015年提出了ResNet[5]，通過(guò)引入殘差模塊加深網(wǎng)絡(luò)層數(shù),，在ImagNet數(shù)據(jù)集上的錯(cuò)誤率降低到3.6%,，超越了人眼識(shí)別水平。ResNet的設(shè)計(jì)思想深刻地影響了后來(lái)的深度神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì),。

LeNet
在這里插入圖片描述

第一模塊：包含5×5的6通道卷積和2×2的池化,。卷積提取圖像中包含的特征模式（**函數(shù)使用sigmoid），圖像尺寸從32減小到28,。經(jīng)過(guò)池化層可以降低輸出特征圖對(duì)空間位置的敏感性,，圖像尺寸減到14。
第二模塊：和第一模塊尺寸相同,，通道數(shù)由6增加為16,。卷積操作使圖像尺寸減小到10，經(jīng)過(guò)池化后變成5,。
第三模塊：包含5×5的120通道卷積,。卷積之后的圖像尺寸減小到1，但是通道數(shù)增加為120,。將經(jīng)過(guò)第3次卷積提取到的特征圖輸入到全連接層,。第一個(gè)全連接層的輸出神經(jīng)元的個(gè)數(shù)是64，第二個(gè)全連接層的輸出神經(jīng)元個(gè)數(shù)是分類標(biāo)簽的類別數(shù),，對(duì)于手寫數(shù)字識(shí)別其大小是10,。然后使用Softmax**函數(shù)即可計(jì)算出每個(gè)類別的預(yù)測(cè)概率,。

AlexNet
AlexNet與LeNet相比，具有更深的網(wǎng)絡(luò)結(jié)構(gòu),，包含5層卷積和3層全連接,，同時(shí)使用了如下三種方法改進(jìn)模型的訓(xùn)練過(guò)程：

數(shù)據(jù)增廣：深度學(xué)習(xí)中常用的一種處理方式，通過(guò)對(duì)訓(xùn)練隨機(jī)加一些變化,，比如平移,、縮放、裁剪,、旋轉(zhuǎn),、翻轉(zhuǎn)或者增減亮度等，產(chǎn)生一系列跟原始圖片相似但又不完全相同的樣本,，從而擴(kuò)大訓(xùn)練數(shù)據(jù)集,。通過(guò)這種方式，可以隨機(jī)改變訓(xùn)練樣本,，避免模型過(guò)度依賴于某些屬性,，能從一定程度上抑制過(guò)擬合。
使用Dropout抑制過(guò)擬合
使用ReLU**函數(shù)減少梯度消失現(xiàn)象

VGG
VGG通過(guò)使用一系列大小為3x3的小尺寸卷積核和pooling層構(gòu)造深度卷積神經(jīng)網(wǎng)絡(luò),，并取得了較好的效果,。

VGG-16的網(wǎng)絡(luò)結(jié)構(gòu)示意圖，有13層卷積和3層全連接層,。VGG網(wǎng)絡(luò)的設(shè)計(jì)嚴(yán)格使用3×3 的卷積層和池化層來(lái)提取特征,，并在網(wǎng)絡(luò)的最后面使用三層全連接層，將最后一層全連接層的輸出作為分類的預(yù)測(cè),。
在VGG中每層卷積將使用ReLU作為**函數(shù),，在全連接層之后添加dropout來(lái)抑制過(guò)擬合。使用小的卷積核能夠有效地減少參數(shù)的個(gè)數(shù),，使得訓(xùn)練和測(cè)試變得更加有效,。

GoogLeNet
GoogLeNet是2014年ImageNet比賽的冠軍，它的主要特點(diǎn)是網(wǎng)絡(luò)不僅有深度,，還在橫向上具有“寬度”,。由于圖像信息在空間尺寸上的巨大差異，如何選擇合適的卷積核大小來(lái)提取特征就顯得比較困難了,?？臻g分布范圍更廣的圖像信息適合用較大的卷積核來(lái)提取其特征，而空間分布范圍較小的圖像信息則適合用較小的卷積核來(lái)提取其特征,。為了解決這個(gè)問題,，GoogLeNet提出了一種被稱為Inception模塊的方案。
在這里插入圖片描述

Inception模塊的設(shè)計(jì)思想,，使用3個(gè)不同大小的卷積核對(duì)輸入圖片進(jìn)行卷積操作,，并附加最大池化,，將這4個(gè)操作的輸出沿著通道這一維度進(jìn)行拼接，構(gòu)成的輸出特征圖將會(huì)包含經(jīng)過(guò)不同大小的卷積核提取出來(lái)的特征,。Inception模塊采用多通路(multi-path)的設(shè)計(jì)形式,，每個(gè)支路使用不同大小的卷積核，最終輸出特征圖的通道數(shù)是每個(gè)支路輸出通道數(shù)的總和,，這將會(huì)導(dǎo)致輸出通道數(shù)變得很大，尤其是使用多個(gè)Inception模塊串聯(lián)操作的時(shí)候,，模型參數(shù)量會(huì)變得非常大,。為了減小參數(shù)量，Inception模塊使用了圖(b)中的設(shè)計(jì)方式,，在每個(gè)3x3和5x5的卷積層之前,，增加1x1的卷積層來(lái)控制輸出通道數(shù)；在最大池化層后面增加1x1卷積層減小輸出通道數(shù),。

GoogLeNet的架構(gòu)如圖5 所示,，在主體卷積部分中使用5個(gè)模塊（block，每個(gè)模塊之間使用步幅為2的3 ×3最大池化層來(lái)減小輸出高寬,。

第一模塊使用一個(gè)64通道的7 × 7卷積層,。
第二模塊使用2個(gè)卷積層:首先是64通道的1 × 1卷積層，然后是將通道增大3倍的3 × 3卷積層,。
第三模塊串聯(lián)2個(gè)完整的Inception塊,。
第四模塊串聯(lián)了5個(gè)Inception塊。
第五模塊串聯(lián)了2 個(gè)Inception塊,。
第五模塊的后面緊跟輸出層,，使用全局平均池化層來(lái)將每個(gè)通道的高和寬變成1，最后接上一個(gè)輸出個(gè)數(shù)為標(biāo)簽類別數(shù)的全連接層,。

說(shuō)明：在原作者的論文中添加了圖中所示的softmax1和softmax2兩個(gè)輔助分類器,，如下圖所示，訓(xùn)練時(shí)將三個(gè)分類器的損失函數(shù)進(jìn)行加權(quán)求和,，以緩解梯度消失現(xiàn)象,。這里的程序作了簡(jiǎn)化，沒有加入輔助分類器,。

ResNet
通過(guò)前面幾個(gè)經(jīng)典模型學(xué)習(xí)，我們可以發(fā)現(xiàn)隨著深度學(xué)習(xí)的不斷發(fā)展,，模型的層數(shù)越來(lái)越多，網(wǎng)絡(luò)結(jié)構(gòu)也越來(lái)越復(fù)雜,。那么是否加深網(wǎng)絡(luò)結(jié)構(gòu),，就一定會(huì)得到更好的效果呢,？從理論上來(lái)說(shuō)，假設(shè)新增加的層都是恒等映射,，只要原有的層學(xué)出跟原模型一樣的參數(shù)，那么深模型結(jié)構(gòu)就能達(dá)到原模型結(jié)構(gòu)的效果,。換句話說(shuō),，原模型的解只是新模型的解的子空間,，在新模型解的空間里應(yīng)該能找到比原模型解對(duì)應(yīng)的子空間更好的結(jié)果,。但是實(shí)踐表明,，增加網(wǎng)絡(luò)的層數(shù)之后,，訓(xùn)練誤差往往不降反升。

Kaiming He等人提出了殘差網(wǎng)絡(luò)ResNet來(lái)解決上述問題,，其基本思想如圖6所示,。
在這里插入圖片描述
ResNet50

總結(jié)：這里介紹了幾種經(jīng)典的圖像分類模型，分別是LeNet, AlexNet, VGG, GoogLeNet和ResNet,。除了LeNet不適合大尺寸的圖像分類問題之外，其它幾個(gè)模型在此數(shù)據(jù)集上損失函數(shù)都能顯著下降,，在驗(yàn)證集上的預(yù)測(cè)精度在90%左右,。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：命運(yùn)之輪 > 《深度學(xué)習(xí)》

舉報(bào)/認(rèn)領(lǐng)