【王曉剛】圖像識(shí)別中的深度學(xué)習(xí)

成長(zhǎng)相對(duì)論 2015-09-14

展開全文

來(lái)源：《中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊》第8期《專題》

作者：王曉剛

深度學(xué)習(xí)發(fā)展歷史

深度學(xué)習(xí)是近十年來(lái)人工智能領(lǐng)域取得的重要突破,。它在語(yǔ)音識(shí)別、自然語(yǔ)言處理,、計(jì)算機(jī)視覺,、圖像與視頻分析、多媒體等諸多領(lǐng)域的應(yīng)用取得了巨大成功?，F(xiàn)有的深度學(xué)習(xí)模型屬于神經(jīng)網(wǎng)絡(luò),。神經(jīng)網(wǎng)絡(luò)的起源可追溯到20世紀(jì)40年代，曾經(jīng)在八九十年代流行,。神經(jīng)網(wǎng)絡(luò)試圖通過(guò)模擬大腦認(rèn)知的機(jī)理解決各種機(jī)器學(xué)習(xí)問(wèn)題,。1986年，魯梅爾哈特(Rumelhart),、欣頓(Hinton)和威廉姆斯(Williams)在《自然》雜志發(fā)表了著名的反向傳播算法用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)^[1],，該算法直到今天仍被廣泛應(yīng)用。

神經(jīng)網(wǎng)絡(luò)有大量參數(shù),，經(jīng)常發(fā)生過(guò)擬合問(wèn)題,，雖然其識(shí)別結(jié)果在訓(xùn)練集上準(zhǔn)確率很高，但在測(cè)試集上效果卻很差,。這是因?yàn)楫?dāng)時(shí)的訓(xùn)練數(shù)據(jù)集規(guī)模都較小，加之計(jì)算資源有限,，即便是訓(xùn)練一個(gè)較小的網(wǎng)絡(luò)也需要很長(zhǎng)的時(shí)間,。與其他模型相比，神經(jīng)網(wǎng)絡(luò)并未在識(shí)別準(zhǔn)確率上體現(xiàn)出明顯的優(yōu)勢(shì),。

因此更多的學(xué)者開始采用支持向量機(jī),、Boosting、最近鄰等分類器,。這些分類器可以用具有一個(gè)或兩個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)模擬,，因此被稱為淺層機(jī)器學(xué)習(xí)模型,。在這種模型中，往往是針對(duì)不同的任務(wù)設(shè)計(jì)不同的系統(tǒng),，并采用不同的手工設(shè)計(jì)的特征,。例物體識(shí)別采用尺度不變特征轉(zhuǎn)換(Scale Invariant Feature Transform, SIFT)，人臉識(shí)別采用局部二值模式(Local Binary Patterns, LBP),，行人檢測(cè)采用方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征,。

2006年，欣頓提出了深度學(xué)習(xí),。之后深度學(xué)習(xí)在諸多領(lǐng)域取得了巨大成功,，受到廣泛關(guān)注。神經(jīng)網(wǎng)絡(luò)能夠重新煥發(fā)青春的原因有幾個(gè)方面：首先,，大規(guī)模訓(xùn)練數(shù)據(jù)的出現(xiàn)在很大程度上緩解了訓(xùn)練過(guò)擬合的問(wèn)題,。例如，ImageNet^[2]訓(xùn)練集擁有上百萬(wàn)個(gè)有標(biāo)注的圖像,。其次,，計(jì)算機(jī)硬件的飛速發(fā)展為其提供了強(qiáng)大的計(jì)算能力，一個(gè)GPU芯片可以集成上千個(gè)核,。這使得訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)成為可能,。第三，神經(jīng)網(wǎng)絡(luò)的模型設(shè)計(jì)和訓(xùn)練方法都取得了長(zhǎng)足的進(jìn)步,。例如,，為了改進(jìn)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，學(xué)者提出了非監(jiān)督和逐層的預(yù)訓(xùn)練,，使得在利用反向傳播算法對(duì)網(wǎng)絡(luò)進(jìn)行全局優(yōu)化之前,，網(wǎng)絡(luò)參數(shù)能達(dá)到一個(gè)好的起始點(diǎn)，從而在訓(xùn)練完成時(shí)能達(dá)到一個(gè)較好的局部極小點(diǎn),。

深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域最具影響力的突破發(fā)生在2012年,，欣頓的研究小組采用深度學(xué)習(xí)贏得了ImageNet圖像分類比賽的冠軍^[3]。排名第2到第4位的小組采用的都是傳統(tǒng)的計(jì)算機(jī)視覺方法,、手工設(shè)計(jì)的特征,，他們之間準(zhǔn)確率的差別不超過(guò)1%。欣頓研究小組的準(zhǔn)確率超出第二名10%以上,，（見表1）,。這個(gè)結(jié)果在計(jì)算機(jī)視覺領(lǐng)域產(chǎn)生了極大的震動(dòng)，引發(fā)了深度學(xué)習(xí)的熱潮,。

計(jì)算機(jī)視覺領(lǐng)域另一個(gè)重要的挑戰(zhàn)是人臉識(shí)別,。有研究表明^[5]，如果只把不包括頭發(fā)在內(nèi)的人臉的中心區(qū)域給人看,，人眼在戶外臉部檢測(cè)數(shù)據(jù)庫(kù)(Labeled Faces in the Wild, LFW)上的識(shí)別率是97.53%,。如果把整張圖像,，包括背景和頭發(fā)給人看，人眼的識(shí)別率是99.15%,。經(jīng)典的人臉識(shí)別算法Eigenface ^[6] 在LFW測(cè)試集上只有60%的識(shí)別率,。在非深度學(xué)習(xí)算法中，最高的識(shí)別率是96.33% ^[7],。目前深度學(xué)習(xí)可以達(dá)到99.47%的識(shí)別率^[8],。

在欣頓的科研小組贏得ImageNet比賽冠軍之后的6個(gè)月，谷歌和百度都發(fā)布了新的基于圖像內(nèi)容的搜索引擎,。他們采用深度學(xué)習(xí)模型,，應(yīng)用在各自的數(shù)據(jù)上，發(fā)現(xiàn)圖像搜索準(zhǔn)確率得到了大幅度提高,。百度在2012年成立了深度學(xué)習(xí)研究院,，2014年5月又在美國(guó)硅谷成立了新的深度學(xué)習(xí)實(shí)驗(yàn)室，聘請(qǐng)斯坦福大學(xué)著名教授吳恩達(dá)擔(dān)任首席科學(xué)家,。臉譜于2013年12月在紐約成立了新的人工智能實(shí)驗(yàn)室,，聘請(qǐng)深度學(xué)習(xí)領(lǐng)域的著名學(xué)者、卷積網(wǎng)絡(luò)的發(fā)明人雅恩·樂(lè)昆(Yann LeCun)作為首席科學(xué)家,。2014年1月,，谷歌拋出四億美金收購(gòu)了深度學(xué)習(xí)的創(chuàng)業(yè)公司DeepMind。鑒于深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的巨大影響力,，2013年,，《麻省理工科技評(píng)論》(MIT Technology Review)將其列為世界十大技術(shù)突破之首。

深度學(xué)習(xí)有何與眾不同,？

深度學(xué)習(xí)和其他機(jī)器學(xué)習(xí)方法相比有哪些關(guān)鍵的不同點(diǎn),，它為何能在許多領(lǐng)域取得成功？

特征學(xué)習(xí)

深度學(xué)習(xí)與傳統(tǒng)模式識(shí)別方法的最大不同在于它所采用的特征是從大數(shù)據(jù)中自動(dòng)學(xué)習(xí)得到,，而非采用手工設(shè)計(jì),。好的特征可以提高模式識(shí)別系統(tǒng)的性能。過(guò)去幾十年,，在模式識(shí)別的各種應(yīng)用中,，手工設(shè)計(jì)的特征一直處于統(tǒng)治地位。手工設(shè)計(jì)主要依靠設(shè)計(jì)者的先驗(yàn)知識(shí),，很難利用大數(shù)據(jù)的優(yōu)勢(shì),。由于依賴手工調(diào)參數(shù)，因此特征的設(shè)計(jì)中所允許出現(xiàn)的參數(shù)數(shù)量十分有限,。深度學(xué)習(xí)可以從大數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征的表示,，可以包含成千上萬(wàn)的參數(shù),。

采用手工設(shè)計(jì)出有效的特征往往需要五到十年時(shí)間,，而深度學(xué)習(xí)可以針對(duì)新的應(yīng)用從訓(xùn)練數(shù)據(jù)中很快學(xué)習(xí)到新的有效的特征表示,。

一個(gè)模式識(shí)別系統(tǒng)包括特征和分類器兩部分。在傳統(tǒng)方法中,，特征和分類器的優(yōu)化是分開的,。而在神經(jīng)網(wǎng)絡(luò)的框架下，特征表示和分類器是聯(lián)合優(yōu)化的,，可以最大程度地發(fā)揮二者聯(lián)合協(xié)作的性能,。

2012年欣頓參加ImageNet比賽所采用的卷積網(wǎng)絡(luò)模型^[9]的特征表示包含了從上百萬(wàn)樣本中學(xué)習(xí)得到的6000萬(wàn)個(gè)參數(shù)。從ImageNet上學(xué)習(xí)得到的特征表示具有非常強(qiáng)的泛化能力,，可以成功應(yīng)用到其他數(shù)據(jù)集和任務(wù)中,，例如物體的檢測(cè)、跟蹤和檢索等,。在計(jì)算機(jī)視覺領(lǐng)域另外一個(gè)著名的競(jìng)賽是PSACAL VOC,。但是它的訓(xùn)練集規(guī)模較小，不適合訓(xùn)練深度學(xué)習(xí)模型,。有學(xué)者將ImageNet上學(xué)習(xí)得到的特征表示用于PSACAL VOC上的物體檢測(cè),，檢測(cè)率提高了20%^[10]。

既然特征學(xué)習(xí)如此重要,，那么,，什么是好的特征呢？一幅圖像中,，各種復(fù)雜的因素往往以非線性的方式結(jié)合在一起,。例如人臉圖像中就包含了身份、姿態(tài),、年齡,、表情、光線等各種信息,。深度學(xué)習(xí)的關(guān)鍵就是通過(guò)多層非線性映射將這些因素成功分開,，例如在深度模型的最后一個(gè)隱含層，不同神經(jīng)元代表了不同因素,。如果將這個(gè)隱含層當(dāng)作特征表示,，人臉識(shí)別、姿態(tài)估計(jì),、表情識(shí)別,、年齡估計(jì)就會(huì)變得非常簡(jiǎn)單，因?yàn)楦鱾€(gè)因素之間變成了簡(jiǎn)單的線性關(guān)系,，不再彼此干擾,。

深層結(jié)構(gòu)的優(yōu)勢(shì)

深度學(xué)習(xí)模型的“深”字意味著神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)深，由很多層組成。而支持向量機(jī)和Boosting等其他常用的機(jī)器學(xué)習(xí)模型都是淺層結(jié)構(gòu),。三層神經(jīng)網(wǎng)絡(luò)模型（包括輸入層,、輸出層和一個(gè)隱含層）可以近似任何分類函數(shù)。既然如此,，為什么需要深層模型呢,？

研究表明，針對(duì)特定的任務(wù),，如果模型的深度不夠,，其所需要的計(jì)算單元會(huì)呈指數(shù)增加。這意味著雖然淺層模型可以表達(dá)相同的分類函數(shù),，但其需要的參數(shù)和訓(xùn)練樣本要多得多,。淺層模型提供的是局部表達(dá)。它將高維圖像空間分成若干個(gè)局部區(qū)域,，每個(gè)局部區(qū)域至少存儲(chǔ)一個(gè)從訓(xùn)練數(shù)據(jù)中獲得的模板,，如圖1(a)所示。淺層模型將一個(gè)測(cè)試樣本和這些模板逐一匹配,，根據(jù)匹配的結(jié)果預(yù)測(cè)其類別,。例如，在支持向量機(jī)模型中,，模板是支持向量,；在最近鄰分類器中，模板是所有的訓(xùn)練樣本,。隨著分類問(wèn)題復(fù)雜度的增加,，需要將圖像空間劃分成越來(lái)越多的局部區(qū)域，因而需要越來(lái)越多的參數(shù)和訓(xùn)練樣本,。盡管目前許多深度模型的參數(shù)量已經(jīng)相當(dāng)巨大,，但如果換成淺層神經(jīng)網(wǎng)絡(luò)，其所需要的參數(shù)量要大出多個(gè)數(shù)量級(jí)才能達(dá)到相同的數(shù)據(jù)擬合效果,，以至于很難實(shí)現(xiàn),。

深度模型之所以能減少參數(shù)的關(guān)鍵在于重復(fù)利用中間層的計(jì)算單元。以人臉識(shí)別為例,，深度學(xué)習(xí)可以針對(duì)人臉圖像的分層特征表達(dá)進(jìn)行：最底層從原始像素開始學(xué)習(xí)濾波器,，刻畫局部的邊緣和紋理特征；中層濾波器通過(guò)將各種邊緣濾波器進(jìn)行組合,，描述不同類型的人臉器官,；最高層描述的是整個(gè)人臉的全局特征。

深度學(xué)習(xí)提供的是分布式的特征表示,。在最高的隱含層,，每個(gè)神經(jīng)元代表一個(gè)屬性分類器（如圖1(b)所示），例如性別、人種和頭發(fā)顏色等,。每個(gè)神經(jīng)元將圖像空間一分為二,，N個(gè)神經(jīng)元的組合就可以表達(dá)2^N個(gè)局部區(qū)域，而用淺層模型表達(dá)這些區(qū)域的劃分至少需要2^N個(gè)模板,。由此可以看出，深度模型的表達(dá)能力更強(qiáng),，效率更高,。

提取全局特征和上下文信息的能力

深度模型具有強(qiáng)大的學(xué)習(xí)能力和高效的特征表達(dá)能力，更重要的優(yōu)點(diǎn)是從像素級(jí)原始數(shù)據(jù)到抽象的語(yǔ)義概念逐層提取信息,，這使得它在提取圖像的全局特征和上下文信息方面具有突出的優(yōu)勢(shì),，為解決傳統(tǒng)的計(jì)算機(jī)視覺問(wèn)題（如圖像分割和關(guān)鍵點(diǎn)檢測(cè)）帶來(lái)了新的思路。

以人臉的圖像分割為例（如圖2所示）,，為了預(yù)測(cè)每個(gè)像素屬于哪個(gè)臉部器官（眼睛,、鼻子、嘴）,，通常的做法是在該像素周圍取一個(gè)小區(qū)域,，提取紋理特征（例如局部二值模式），再基于該特征利用支持向量機(jī)等淺層模型分類,。因?yàn)榫植繀^(qū)域包含的信息量有限,，往往產(chǎn)生分類錯(cuò)誤，因此要對(duì)分割后的圖像加入平滑和形狀先驗(yàn)等約束,。

人眼即使在存在局部遮擋的情況下也可以根據(jù)臉部其他區(qū)域的信息估計(jì)被遮擋部分的標(biāo)注,。由此可知全局和上下文信息對(duì)于局部的判斷是非常重要的，而這些信息在基于局部特征的方法中在最開始階段就丟失了,。理想情況下,，模型應(yīng)該將整幅圖像作為輸入，直接預(yù)測(cè)整幅分割圖,。圖像分割可以被看做一個(gè)高維數(shù)據(jù)轉(zhuǎn)換的問(wèn)題來(lái)解決,。這樣不但利用到了上下文信息，模型在高維數(shù)據(jù)轉(zhuǎn)換過(guò)程中也隱式地加入了形狀先驗(yàn),。但是由于整幅圖像內(nèi)容過(guò)于復(fù)雜,，淺層模型很難有效地捕捉全局特征。而深度學(xué)習(xí)的出現(xiàn)使這一思路成為可能,，在人臉?lè)指?sup style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;">[11],、人體分割^[12]、人臉圖像配準(zhǔn)^[13]和人體姿態(tài)估計(jì)等各個(gè)方面都取得了成功^[14],。

聯(lián)合深度學(xué)習(xí)

一些研究計(jì)算機(jī)視覺的學(xué)者將深度學(xué)習(xí)模型視為黑盒子,，這種看法是不全面的。傳統(tǒng)計(jì)算機(jī)視覺系統(tǒng)和深度學(xué)習(xí)模型存在著密切的聯(lián)系，利用這種聯(lián)系可以提出新的深度模型和訓(xùn)練方法,。用于行人檢測(cè)的聯(lián)合深度學(xué)習(xí)^[15]就是一個(gè)成功的例子,。一個(gè)計(jì)算機(jī)視覺系統(tǒng)包含若干個(gè)關(guān)鍵的組成模塊。例如,，一個(gè)行人檢測(cè)器包括特征提取,、部件檢測(cè)器、部件幾何形變建模,、部件遮擋推理,、分類器等模塊。在聯(lián)合深度學(xué)習(xí)中^[15],，深度模型的各個(gè)層和視覺系統(tǒng)的各個(gè)模塊可以建立對(duì)應(yīng)關(guān)系,。如果視覺系統(tǒng)中的關(guān)鍵模塊在現(xiàn)有深度學(xué)習(xí)的模型中沒(méi)有與之對(duì)應(yīng)的層，則它們可以啟發(fā)我們提出新的深度模型,。例如,，大量物體檢測(cè)的研究工作表明，對(duì)物體部件的幾何形變建?？梢杂行岣邫z測(cè)率,，但是在常用的深度模型中沒(méi)有與之相對(duì)應(yīng)的層，因此聯(lián)合深度學(xué)習(xí)^[15]及其后續(xù)的工作^[16]都提出了新的形變層和形變池化層來(lái)實(shí)現(xiàn)這一功能,。

從訓(xùn)練方式上看,，計(jì)算機(jī)視覺系統(tǒng)的各個(gè)模塊是逐一訓(xùn)練或手工設(shè)計(jì)的。在深度模型的預(yù)訓(xùn)練階段,，各個(gè)層也是逐一訓(xùn)練的,。如果我們能夠建立計(jì)算機(jī)視覺系統(tǒng)和深度模型之間的對(duì)應(yīng)關(guān)系，那么在視覺研究中積累的經(jīng)驗(yàn)就可以對(duì)深度模型的預(yù)訓(xùn)練提供指導(dǎo),。這樣預(yù)訓(xùn)練后得到的模型就可以達(dá)到與傳統(tǒng)計(jì)算機(jī)視覺系統(tǒng)可比的結(jié)果,。在此基礎(chǔ)上，深度學(xué)習(xí)還會(huì)利用反向傳播對(duì)所有層進(jìn)行聯(lián)合優(yōu)化,，使它們之間的相互協(xié)作達(dá)到最優(yōu),，從而使整個(gè)網(wǎng)絡(luò)的性能得到重大提升。

深度學(xué)習(xí)在物體識(shí)別中的應(yīng)用

ImageNet圖像分類

深度學(xué)習(xí)在物體識(shí)別中最重要的進(jìn)展體現(xiàn)在ImageNet ILSVRC挑戰(zhàn)中的圖像分類任務(wù),。傳統(tǒng)計(jì)算機(jī)視覺方法在此測(cè)試集上最低的錯(cuò)誤率是26.172%,。2012年，欣頓的研究小組利用卷積網(wǎng)絡(luò)把錯(cuò)誤率降到了15.315%,。此網(wǎng)絡(luò)結(jié)構(gòu)被稱為Alex Net^[3],，與傳統(tǒng)的卷積網(wǎng)絡(luò)相比，它有三點(diǎn)與眾不同之處：首先,，Alex Net采用了dropout的訓(xùn)練策略,，在訓(xùn)練過(guò)程中將輸入層和中間層的一些神經(jīng)元隨機(jī)置零,。這模擬了噪音對(duì)輸入數(shù)據(jù)的各種干擾使一些神經(jīng)元對(duì)一些視覺模式產(chǎn)生漏檢的情況。Dropout使訓(xùn)練過(guò)程收斂得更慢,，但得到的網(wǎng)絡(luò)模型更加魯棒,。其次，Alex Net采用整流線型單元作為非線性的激發(fā)函數(shù),。這不僅大大降低了計(jì)算的復(fù)雜度,，而且使神經(jīng)元的輸出具有稀疏的特征，對(duì)各種干擾更加魯棒,。第三,，Alex Net通過(guò)對(duì)訓(xùn)練樣本鏡像映射和加入隨機(jī)平移擾動(dòng)，產(chǎn)生了更多的訓(xùn)練樣本,，減少了過(guò)擬合。

在ImageNet ILSVRC 2013比賽中,，排名前20的小組使用的都是深度學(xué)習(xí)技術(shù),。獲勝者是紐約大學(xué)羅伯·費(fèi)格斯(Rob Fergus)的研究小組，所采用的深度模型是卷積網(wǎng)絡(luò),，并對(duì)網(wǎng)絡(luò)結(jié)構(gòu)作了進(jìn)一步優(yōu)化,，錯(cuò)誤率為11.197%，其模型稱作Clarifai^[17],。

在ILSVRC 2014比賽中,，獲勝者GooLeNet^[18]將錯(cuò)誤率降到了6.656%。GooLeNet突出的特點(diǎn)是大大增加了卷積網(wǎng)絡(luò)的深度,，超過(guò)了20層,，這在此之前是不可想象的。很深的網(wǎng)絡(luò)結(jié)構(gòu)給預(yù)測(cè)誤差的反向傳播帶了困難,，這是因?yàn)轭A(yù)測(cè)誤差是從最頂層傳到底層的,，傳到底層的誤差很小，難以驅(qū)動(dòng)底層參數(shù)的更新,。GooLeNet采取的策略是將監(jiān)督信號(hào)直接加到多個(gè)中間層,，這意味著中間層和底層的特征表示也要能夠?qū)τ?xùn)練數(shù)據(jù)進(jìn)行準(zhǔn)確分類。如何有效地訓(xùn)練很深的網(wǎng)絡(luò)模型仍是未來(lái)研究的一個(gè)重要課題,。

雖然深度學(xué)習(xí)在ImageNet上取得了巨大成功,，但是很多應(yīng)用的訓(xùn)練集是較小的，在這種情況下,，如何應(yīng)用深度學(xué)習(xí)呢,？有三種方法可供參考：(1)可以將ImageNet上訓(xùn)練得到的模型作為起點(diǎn)，利用目標(biāo)訓(xùn)練集和反向傳播對(duì)其進(jìn)行繼續(xù)訓(xùn)練,，將模型適應(yīng)到特定的應(yīng)用^[10],。此時(shí)ImageNet起到預(yù)訓(xùn)練的作用,。(2)如果目標(biāo)訓(xùn)練集不夠大，可以將底層的網(wǎng)絡(luò)參數(shù)固定,，沿用ImageNet上的訓(xùn)練集結(jié)果,，只對(duì)上層進(jìn)行更新。這是因?yàn)榈讓拥木W(wǎng)絡(luò)參數(shù)是最難更新的,，而從ImageNet學(xué)習(xí)得到的底層濾波器往往描述了各種不同的局部邊緣和紋理信息,，而這些濾波器對(duì)一般的圖像有較好的普適性。(3)直接采用ImageNet上訓(xùn)練得到的模型,，把最高的隱含層的輸出作為特征表達(dá),，代替常用的手工設(shè)計(jì)的特征^{[19, 20]}。

人臉識(shí)別

深度學(xué)習(xí)在物體識(shí)別上的另一個(gè)重要突破是人臉識(shí)別,。人臉識(shí)別的最大挑戰(zhàn)是如何區(qū)分由于光線,、姿態(tài)和表情等因素引起的類內(nèi)變化和由于身份不同產(chǎn)生的類間變化。這兩種變化的分布是非線性的,，且極為復(fù)雜,，傳統(tǒng)的線性模型無(wú)法將它們有效區(qū)分開。深度學(xué)習(xí)的目的是通過(guò)多層的非線性變換得到新的特征表示,。這些新特征須盡可能多地去掉類內(nèi)變化,，而保留類間變化。

人臉識(shí)別包括人臉確認(rèn)和人臉辨識(shí)兩種任務(wù),。人臉確認(rèn)是判斷兩張人臉照片是否屬于同一個(gè)人,，屬于二分類問(wèn)題，隨機(jī)猜的正確率是50%,。人臉辨識(shí)是將一張人臉圖像分為N個(gè)類別之一,，類別是由人臉的身份定義的。這是個(gè)多分類問(wèn)題,，更具挑戰(zhàn)性,，其難度隨著類別數(shù)的增多而增大，隨機(jī)猜的正確率是1/N,。兩種任務(wù)都可以通過(guò)深度模型學(xué)習(xí)人臉的特征表達(dá),。

2013年，文獻(xiàn)[21]采用人臉確認(rèn)任務(wù)作為監(jiān)督信號(hào),，利用卷積網(wǎng)絡(luò)學(xué)習(xí)人臉特征,，在LFW上取得了92.52%的識(shí)別率。這一結(jié)果雖然與后續(xù)的深度學(xué)習(xí)方法相比較低,，但也超過(guò)了大多數(shù)非深度學(xué)習(xí)算法,。由于人臉確認(rèn)是一個(gè)二分類問(wèn)題，用它學(xué)習(xí)人臉特征的效率比較低,，容易在訓(xùn)練集上發(fā)生過(guò)擬合,。而人臉辨識(shí)是一個(gè)更具挑戰(zhàn)性的多分類問(wèn)題,，不容易發(fā)生過(guò)擬合，更適合通過(guò)深度模型學(xué)習(xí)人臉特征,。另一方面,，在人臉確認(rèn)中，每一對(duì)訓(xùn)練樣本被人工標(biāo)注成兩類中的一類,，所含信息量較少,。而在人臉辨識(shí)中，每個(gè)訓(xùn)練樣本都被人工標(biāo)注成N類之一,，信息量大,。

在2014年的IEEE國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議(IEEE Conference on Computer Vision and Pattern Recognition, CVPR)上，DeepID^[22]和DeepFace^[23] 都采用人臉辨識(shí)作為監(jiān)督信號(hào),，在LFW上分別取得了97.45%和97.35%的識(shí)別率（見表2）,。他們利用卷積網(wǎng)絡(luò)預(yù)測(cè)N維標(biāo)注向量，將最高的隱含層作為人臉特征,。這一層在訓(xùn)練過(guò)程中要區(qū)分大量的人臉類別（例如在DeepID中區(qū)分1000個(gè)類別的人臉）,，因此包含了豐富的類間變化的信息，有很強(qiáng)的泛化能力,。雖然訓(xùn)練中采用的是人臉辨識(shí)任務(wù),，但得到的特征可以應(yīng)用到人臉確認(rèn)任務(wù)中,，以及識(shí)別訓(xùn)練集中是否有新人,。例如，LFW上用于測(cè)試的任務(wù)是人臉確認(rèn)任務(wù),，不同于訓(xùn)練中的人臉辨識(shí)任務(wù),；DeepID^[21]和DeepFace^[22]的訓(xùn)練集與LFW測(cè)試集的人物身份是不重合的。

通過(guò)人臉辨識(shí)任務(wù)學(xué)習(xí)得到的人臉特征包含較多的類內(nèi)變化,。DeepID2^[24]聯(lián)合使用人臉確認(rèn)和人臉辨識(shí)作為監(jiān)督信號(hào),，得到的人臉特征在保持類間變化的同時(shí)使類內(nèi)變化最小化，從而將LFW上的人臉識(shí)別率提高到99.15%,。DeepID2利用Titan GPU提取一幅人臉圖像的特征只需要35毫秒,，而且可以離線進(jìn)行。經(jīng)過(guò)主元分析(Principal Component Analysis, PCA)壓縮最終得到80維的特征向量,，可以用于快速人臉在線比對(duì),。在后續(xù)工作中，DeepID2^[8]通過(guò)擴(kuò)展網(wǎng)絡(luò)結(jié)構(gòu),，增加訓(xùn)練數(shù)據(jù),，以及在每一層都加入監(jiān)督信息，在LFW達(dá)到了99.47%的識(shí)別率,。

一些人認(rèn)為深度學(xué)習(xí)的成功是由于用具有大量參數(shù)的復(fù)雜模型去擬合數(shù)據(jù)集,，其實(shí)遠(yuǎn)非如此簡(jiǎn)單,。例如DeepID2+的成功還在于其所具有的很多重要有趣的特征^[8]：它最上層的神經(jīng)元響應(yīng)是中度稀疏的，對(duì)人臉身份和各種人臉屬性具有很強(qiáng)的選擇性,，對(duì)局部遮擋有很強(qiáng)的魯棒性,。在以往的研究中，為了得到這些屬性,，我們往往需要對(duì)模型加入各種顯示的約束,。而DeepID2+通過(guò)大規(guī)模學(xué)習(xí)自動(dòng)擁有了這些屬性，其背后的理論分析值得未來(lái)進(jìn)一步研究,。

深度學(xué)習(xí)在物體檢測(cè)中的應(yīng)用

物體檢測(cè)是比物體識(shí)別更難的任務(wù),。一幅圖像中可能包含屬于不同類別的多個(gè)物體，物體檢測(cè)需要確定每個(gè)物體的位置和類別,。2013年,，ImageNet ILSVRC比賽的組織者增加了物體檢測(cè)的任務(wù)，要求在4萬(wàn)張互聯(lián)網(wǎng)圖片中檢測(cè)200類物體,。比賽獲勝者使用的是手動(dòng)設(shè)計(jì)的特征,，平均物體檢測(cè)率(mean Averaged Precision, mAP)只有22.581%。在ILSVRC 2014中,，深度學(xué)習(xí)將平均物體檢測(cè)率提高到了43.933%,。較有影響力的工作包括 RCNN^[10]、Overfeat^[25],、GoogLeNet^[18],、DeepID-Net^[16]、network in network^[26],、VGG^[27]和spatial pyramid pooling in deep CNN^[28],。RCNN^[10]首次提出了被廣泛采用的基于深度學(xué)習(xí)的物體檢測(cè)流程，并首先采用非深度學(xué)習(xí)方法（例如selective search^[29]）提出候選區(qū)域,，利用深度卷積網(wǎng)絡(luò)從候選區(qū)域提取特征,，然后利用支持向量機(jī)等線性分類器基于特征將區(qū)域分為物體和背景。DeepID-Net^[16]進(jìn)一步完善了這一流程,，使得檢測(cè)率有了大幅提升,，并且對(duì)每一個(gè)環(huán)節(jié)的貢獻(xiàn)做了詳細(xì)的實(shí)驗(yàn)分析。深度卷積網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)也至關(guān)重要,，如果一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)能夠提高圖像分類任務(wù)的準(zhǔn)確性,，通常也能顯著提升物體檢測(cè)器的性能。

深度學(xué)習(xí)的成功還體現(xiàn)在行人檢測(cè)上,。在最大的行人檢測(cè)測(cè)試集(Caltech^[30])上,，廣泛采用的方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征和可變形部件模型^[31]的平均誤檢率是68%。目前基于深度學(xué)習(xí)檢測(cè)的最好結(jié)果是20.86%^[32],。在最新的研究進(jìn)展中,，很多被證明行之有效的物體檢測(cè)都用到了深度學(xué)習(xí),。例如，聯(lián)合深度學(xué)習(xí)^[15]提出了形變層,，對(duì)物體部件間的幾何形變進(jìn)行建模,；多階段深度學(xué)習(xí)^[33]可以模擬物體檢測(cè)中常用的級(jí)聯(lián)分類器；可切換深度網(wǎng)絡(luò)^[34]可以表達(dá)物體各個(gè)部件的混合模型,；文獻(xiàn)[35]通過(guò)遷移學(xué)習(xí)將一個(gè)深度模型行人檢測(cè)器自適應(yīng)到一個(gè)目標(biāo)場(chǎng)景,。

深度學(xué)習(xí)用于視頻分析

深度學(xué)習(xí)在視頻分類上的應(yīng)用還處于起步階段，未來(lái)還有很多工作要做,。描述視頻的靜態(tài)圖像特征可以采用從ImageNet上學(xué)習(xí)得到的深度模型,，難點(diǎn)是如何描述動(dòng)態(tài)特征。以往的視覺研究方法對(duì)動(dòng)態(tài)特征的描述往往依賴于光流估計(jì),、對(duì)關(guān)鍵點(diǎn)的跟蹤和動(dòng)態(tài)紋理,。如何將這些信息體現(xiàn)在深度模型中是個(gè)難點(diǎn)。最直接的做法是將視頻視為三維圖像,，直接應(yīng)用卷積網(wǎng)絡(luò)^[36]在每一層學(xué)習(xí)三維濾波器,。但是這一思路顯然沒(méi)有考慮到時(shí)間維和空間維的差異性。另外一種簡(jiǎn)單但更加有效的思路是,，通過(guò)預(yù)處理計(jì)算光流場(chǎng)或其他動(dòng)態(tài)特征的空間場(chǎng)分布,，作為卷積網(wǎng)絡(luò)的一個(gè)輸入通道^[37~39]。也有研究工作利用深度編碼器(deep autoencoder)以非線性的方式提取動(dòng)態(tài)紋理^[38],。在最新的研究工作中^[41],，長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)受到廣泛關(guān)注，它可以捕捉長(zhǎng)期依賴性,，對(duì)視頻中復(fù)雜的動(dòng)態(tài)建模,。

未來(lái)發(fā)展的展望

深度學(xué)習(xí)在圖像識(shí)別中的應(yīng)用方興未艾,，未來(lái)有著巨大的發(fā)展空間,。

在物體識(shí)別和物體檢測(cè)研究的一個(gè)趨勢(shì)是使用更大更深的網(wǎng)絡(luò)結(jié)構(gòu)。在ILSVRC 2012中,，Alex Net只包含了5個(gè)卷積層和兩個(gè)全連接層,。而在ILSVRC2014中， GooLeNet和 VGG 使用的網(wǎng)絡(luò)結(jié)構(gòu)都超過(guò)了20層,。更深的網(wǎng)絡(luò)結(jié)構(gòu)使得反向傳播更加困難,。與此同時(shí)，訓(xùn)練數(shù)據(jù)的規(guī)模也在迅速變大,。這迫切需要研究新的算法和開發(fā)新的并行計(jì)算系統(tǒng)來(lái)更加有效地利用大數(shù)據(jù)訓(xùn)練更大更深的模型,。

與圖像識(shí)別相比，深度學(xué)習(xí)在視頻分類中的應(yīng)用還遠(yuǎn)未成熟,。從ImageNet 訓(xùn)練得到的圖像特征可以直接有效地應(yīng)用到各種與圖像相關(guān)的識(shí)別任務(wù)（例如圖像分類,、圖像檢索,、物體檢測(cè)和圖像分割等）和其他不同的圖像測(cè)試集中，具有良好的泛化性能,。但是深度學(xué)習(xí)至今還沒(méi)有得到類似的可用于視頻分析的特征,。要達(dá)到這個(gè)目的，不但要建立大規(guī)模的訓(xùn)練數(shù)據(jù)集（文獻(xiàn)[42]最新建立了包含100萬(wàn)個(gè)YouTube視頻的數(shù)據(jù)庫(kù)）,，還需要研究適用于視頻分析的新的深度模型,。訓(xùn)練用于視頻分析的深度模型的計(jì)算量也會(huì)大大增加。

在與圖像和視頻相關(guān)的應(yīng)用中,，深度模型的輸出預(yù)測(cè)（例如分割圖或物體檢測(cè)框）往往具有空間和時(shí)間上的相關(guān)性,。因此研究具有結(jié)構(gòu)性輸出的深度模型也是一個(gè)重點(diǎn)。

雖然神經(jīng)網(wǎng)絡(luò)的目的在于解決一般意義上的機(jī)器學(xué)習(xí)問(wèn)題,，但領(lǐng)域知識(shí)對(duì)深度模型的設(shè)計(jì)也起著重要的作用,。在與圖像和視頻相關(guān)的應(yīng)用中，最成功的是深度卷積網(wǎng)絡(luò),，其設(shè)計(jì)正是利用了圖像的特殊結(jié)構(gòu),。其中最重要的兩個(gè)操作——卷積和池化都來(lái)自與圖像相關(guān)的領(lǐng)域知識(shí)。如何通過(guò)研究領(lǐng)域知識(shí),，在深度模型中引入新的有效的操作和層,，對(duì)于提高圖像和視頻識(shí)別的性能有著重要意義。例如,，池化層帶來(lái)了局部的平移不變性,，文獻(xiàn)[16]中提出的形變池化層在此基礎(chǔ)上更好地描述了物體各個(gè)部分的幾何形變。在未來(lái)研究中,，可以將其進(jìn)一步擴(kuò)展,，從而取得旋轉(zhuǎn)不變性、尺度不變性和對(duì)遮擋的魯棒性,。

通過(guò)研究深度模型和傳統(tǒng)計(jì)算機(jī)視覺系統(tǒng)之間的關(guān)系,，不但可以幫助我們理解深度學(xué)習(xí)成功的原因，還可以啟發(fā)新的模型和訓(xùn)練方法,。聯(lián)合深度學(xué)習(xí)^[15]和多階段深度學(xué)習(xí)^[33]未來(lái)還有更多的工作要做,。

雖然深度學(xué)習(xí)在實(shí)踐中取得了巨大成功，而且通過(guò)大數(shù)據(jù)訓(xùn)練得到的深度模型體現(xiàn)出的特性（例如稀疏性,、選擇性和對(duì)遮擋的魯棒性^[8]）引人注目,，但其背后的理論分析還有許多工作需要完成。例如,，何時(shí)收斂,？如何取得較好的局部極小點(diǎn)？每一層變換取得了哪些對(duì)識(shí)別有益的不變性，又損失了哪些信息,？最近馬拉特(Mallat)利用小波對(duì)深層網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了量化分析^[43],，這是在此方向上的重要探索。

結(jié)語(yǔ)

深度模型并非黑盒子,，它與傳統(tǒng)的計(jì)算機(jī)視覺系統(tǒng)有著密切的聯(lián)系,，神經(jīng)網(wǎng)絡(luò)的各個(gè)層通過(guò)聯(lián)合學(xué)習(xí)、整體優(yōu)化,，使得性能得到大幅提升,。與圖像識(shí)別相關(guān)的各種應(yīng)用也在推動(dòng)深度學(xué)習(xí)在網(wǎng)絡(luò)結(jié)構(gòu)、層的設(shè)計(jì)和訓(xùn)練方法各個(gè)方面的快速發(fā)展,?？梢灶A(yù)見在未來(lái)數(shù)年內(nèi)，深度學(xué)習(xí)將會(huì)在理論,、算法和應(yīng)用各方面進(jìn)入高速發(fā)展時(shí)期,。

圖：

表：

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：成長(zhǎng)相對(duì)論 > 《瞄準(zhǔn)新教育》

舉報(bào)/認(rèn)領(lǐng)