人臉檢測與識別年度進(jìn)展概述

天天天藍(lán)663 2017-07-01

展開全文

深度學(xué)習(xí)大講堂是由中科視拓運(yùn)營的高質(zhì)量原創(chuàng)內(nèi)容平臺，邀請學(xué)術(shù)界,、工業(yè)界一線專家撰稿,，致力于推送人工智能與深度學(xué)習(xí)最新技術(shù)、產(chǎn)品和活動信息,！

編者按：這是一個(gè)看臉的世界,，尤其在這個(gè)刷臉就能夠影響銀行卡余額的時(shí)代，如何準(zhǔn)確地看臉已經(jīng)成為關(guān)系到民生大計(jì)的重大問題,。二十年來專注于人臉的中科院計(jì)算所研究員,、中科視拓董事長兼CTO山世光博士，將帶著大家從技術(shù)和應(yīng)用兩個(gè)層面,，回顧人臉檢測與識別領(lǐng)域一年來的進(jìn)展,。大講堂特別在文末提供文中提到所有文章的下載連接。

過去一年與以往幾年相比,，在方法和技術(shù)層面的一個(gè)核心趨勢是：人臉識別相關(guān)技術(shù)已經(jīng)全面深度化。相比其他視覺或機(jī)器學(xué)習(xí)任務(wù),，人臉識別的特殊性遠(yuǎn)沒有我們之前認(rèn)為的大,，所以我認(rèn)為過去一年特異于人臉識別的新方法和新技術(shù)并不是特別多。但是,，在應(yīng)用方面,，人臉識別正可謂“花月正春風(fēng)”，甚至可以說它引領(lǐng)了計(jì)算機(jī)視覺的落地應(yīng)用,，不過后面會提到要謹(jǐn)防倒春寒,。

我們知道，一套全自動的人臉識別系統(tǒng)大概包括三個(gè)不同的步驟：

1.人臉檢測,，即從畫面中框出圖像中出現(xiàn)的人臉,；

2.特征點(diǎn)定位，即標(biāo)記出人臉上的眼睛,、鼻子,、嘴等關(guān)鍵點(diǎn)；

3.狹義的人臉識別,，即完成輸入人臉與系統(tǒng)已見過,、記憶過的人臉的比對。

在這里,，我先總體上概括一下這三個(gè)步驟上的年度進(jìn)展：

1. 人臉檢測

在人臉檢測方面,，目前主流的方法是通用目標(biāo)檢測中的R-CNN等這類方法，Cascade CNN則是比較特異于人臉檢測的方法,，它將傳統(tǒng)的滑動窗口方法與深度學(xué)習(xí)相結(jié)合,，也取得了不亞于R-CNN系列方法的性能,。人臉檢測曾被認(rèn)為是一個(gè)已經(jīng)解決的問題，事實(shí)上并不是,，在人臉分辨率極低,、姿態(tài)很大、背光,、偏光,、極低照度等惡劣光照條件下，還是會有很多漏檢,。有鑒于此,，去年出現(xiàn)了一個(gè)新的人臉檢測Benchmark，應(yīng)該會對人臉檢測領(lǐng)域產(chǎn)生重要促進(jìn)作用,。

2. 特征點(diǎn)定位

對于第二個(gè)步驟,，即特征點(diǎn)定位，我們感覺去年的一個(gè)趨勢是從過去流行的基于深度特征學(xué)習(xí)的Cascaded Shape Regression策略,，到引入RNN這樣的循環(huán)神經(jīng)網(wǎng)絡(luò)策略,，并試圖解決大姿態(tài)條件下的特征點(diǎn)定位問題。

3. 狹義人臉識別

對于第三個(gè)步驟,，即狹義的人臉識別或人臉比對,，個(gè)人認(rèn)為技術(shù)上并沒有太多新的進(jìn)步，主流的方法仍然是采用各種深度卷積神經(jīng)網(wǎng)絡(luò)（DCNN）,，特別是ResNet,，來學(xué)習(xí)更有判別力的特征。實(shí)戰(zhàn)中性能的提升主要還是來自越來越多的人臉數(shù)據(jù),，不同場景下的人臉識別技術(shù)均取得了很大的進(jìn)步,，并在快速進(jìn)入市場。當(dāng)然,，這個(gè)領(lǐng)域需要新的benchmark來度量技術(shù)的本質(zhì)進(jìn)步情況,。

原有數(shù)據(jù)集

從人臉檢測的角度來看，在過去的幾年里,，學(xué)術(shù)界大多數(shù)還是在用FDDB做測試用的benchmark,。目前，在這個(gè)共有2845幅圖像,、5171個(gè)人臉的數(shù)據(jù)集上,，在共輸出100個(gè)誤檢的情況下，用Fast R-CNN可以輕松取得90%以上的檢測率或稱召回率,。工業(yè)界有些報(bào)道號稱已經(jīng)做到了95%,，所以它基本上趨于飽和了。當(dāng)然，值得特別注意的是,，這個(gè)檢測率在不少時(shí)候是有歧義的,，有些團(tuán)隊(duì)報(bào)告的是10折平均的結(jié)果，有些報(bào)告的是一次性全部檢測的結(jié)果,，這兩個(gè)結(jié)果是不可比的：10折平均的結(jié)果可能會偏高1-3個(gè)百分點(diǎn),。

Wider Face數(shù)據(jù)集

2016年人臉檢測領(lǐng)域的一個(gè)重要變化是出現(xiàn)了一個(gè)新的Benchmark：香港中文大學(xué)貢獻(xiàn)了一個(gè)規(guī)模更大、數(shù)據(jù)變化更豐富的新數(shù)據(jù)集——Wider Face,。其中包括1.6萬測試圖像,，共19.4萬個(gè)標(biāo)注人臉。更重要的是,，如上圖所示,，數(shù)據(jù)集中的人臉有大小、姿態(tài),、光照,、遮擋以及表情等各方面非常復(fù)雜的變化。特別的,，其中50%的人臉高度小于50個(gè)像素,，甚至大量高度小于20個(gè)像素的Tiny face。

Wider Face將測試圖像分為“難”,、“中”,、“易”三種不同的難度等級。

從目前State of the art方法的檢測曲線不難看出,，在最“難”的測試子集上，目前只能做到80%的檢測率和80%的精度,，對檢測任務(wù)而言,，這是相當(dāng)?shù)偷慕Y(jié)果了?？梢?，在該數(shù)據(jù)集上，現(xiàn)有方法的性能在“難”等級下還有非常長的路可以走,。

小人臉檢測：Tiny Face

針對小人臉檢測問題,，去年出現(xiàn)了TinyFace方法，該方法希望能夠找到更小的人臉,。在過去,，典型人臉檢測系統(tǒng)能夠檢測到的最小人臉是20*20像素，而在很多現(xiàn)實(shí)應(yīng)用中,，最小的人臉可能是16*16,，甚至是10*10這樣的級別，TinyFace方法試圖探究如何找到這些非常小的人臉。其實(shí),，該方法并沒有太多技術(shù)創(chuàng)新,，它本質(zhì)上采用了圖像金字塔把小臉變大，再進(jìn)行人臉檢測,，同時(shí)引入了大容量的網(wǎng)絡(luò)如ResNet101,，以及多尺度融合等技術(shù)，充分利用更多的上下文信息,，并在Wider Face的Hard子集上取得了82.3%的精度,，大大超過了之前的其他方法。但值得注意的是,，高精度的代價(jià)是檢測速度非常慢,！

從面部特征點(diǎn)定位的角度看，過去一年的主要技術(shù)路線仍然是把特征定位問題轉(zhuǎn)化為瀑布式的形狀回歸問題進(jìn)行求解,。和過去幾年一樣,，其中仍然是采用深度學(xué)習(xí)的特征，并用遞歸方式求解回歸問題,。

2016年,，該領(lǐng)域的一個(gè)有趣進(jìn)展是引入了循環(huán)神經(jīng)網(wǎng)絡(luò)RNN，對Cascaded Shape Regression中stage-by-stage refine的策略進(jìn)行建模,，特別是通過把上一級的隱層輸出作為下一層的輸入等手段,，在300W這樣的數(shù)據(jù)集上面取得了比較大的進(jìn)步。

大姿態(tài)人臉特征點(diǎn)定位

2016年另一個(gè)值得關(guān)注的面部特征點(diǎn)定位方法是密西根州立大學(xué)的Xiaoming Liu團(tuán)隊(duì)的工作,。他們發(fā)表在CVPR2016上的工作特別針對大姿態(tài)人臉的特征點(diǎn)定位問題,，采用深度改進(jìn)后的3DMM方法對人臉進(jìn)行三維建模，然后將建模后人臉的三維信息與二維圖像相結(jié)合,，再做形狀回歸,。在大姿態(tài)人臉上，取得了顯著優(yōu)于已有方法的定位精度,。

狹義的人臉識別方面的進(jìn)展

1. 什么是狹義人臉識別

所謂的狹義人臉識別指的是：首先采用前述的人臉檢測和特征定位對所有人臉進(jìn)行對齊,，然后裁剪出眉眼鼻嘴形成的核心人臉區(qū)域，之后從中提取人臉特征進(jìn)行存儲或與已知人臉的特征進(jìn)行相似度計(jì)算的過程,。

2. 核心技術(shù)

里面的核心是“如何提取具有區(qū)分能力的特征”,，2012年以來，采用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)已經(jīng)成為人臉識別領(lǐng)域的標(biāo)準(zhǔn)技術(shù),。過去一年來,，這方面主要的進(jìn)步還是來自更大規(guī)模實(shí)戰(zhàn)數(shù)據(jù)以及殘差卷積神經(jīng)網(wǎng)絡(luò)ResNet的應(yīng)用。

3. 數(shù)據(jù)增廣

此外,，對于一些難以獲取大量數(shù)據(jù)的場景,，研究人員也在想法設(shè)法采用半自動或自動的方法“增廣”數(shù)據(jù)集，包括基于三維人臉模型合成人臉或者采用GAN這類方法生成數(shù)據(jù)，這里的3D人臉模型既可能是采用專用設(shè)備采集的,，也可能是采用3D MM等方法自動重建的,。值得注意的是，盡管GAN很火熱,，也能合成出一些視覺效果不錯的人臉圖像,，但其合成的增廣人臉數(shù)據(jù)是否能夠用來增廣特定人的數(shù)據(jù)并提高特征學(xué)習(xí)的效果，目前尚不得而知,。此外,，面向移動終端和嵌入式應(yīng)用等實(shí)際應(yīng)用需求，也有大量工作是進(jìn)行模型壓縮和計(jì)算加速的,。

表情識別

接下來簡單說說表情識別,。感覺表情識別一直不溫不火，進(jìn)步并不明顯,，這其中的核心障礙我認(rèn)為還是來自數(shù)據(jù)收集的困難,。從早期的Posed Expression，到后來的自發(fā)表情（spontaneous expression）數(shù)據(jù),，大量真實(shí)自然表情數(shù)據(jù)的收集都非常不容易,。

不過，盡管表情數(shù)據(jù)集的規(guī)模相比人臉識別的數(shù)據(jù)規(guī)模小得多,，深度學(xué)習(xí)還是快速滲透進(jìn)來,，并已經(jīng)在7類基本表情識別和幾十個(gè)面部動作單元（AU）的檢測方面均取得了不小的進(jìn)步。如何利用較小規(guī)模的標(biāo)注表情數(shù)據(jù)集進(jìn)行更加魯棒的表情識別是非常值得關(guān)注的,！

EmotioNet數(shù)據(jù)集

2016年出現(xiàn)了一個(gè)包含百萬圖像的數(shù)據(jù)集——EmotioNet ,。在該數(shù)據(jù)集上，可以采用深度學(xué)習(xí)這類方法做更多表情強(qiáng)度的估計(jì)和動作單元強(qiáng)度的估計(jì),。不過,，需要特別注意的是，盡管這個(gè)表情數(shù)據(jù)集規(guī)模非常大,，但它并不是完全由手工標(biāo)注，而是通過半自動的方式標(biāo)注的,，所以可能存在很多噪聲,。如何利用好這樣的數(shù)據(jù)也是值得關(guān)注的。

“Data is king,！Math is Queen?”

最后介紹一下工業(yè)界一年來的技術(shù)和應(yīng)用進(jìn)展情況,。我想工業(yè)界已經(jīng)越來越深刻的體會到了“Data is king！”這個(gè)著名論斷在深度學(xué)習(xí)時(shí)代的正確性,。甚至于有人開始懷疑：“Math is Queen”是否還正確,。從學(xué)術(shù)界的觀點(diǎn)來說，Math的重要性是顯然的，也是未來技術(shù)突破的基石,，但工業(yè)界確實(shí)目前更多的在享受著大數(shù)據(jù)帶來的紅利,。

過去一兩年，與人臉識別核心技術(shù)創(chuàng)新的乏善可陳相比,，人臉識別的應(yīng)用進(jìn)展切實(shí)進(jìn)入了“高鐵”時(shí)代,！我們知道，人臉識別有很多應(yīng)用場景,，不同場景的成熟度差異很大,。

1. 第一種場景，1:1 的人證合一驗(yàn)證系統(tǒng),。

典型的應(yīng)用是：刷身份證讀取卡內(nèi)照片,，將其與現(xiàn)場采集的用戶人臉去做比對，看是否身份證的合法持有人,。這個(gè)任務(wù)在三四年前大多數(shù)人臉識別專家還認(rèn)為幾乎是不可能完成的任務(wù),，但就在最近一兩年，通過上萬甚至幾十萬人此類應(yīng)用數(shù)據(jù)的訓(xùn)練,，在被識別人配合的情況下,，最好的系統(tǒng)已經(jīng)可以在0.01%的誤識率時(shí)達(dá)到95%以上的正確驗(yàn)證率。也就是說,，一萬個(gè)人來冒充某個(gè)人A,，只有一個(gè)可以冒充成功，而A本人在95%的情況下可以被正確識別出來,。如果允許誤識率更高一些,，比如到0.1%，識別率甚至可以進(jìn)一步提高到99%以上（對配合用戶）,。這種場景還是1:1驗(yàn)證中最有挑戰(zhàn)性的：因?yàn)樯矸葑C卡內(nèi)照片只有102*126像素,，而且被壓縮成了1K字節(jié)存儲在身份證內(nèi)，而且其中人臉已經(jīng)有多年的老化,。

2. 第二種場景,，1:N靜態(tài)照片比對系統(tǒng)。

典型應(yīng)用場景是公安人員對不明身份嫌疑人照片進(jìn)行公安大庫照片比對,，以確定其身份,。這種應(yīng)用甚至在幾年前就已經(jīng)基本成熟，當(dāng)N為千萬甚至數(shù)億量級條件下,，首選識別率可以做到90%或更高,，需要注意的是，區(qū)別于后面要提到的1:N+1場景,，這類1:N場景不需要設(shè)置拒識率,。這方面,，我們的人臉識別技術(shù)在幾年前就已經(jīng)被合作伙伴上海銀晨科技產(chǎn)業(yè)化，應(yīng)用于護(hù)照人臉和多個(gè)省公安廳的大庫比對中,，并取得了相當(dāng)多的實(shí)戰(zhàn)成功案例,。就在最近，學(xué)術(shù)界也出現(xiàn)了大規(guī)模人臉識別測試庫MegaFace,，其中人臉數(shù)量達(dá)到了100萬規(guī)模,，最好的系統(tǒng)目前首選識別率能夠做到83.29%（注：2017年4月結(jié)果），是我的一個(gè)博士李紹欣在騰訊優(yōu)圖完成的,。MegaFace主要是生活照或新聞?wù)?，所以難度要更大一些。

3. 第三種場景是1:N+1動態(tài)人臉識別場景,。

區(qū)別于前面的1:N場景,，這類場景是需要拒識非目標(biāo)人的，所以是N+1,。這種場景實(shí)際上還可以細(xì)分為三類：目標(biāo)人配合場景（比如無卡考勤或門禁）,，目標(biāo)人不配合場景（比如黑名單卡口人臉布控），以及處于二者之間的,、被識別人既不配合也不刻意回避的場景（比如VIP識別系統(tǒng)）,。不妨分別稱之為A場景，C場景和B場景,。

4. 三類場景的技術(shù)成熟度差異

這三類場景的技術(shù)成熟度差別很大：在N等于10000人,、誤識率不高于1%時(shí)，A場景識別率可以做到98%以上,，B場景可以做到70%~90%,，C場景恐怕只能做到80%以下，某些條件下甚至可能低的不忍直視,。需要特別強(qiáng)調(diào)的是,，這里誤識率1%看起來有點(diǎn)高，但在N等于1萬人時(shí),，大概相當(dāng)于1:1場景下的百萬分之一的誤識率,，實(shí)際上已經(jīng)非常有挑戰(zhàn)了。

此外,，年末歲初,，百度的人臉識別系統(tǒng)在《最強(qiáng)大腦》上也著實(shí)火了一把，在老化人臉識別場景下超過了人類的《最強(qiáng)大腦》,，這確實(shí)也代表了人臉識別發(fā)展水平的一個(gè)側(cè)面。據(jù)了解,，百度人臉識別團(tuán)隊(duì)為此收集了大量類似畢業(yè)照場景的人臉進(jìn)行訓(xùn)練,。在基于大數(shù)據(jù)的深度學(xué)習(xí)面前,，也許這個(gè)問題并沒有想象的那么難。我們曾找了幾個(gè)類似的例子進(jìn)行測試,，發(fā)現(xiàn)即使是直接用沒有刻意對這種場景訓(xùn)練的Seeta企業(yè)版人臉識別系統(tǒng),，也可以把要找的人放在前幾位。

近年來人臉識別的進(jìn)步是有目共睹的,，但人臉識別遠(yuǎn)不是一個(gè)已經(jīng)解決了的問題,，它還存在如下一些問題：

1. 在開放環(huán)境下，如何確保識別的魯棒性的問題

例如,，即使目前最好的系統(tǒng),，恐怕也還做不到在家庭環(huán)境下，讓一個(gè)矮小的機(jī)器人隨時(shí)隨地準(zhǔn)確地識別出一個(gè)家庭的5-6個(gè)成員,，這涉及到視角,、光照、距離,、遮擋等等諸多因素帶來的魯棒性問題,。

2. 人臉防騙技術(shù)

這是一場魔高一尺、道高一丈的博弈“游戲”,，風(fēng)險(xiǎn)確實(shí)是存在的,，盡管可能并沒有央視報(bào)道的那么夸張。

3. 黑名單動態(tài)布控系統(tǒng)

對于人臉識別最大的實(shí)戰(zhàn)應(yīng)用場景,，即黑名單動態(tài)布控系統(tǒng),，也就是前面所說的3C場景，目前N等于1萬人,，錯誤接收率等于1%,，條件較好的時(shí)候首選識別率可以做到80%左右。但實(shí)際需求是在開放監(jiān)控場景下,，N等于100萬人,，誤識率要求低于0.01%，甚至要對各種試圖逃避識別的目標(biāo)人達(dá)到首選識別率90%以上——這是極具挑戰(zhàn)的任務(wù),，難度比現(xiàn)在能做到的要高4~5個(gè)數(shù)量級,。是否能在兩三年內(nèi)做到我個(gè)人持謹(jǐn)慎的懷疑態(tài)度，這個(gè)過程中工業(yè)界需要保持冷靜,，避免因過度承諾而失去用戶信任,，帶來人臉識別應(yīng)用的“倒春寒”。

簡單總結(jié)一下：

1. 學(xué)術(shù)界的挑戰(zhàn)

從學(xué)術(shù)界來講,，人臉識別研究已經(jīng)進(jìn)入了一個(gè)“無所適從”的歷史階段,，我們希望不要把我們自己從碼農(nóng)變成數(shù)工，但事實(shí)上新方法能帶來的增益短期內(nèi)難以抗衡工業(yè)界用大數(shù)據(jù)帶來的性能增益,，甚至導(dǎo)致了工業(yè)界技術(shù)上的“領(lǐng)先”,，這一點(diǎn)大家去看LFW和FDDB之類競賽的結(jié)果就可以明顯地看出這個(gè)趨勢,。

2. 學(xué)術(shù)界的機(jī)會

而因?yàn)樯虡I(yè)原因，學(xué)術(shù)界對工業(yè)界的實(shí)際進(jìn)展難以把控,。當(dāng)然,，學(xué)術(shù)界的機(jī)會恰恰在工業(yè)界不愿意關(guān)注的地方，比如在數(shù)據(jù)少甚至沒有標(biāo)注數(shù)據(jù)的情況下,，如何可以仍然有效的學(xué)習(xí)模型,？在有數(shù)據(jù)但數(shù)據(jù)臟亂差的情況下如何魯棒的訓(xùn)練模型？

總之,，人臉識別作為計(jì)算機(jī)視覺領(lǐng)域最落地的技術(shù)之一,，是CV技術(shù)應(yīng)用的排頭兵，確實(shí)已經(jīng)引爆了眾多用戶對計(jì)算機(jī)視覺應(yīng)用的濃厚興趣,，這或許是更值得我們欣喜的,。

謝謝大家！

評述中引用的文章鏈接: http://pan.baidu.com/s/1miKBWzm 密碼: yq1w

致謝：

本文主編袁基睿,，誠摯感謝志愿者朱婷,、李珊如、楊茹茵對本文進(jìn)行了細(xì)致的整理工作,。

該文章屬于“深度學(xué)習(xí)大講堂”原創(chuàng),，如需要轉(zhuǎn)載，請聯(lián)系 astaryst,。

作者信息：

山世光,，中科院計(jì)算所研究員、博導(dǎo),，基金委優(yōu)青,，CCF青年科學(xué)獎獲得者，現(xiàn)任中科院智能信息處理重點(diǎn)實(shí)驗(yàn)室常務(wù)副主任,，中科視拓創(chuàng)始人,、董事長兼CTO。他的研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺和機(jī)器學(xué)習(xí),。已在國內(nèi)外刊物和學(xué)術(shù)會議上發(fā)表論文200余篇,，其中CCF A類論文60余篇，論文被谷歌學(xué)術(shù)引用10000余次,。曾應(yīng)邀擔(dān)任過ICCV,，ACCV，ICPR,，F(xiàn)G,，ICASSP等國際會議領(lǐng)域主席，現(xiàn)任IEEE TIP, CVIU, PRL, Neurocomputing, FCS等國際學(xué)術(shù)刊物的編委(AE),。研究成果獲2005年度國家科技進(jìn)步二等獎,，2015年度國家自然科學(xué)二等獎,，CVPR2008 Best Student Poster Award Runner-up獎。

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：天天天藍(lán)663 > 《人工智能》

舉報(bào)/認(rèn)領(lǐng)