久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

人臉檢測與識別年度進(jìn)展概述

 天天天藍(lán)663 2017-07-01

深度學(xué)習(xí)大講堂是由中科視拓運(yùn)營的高質(zhì)量原創(chuàng)內(nèi)容平臺,邀請學(xué)術(shù)界,、工業(yè)界一線專家撰稿,,致力于推送人工智能與深度學(xué)習(xí)最新技術(shù)、產(chǎn)品和活動信息,!


編者按:這是一個(gè)看臉的世界,,尤其在這個(gè)刷臉就能夠影響銀行卡余額的時(shí)代,如何準(zhǔn)確地看臉已經(jīng)成為關(guān)系到民生大計(jì)的重大問題,。二十年來專注于人臉的中科院計(jì)算所研究員,、中科視拓董事長兼CTO山世光博士,將帶著大家從技術(shù)和應(yīng)用兩個(gè)層面,,回顧人臉檢測與識別領(lǐng)域一年來的進(jìn)展,。大講堂特別在文末提供文中提到所有文章的下載連接。




過去一年與以往幾年相比,,在方法和技術(shù)層面的一個(gè)核心趨勢是:人臉識別相關(guān)技術(shù)已經(jīng)全面深度化。相比其他視覺或機(jī)器學(xué)習(xí)任務(wù),,人臉識別的特殊性遠(yuǎn)沒有我們之前認(rèn)為的大,,所以我認(rèn)為過去一年特異于人臉識別的新方法和新技術(shù)并不是特別多。但是,,在應(yīng)用方面,,人臉識別正可謂“花月正春風(fēng)”,甚至可以說它引領(lǐng)了計(jì)算機(jī)視覺的落地應(yīng)用,,不過后面會提到要謹(jǐn)防倒春寒,。


我們知道,一套全自動的人臉識別系統(tǒng)大概包括三個(gè)不同的步驟:

1.人臉檢測,,即從畫面中框出圖像中出現(xiàn)的人臉,;

2.特征點(diǎn)定位,即標(biāo)記出人臉上的眼睛,、鼻子,、嘴等關(guān)鍵點(diǎn);

3.狹義的人臉識別,,即完成輸入人臉與系統(tǒng)已見過,、記憶過的人臉的比對。

在這里,,我先總體上概括一下這三個(gè)步驟上的年度進(jìn)展:

1. 人臉檢測

在人臉檢測方面,,目前主流的方法是通用目標(biāo)檢測中的R-CNN等這類方法,Cascade CNN則是比較特異于人臉檢測的方法,,它將傳統(tǒng)的滑動窗口方法與深度學(xué)習(xí)相結(jié)合,,也取得了不亞于R-CNN系列方法的性能,。人臉檢測曾被認(rèn)為是一個(gè)已經(jīng)解決的問題,事實(shí)上并不是,,在人臉分辨率極低,、姿態(tài)很大、背光,、偏光,、極低照度等惡劣光照條件下,還是會有很多漏檢,。有鑒于此,,去年出現(xiàn)了一個(gè)新的人臉檢測Benchmark,應(yīng)該會對人臉檢測領(lǐng)域產(chǎn)生重要促進(jìn)作用,。

2. 特征點(diǎn)定位

對于第二個(gè)步驟,,即特征點(diǎn)定位,我們感覺去年的一個(gè)趨勢是從過去流行的基于深度特征學(xué)習(xí)的Cascaded Shape Regression策略,,到引入RNN這樣的循環(huán)神經(jīng)網(wǎng)絡(luò)策略,,并試圖解決大姿態(tài)條件下的特征點(diǎn)定位問題。

3. 狹義人臉識別

對于第三個(gè)步驟,,狹義的人臉識別或人臉比對,,個(gè)人認(rèn)為技術(shù)上并沒有太多新的進(jìn)步,主流的方法仍然是采用各種深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN),,特別是ResNet,,來學(xué)習(xí)更有判別力的特征。實(shí)戰(zhàn)中性能的提升主要還是來自越來越多的人臉數(shù)據(jù),,不同場景下的人臉識別技術(shù)均取得了很大的進(jìn)步,,并在快速進(jìn)入市場。當(dāng)然,,這個(gè)領(lǐng)域需要新的benchmark來度量技術(shù)的本質(zhì)進(jìn)步情況,。


原有數(shù)據(jù)集

從人臉檢測的角度來看,在過去的幾年里,,學(xué)術(shù)界大多數(shù)還是在用FDDB做測試用的benchmark,。目前,在這個(gè)共有2845幅圖像,、5171個(gè)人臉的數(shù)據(jù)集上,,在共輸出100個(gè)誤檢的情況下,用Fast R-CNN可以輕松取得90%以上的檢測率或稱召回率,。工業(yè)界有些報(bào)道號稱已經(jīng)做到了95%,,所以它基本上趨于飽和了。當(dāng)然,值得特別注意的是,,這個(gè)檢測率在不少時(shí)候是有歧義的,,有些團(tuán)隊(duì)報(bào)告的是10折平均的結(jié)果,有些報(bào)告的是一次性全部檢測的結(jié)果,,這兩個(gè)結(jié)果是不可比的:10折平均的結(jié)果可能會偏高1-3個(gè)百分點(diǎn),。


Wider Face數(shù)據(jù)集

2016年人臉檢測領(lǐng)域的一個(gè)重要變化是出現(xiàn)了一個(gè)新的Benchmark:香港中文大學(xué)貢獻(xiàn)了一個(gè)規(guī)模更大、數(shù)據(jù)變化更豐富的新數(shù)據(jù)集——Wider Face,。其中包括1.6萬測試圖像,,共19.4萬個(gè)標(biāo)注人臉。更重要的是,,如上圖所示,,數(shù)據(jù)集中的人臉有大小、姿態(tài),、光照,、遮擋以及表情等各方面非常復(fù)雜的變化。特別的,,其中50%的人臉高度小于50個(gè)像素,,甚至大量高度小于20個(gè)像素的Tiny face。


Wider Face將測試圖像分為“難”,、“中”,、“易”三種不同的難度等級。

從目前State of the art方法的檢測曲線不難看出,,在最“難”的測試子集上,目前只能做到80%的檢測率和80%的精度,,對檢測任務(wù)而言,,這是相當(dāng)?shù)偷慕Y(jié)果了??梢?,在該數(shù)據(jù)集上,現(xiàn)有方法的性能在“難”等級下還有非常長的路可以走,。


小人臉檢測:Tiny Face

針對小人臉檢測問題,,去年出現(xiàn)了TinyFace方法該方法希望能夠找到更小的人臉,。在過去,,典型人臉檢測系統(tǒng)能夠檢測到的最小人臉是20*20像素,而在很多現(xiàn)實(shí)應(yīng)用中,,最小的人臉可能是16*16,,甚至是10*10這樣的級別,TinyFace方法試圖探究如何找到這些非常小的人臉。其實(shí),,該方法并沒有太多技術(shù)創(chuàng)新,,它本質(zhì)上采用了圖像金字塔把小臉變大,再進(jìn)行人臉檢測,,同時(shí)引入了大容量的網(wǎng)絡(luò)如ResNet101,,以及多尺度融合等技術(shù),充分利用更多的上下文信息,,并在Wider Face的Hard子集上取得了82.3%的精度,,大大超過了之前的其他方法。但值得注意的是,,高精度的代價(jià)是檢測速度非常慢,!


從面部特征點(diǎn)定位的角度看,過去一年的主要技術(shù)路線仍然是把特征定位問題轉(zhuǎn)化為瀑布式的形狀回歸問題進(jìn)行求解,。和過去幾年一樣,,其中仍然是采用深度學(xué)習(xí)的特征,并用遞歸方式求解回歸問題,。


2016年,,該領(lǐng)域的一個(gè)有趣進(jìn)展是引入了循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,對Cascaded Shape Regression中stage-by-stage refine的策略進(jìn)行建模,,特別是通過把上一級的隱層輸出作為下一層的輸入等手段,,在300W這樣的數(shù)據(jù)集上面取得了比較大的進(jìn)步。


大姿態(tài)人臉特征點(diǎn)定位

2016年另一個(gè)值得關(guān)注的面部特征點(diǎn)定位方法是密西根州立大學(xué)的Xiaoming Liu團(tuán)隊(duì)的工作,。他們發(fā)表在CVPR2016上的工作特別針對大姿態(tài)人臉的特征點(diǎn)定位問題,,采用深度改進(jìn)后的3DMM方法對人臉進(jìn)行三維建模,然后將建模后人臉的三維信息與二維圖像相結(jié)合,,再做形狀回歸,。在大姿態(tài)人臉上,取得了顯著優(yōu)于已有方法的定位精度,。


狹義的人臉識別方面的進(jìn)展

1. 什么是狹義人臉識別

所謂的狹義人臉識別指的是:首先采用前述的人臉檢測和特征定位對所有人臉進(jìn)行對齊,,然后裁剪出眉眼鼻嘴形成的核心人臉區(qū)域,之后從中提取人臉特征進(jìn)行存儲或與已知人臉的特征進(jìn)行相似度計(jì)算的過程,。

2. 核心技術(shù)

里面的核心是“如何提取具有區(qū)分能力的特征”,,2012年以來,采用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)已經(jīng)成為人臉識別領(lǐng)域的標(biāo)準(zhǔn)技術(shù),。過去一年來,,這方面主要的進(jìn)步還是來自更大規(guī)模實(shí)戰(zhàn)數(shù)據(jù)以及殘差卷積神經(jīng)網(wǎng)絡(luò)ResNet的應(yīng)用。

3. 數(shù)據(jù)增廣

此外,,對于一些難以獲取大量數(shù)據(jù)的場景,,研究人員也在想法設(shè)法采用半自動或自動的方法“增廣”數(shù)據(jù)集,包括基于三維人臉模型合成人臉或者采用GAN這類方法生成數(shù)據(jù),這里的3D人臉模型既可能是采用專用設(shè)備采集的,,也可能是采用3D MM等方法自動重建的,。值得注意的是,盡管GAN很火熱,,也能合成出一些視覺效果不錯的人臉圖像,,但其合成的增廣人臉數(shù)據(jù)是否能夠用來增廣特定人的數(shù)據(jù)并提高特征學(xué)習(xí)的效果,目前尚不得而知,。此外,,面向移動終端和嵌入式應(yīng)用等實(shí)際應(yīng)用需求,也有大量工作是進(jìn)行模型壓縮和計(jì)算加速的,。


表情識別

接下來簡單說說表情識別,。感覺表情識別一直不溫不火,進(jìn)步并不明顯,,這其中的核心障礙我認(rèn)為還是來自數(shù)據(jù)收集的困難,。從早期的Posed Expression,到后來的自發(fā)表情(spontaneous expression)數(shù)據(jù),,大量真實(shí)自然表情數(shù)據(jù)的收集都非常不容易,。

不過,盡管表情數(shù)據(jù)集的規(guī)模相比人臉識別的數(shù)據(jù)規(guī)模小得多,,深度學(xué)習(xí)還是快速滲透進(jìn)來,,并已經(jīng)在7類基本表情識別和幾十個(gè)面部動作單元(AU)的檢測方面均取得了不小的進(jìn)步。如何利用較小規(guī)模的標(biāo)注表情數(shù)據(jù)集進(jìn)行更加魯棒的表情識別是非常值得關(guān)注的,!


EmotioNet數(shù)據(jù)集

2016年出現(xiàn)了一個(gè)包含百萬圖像的數(shù)據(jù)集——EmotioNet ,。在該數(shù)據(jù)集上,可以采用深度學(xué)習(xí)這類方法做更多表情強(qiáng)度的估計(jì)和動作單元強(qiáng)度的估計(jì),。不過,,需要特別注意的是,盡管這個(gè)表情數(shù)據(jù)集規(guī)模非常大,,但它并不是完全由手工標(biāo)注,而是通過半自動的方式標(biāo)注的,,所以可能存在很多噪聲,。如何利用好這樣的數(shù)據(jù)也是值得關(guān)注的。


“Data is king,!Math is Queen?”

最后介紹一下工業(yè)界一年來的技術(shù)和應(yīng)用進(jìn)展情況,。我想工業(yè)界已經(jīng)越來越深刻的體會到了“Data is king!”這個(gè)著名論斷在深度學(xué)習(xí)時(shí)代的正確性,。甚至于有人開始懷疑:“Math is Queen”是否還正確,。從學(xué)術(shù)界的觀點(diǎn)來說,Math的重要性是顯然的,也是未來技術(shù)突破的基石,,但工業(yè)界確實(shí)目前更多的在享受著大數(shù)據(jù)帶來的紅利,。


過去一兩年,與人臉識別核心技術(shù)創(chuàng)新的乏善可陳相比,,人臉識別的應(yīng)用進(jìn)展切實(shí)進(jìn)入了“高鐵”時(shí)代,!我們知道,人臉識別有很多應(yīng)用場景,,不同場景的成熟度差異很大,。

1. 第一種場景,1:1 的人證合一驗(yàn)證系統(tǒng),。

典型的應(yīng)用是:刷身份證讀取卡內(nèi)照片,,將其與現(xiàn)場采集的用戶人臉去做比對,看是否身份證的合法持有人,。這個(gè)任務(wù)在三四年前大多數(shù)人臉識別專家還認(rèn)為幾乎是不可能完成的任務(wù),,但就在最近一兩年,通過上萬甚至幾十萬人此類應(yīng)用數(shù)據(jù)的訓(xùn)練,,在被識別人配合的情況下,,最好的系統(tǒng)已經(jīng)可以在0.01%的誤識率時(shí)達(dá)到95%以上的正確驗(yàn)證率。也就是說,,一萬個(gè)人來冒充某個(gè)人A,,只有一個(gè)可以冒充成功,而A本人在95%的情況下可以被正確識別出來,。如果允許誤識率更高一些,,比如到0.1%,識別率甚至可以進(jìn)一步提高到99%以上(對配合用戶),。這種場景還是1:1驗(yàn)證中最有挑戰(zhàn)性的:因?yàn)樯矸葑C卡內(nèi)照片只有102*126像素,,而且被壓縮成了1K字節(jié)存儲在身份證內(nèi),而且其中人臉已經(jīng)有多年的老化,。

2. 第二種場景,,1:N靜態(tài)照片比對系統(tǒng)。

典型應(yīng)用場景是公安人員對不明身份嫌疑人照片進(jìn)行公安大庫照片比對,,以確定其身份,。這種應(yīng)用甚至在幾年前就已經(jīng)基本成熟,當(dāng)N為千萬甚至數(shù)億量級條件下,,首選識別率可以做到90%或更高,,需要注意的是,區(qū)別于后面要提到的1:N+1場景,,這類1:N場景不需要設(shè)置拒識率,。這方面,,我們的人臉識別技術(shù)在幾年前就已經(jīng)被合作伙伴上海銀晨科技產(chǎn)業(yè)化,應(yīng)用于護(hù)照人臉和多個(gè)省公安廳的大庫比對中,,并取得了相當(dāng)多的實(shí)戰(zhàn)成功案例,。就在最近,學(xué)術(shù)界也出現(xiàn)了大規(guī)模人臉識別測試庫MegaFace,,其中人臉數(shù)量達(dá)到了100萬規(guī)模,,最好的系統(tǒng)目前首選識別率能夠做到83.29%(注:2017年4月結(jié)果),是我的一個(gè)博士李紹欣在騰訊優(yōu)圖完成的,。MegaFace主要是生活照或新聞?wù)?,所以難度要更大一些。


3. 第三種場景是1:N+1動態(tài)人臉識別場景,。

區(qū)別于前面的1:N場景,,這類場景是需要拒識非目標(biāo)人的,所以是N+1,。這種場景實(shí)際上還可以細(xì)分為三類:目標(biāo)人配合場景(比如無卡考勤或門禁),,目標(biāo)人不配合場景(比如黑名單卡口人臉布控),以及處于二者之間的,、被識別人既不配合也不刻意回避的場景(比如VIP識別系統(tǒng)),。不妨分別稱之為A場景,C場景和B場景,。

4. 三類場景的技術(shù)成熟度差異

這三類場景的技術(shù)成熟度差別很大:在N等于10000人,、誤識率不高于1%時(shí),A場景識別率可以做到98%以上,,B場景可以做到70%~90%,,C場景恐怕只能做到80%以下,某些條件下甚至可能低的不忍直視,。需要特別強(qiáng)調(diào)的是,,這里誤識率1%看起來有點(diǎn)高,但在N等于1萬人時(shí),,大概相當(dāng)于1:1場景下的百萬分之一的誤識率,,實(shí)際上已經(jīng)非常有挑戰(zhàn)了。

此外,,年末歲初,,百度的人臉識別系統(tǒng)在《最強(qiáng)大腦》上也著實(shí)火了一把,在老化人臉識別場景下超過了人類的《最強(qiáng)大腦》,,這確實(shí)也代表了人臉識別發(fā)展水平的一個(gè)側(cè)面。據(jù)了解,,百度人臉識別團(tuán)隊(duì)為此收集了大量類似畢業(yè)照場景的人臉進(jìn)行訓(xùn)練,。在基于大數(shù)據(jù)的深度學(xué)習(xí)面前,,也許這個(gè)問題并沒有想象的那么難。我們曾找了幾個(gè)類似的例子進(jìn)行測試,,發(fā)現(xiàn)即使是直接用沒有刻意對這種場景訓(xùn)練的Seeta企業(yè)版人臉識別系統(tǒng),,也可以把要找的人放在前幾位。


近年來人臉識別的進(jìn)步是有目共睹的,,但人臉識別遠(yuǎn)不是一個(gè)已經(jīng)解決了的問題,,它還存在如下一些問題:

1. 在開放環(huán)境下,如何確保識別的魯棒性的問題

例如,,即使目前最好的系統(tǒng),,恐怕也還做不到在家庭環(huán)境下,讓一個(gè)矮小的機(jī)器人隨時(shí)隨地準(zhǔn)確地識別出一個(gè)家庭的5-6個(gè)成員,,這涉及到視角,、光照、距離,、遮擋等等諸多因素帶來的魯棒性問題,。

2. 人臉防騙技術(shù)

這是一場魔高一尺、道高一丈的博弈“游戲”,,風(fēng)險(xiǎn)確實(shí)是存在的,,盡管可能并沒有央視報(bào)道的那么夸張。

3. 黑名單動態(tài)布控系統(tǒng)

對于人臉識別最大的實(shí)戰(zhàn)應(yīng)用場景,,即黑名單動態(tài)布控系統(tǒng),,也就是前面所說的3C場景目前N等于1萬人,,錯誤接收率等于1%,,條件較好的時(shí)候首選識別率可以做到80%左右。但實(shí)際需求是在開放監(jiān)控場景下,,N等于100萬人,,誤識率要求低于0.01%,甚至要對各種試圖逃避識別的目標(biāo)人達(dá)到首選識別率90%以上——這是極具挑戰(zhàn)的任務(wù),,難度比現(xiàn)在能做到的要高4~5個(gè)數(shù)量級,。是否能在兩三年內(nèi)做到我個(gè)人持謹(jǐn)慎的懷疑態(tài)度,這個(gè)過程中工業(yè)界需要保持冷靜,,避免因過度承諾而失去用戶信任,,帶來人臉識別應(yīng)用的“倒春寒”。


簡單總結(jié)一下:

1. 學(xué)術(shù)界的挑戰(zhàn)

從學(xué)術(shù)界來講,,人臉識別研究已經(jīng)進(jìn)入了一個(gè)“無所適從”的歷史階段,,我們希望不要把我們自己從碼農(nóng)變成數(shù)工,但事實(shí)上新方法能帶來的增益短期內(nèi)難以抗衡工業(yè)界用大數(shù)據(jù)帶來的性能增益,,甚至導(dǎo)致了工業(yè)界技術(shù)上的“領(lǐng)先”,,這一點(diǎn)大家去看LFW和FDDB之類競賽的結(jié)果就可以明顯地看出這個(gè)趨勢,。

2. 學(xué)術(shù)界的機(jī)會

而因?yàn)樯虡I(yè)原因,學(xué)術(shù)界對工業(yè)界的實(shí)際進(jìn)展難以把控,。當(dāng)然,,學(xué)術(shù)界的機(jī)會恰恰在工業(yè)界不愿意關(guān)注的地方,比如在數(shù)據(jù)少甚至沒有標(biāo)注數(shù)據(jù)的情況下,,如何可以仍然有效的學(xué)習(xí)模型,?在有數(shù)據(jù)但數(shù)據(jù)臟亂差的情況下如何魯棒的訓(xùn)練模型?

總之,,人臉識別作為計(jì)算機(jī)視覺領(lǐng)域最落地的技術(shù)之一,,是CV技術(shù)應(yīng)用的排頭兵,確實(shí)已經(jīng)引爆了眾多用戶對計(jì)算機(jī)視覺應(yīng)用的濃厚興趣,,這或許是更值得我們欣喜的,。

謝謝大家!


評述中引用的文章鏈接:  http://pan.baidu.com/s/1miKBWzm 密碼: yq1w

致謝:

本文主編袁基睿,,誠摯感謝志愿者朱婷,、李珊如、楊茹茵對本文進(jìn)行了細(xì)致的整理工作,。



該文章屬于“深度學(xué)習(xí)大講堂”原創(chuàng),,如需要轉(zhuǎn)載,請聯(lián)系 astaryst,。






作者信息:


 


 


山世光,,中科院計(jì)算所研究員、博導(dǎo),,基金委優(yōu)青,,CCF青年科學(xué)獎獲得者,現(xiàn)任中科院智能信息處理重點(diǎn)實(shí)驗(yàn)室常務(wù)副主任,,中科視拓創(chuàng)始人,、董事長兼CTO。他的研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺和機(jī)器學(xué)習(xí),。已在國內(nèi)外刊物和學(xué)術(shù)會議上發(fā)表論文200余篇,,其中CCF A類論文60余篇,論文被谷歌學(xué)術(shù)引用10000余次,。曾應(yīng)邀擔(dān)任過ICCV,,ACCV,ICPR,,F(xiàn)G,,ICASSP等國際會議領(lǐng)域主席,現(xiàn)任IEEE TIP, CVIU, PRL, Neurocomputing, FCS等國際學(xué)術(shù)刊物的編委(AE),。研究成果獲2005年度國家科技進(jìn)步二等獎,,2015年度國家自然科學(xué)二等獎,,CVPR2008 Best Student Poster Award Runner-up獎。







    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多