這篇文章寫得很“科普”,,通俗易懂,,是很不錯的人臉識別入門介紹的材料。在看過那些算法之后回過來再看這篇文章,,很有感悟。人臉識別發(fā)展歷史介紹山世光 中國科學院計算技術(shù)研究所數(shù)字化技術(shù)研究室,,助理研究員,,博士
1 引言
在我們生存的這個地球上,居住著近65億人,。每個人的面孔都由額頭,、眉毛、眼睛,、鼻子,、嘴巴、雙頰等少數(shù)幾個區(qū)域組合而成,,它們之間的大體位置關(guān)系也是固定的,,并且每張臉的大小不過七八寸見方。然而,,它們居然就形成了那么復雜的模式,,即使是面容極其相似的雙胞胎,,其家人通常也能夠非常容易地根據(jù)他們面孔上的細微差異將他們區(qū)分開來。這使得我們不得不承認這個世界上找不出兩張完全相同的人臉!那么,,區(qū)分如此眾多的不同人臉的“特征”到底是什么?能否設計出具有與人類一樣的人臉識別能力的自動機器?這種自動機器的人臉識別能力是否能夠超越人類自身?對這些問題的分析和解答無疑具有重要的理論和應用價值,,這正是眾多從事自動人臉識別研究的研究人員所面臨的挑戰(zhàn)。
然而,,對這些問題的回答并不像看起來那么容易,。即使在大量來自模式識別、計算機視覺,、神經(jīng)計算,、生理學等領域的研究人員對自動人臉識別艱苦工作40余年之后,這些最基本的科學問題仍然困惑著研究人員,。而退一步講,,即使對我們自己,盡管我們每天都在根據(jù)面孔區(qū)分著親人,、同學,、朋友、同事等,,大多數(shù)人卻很難準確地描述出自己到底是如何區(qū)分他們的,,甚至描述不出自己熟悉的人有什么具體的特征。即使專門從事相關(guān)的生理學,、心理學,、神經(jīng)科學研究的一些專家,也很難描述清楚人類人臉識別的生理學過程,。這意味著基于仿生學的人臉識別研究路線在實踐上是難以操作的,。當然,飛機的翅膀并不需要像鳥兒的翅膀一樣煽動,,自動人臉識別的計算模型也未必需要模擬“人腦”,。我們也許可以通過另外的途徑,例如建立人臉識別的計算模型,,這種計算模型可能是基于仿生神經(jīng)網(wǎng)絡的,,也可能是純粹基于統(tǒng)計的,或者是這二者之外的第三只眼睛,,并通過構(gòu)建實用的自動人臉識別系統(tǒng)來驗證這些計算模型,,從而找出對上述基本科學問題的解答。
本文首先給出了人臉識別的一個一般計算模型,,然后簡單回顧自動人臉識別的研究歷史,,接下來闡述人臉識別的研究現(xiàn)狀并介紹幾種主流的技術(shù)方法,簡單介紹計算所人臉識別研究組的研究進展,最后對上述哲學層面的問題作了一些簡單的探討,。
2 人臉識別發(fā)展歷史
人臉識別是一個被廣泛研究著的熱門問題,,大量的研究論文層出不窮,在一定程度上有泛濫成“災”之嫌,。為了 更好地對人臉識別研究的歷史和現(xiàn)狀進行介紹,,本文將AFR的研究歷史按照研究內(nèi)容、技術(shù)方法等方面的特點大體劃分為三個時間階段,,如表1所示,。該表格概括了人臉識別研究的發(fā)展簡史及其每個歷史階段代表性的研究工作及其技術(shù)特點。下面對三個階段的研究進展情況作簡單介紹:
第一階段(1964年~1990年)
這一階段人臉識別通常只是作為一個一般性的模式識別問題來研究,,所采用的主要技術(shù)方案是基于人臉幾何結(jié)構(gòu)特征(Geometric feature based)的方法,。這集中體現(xiàn)在人們對于剪影(Profile)的研究上,人們對面部剪影曲線的結(jié)構(gòu)特征提取與分析方面進行了大量研究,。人工神經(jīng)網(wǎng)絡也一度曾經(jīng)被研究人員用于人臉識別問題中,。較早從事AFR研究的研究人員除了布萊索(Bledsoe)外還有戈登斯泰因(Goldstein)、哈蒙(Harmon)以及金出武雄(Kanade Takeo)等,。金出武雄于1973年在京都大學完成了第一篇AFR方面的博士論文,,直到現(xiàn)在,作為卡內(nèi)基-梅隆大學(CMU)機器人研究院的一名教授,,仍然是人臉識別領域的活躍人物之一,。他所在的研究組也是人臉識別領域的一支重要力量??傮w而言,,這一階段是人臉識別研究的初級階段,非常重要的成果不是很多,,也基本沒有獲得實際應用,。
第二階段(1991年~1997年)
這一階段盡管時間相對短暫,但卻是人臉識別研究的高潮期,,可謂碩果累累:不但誕生了若干代表性的人臉識別算法,,美國軍方還組織了著名的FERET人臉識別算法測試,并出現(xiàn)了若干商業(yè)化運作的人臉識別系統(tǒng),,比如最為著名的Visionics(現(xiàn)為Identix)的FaceIt系統(tǒng)。
美國麻省理工學院(MIT)媒體實驗室的特克(Turk)和潘特蘭德(Pentland)提出的“特征臉”方法無疑是這一時期內(nèi)最負盛名的人臉識別方法,。其后的很多人臉識別技術(shù)都或多或少與特征臉有關(guān)系,,現(xiàn)在特征臉已經(jīng)與歸一化的協(xié)相關(guān)量(Normalized Correlation)方法一道成為人臉識別的性能測試基準算法。
這一時期的另一個重要工作是麻省理工學院人工智能實驗室的布魯內(nèi)里(Brunelli)和波基奧(Poggio)于1992年左右做的一個對比實驗,,他們對比了基于結(jié)構(gòu)特征的方法與基于模板匹配的方法的識別性能,,并給出了一個比較確定的結(jié)論:模板匹配的方法優(yōu)于基于特征的方法。這一導向性的結(jié)論與特征臉共同作用,基本中止了純粹的基于結(jié)構(gòu)特征的人臉識別方法研究,,并在很大程度上促進了基于表觀(Appearance-based)的線性子空間建模和基于統(tǒng)計模式識別技術(shù)的人臉識別方法的發(fā)展,,使其逐漸成為主流的人臉識別技術(shù)。
貝爾胡米爾(Belhumeur)等提出的Fisherface人臉識別方法是這一時期的另一重要成果,。該方法首先采用主成分分析(Principal Component Analysis,,PCA,亦即特征臉)對圖像表觀特征進行降維,。在此基礎上,,采用線性判別分析(Linear Discriminant Analysis, LDA)的方法變換降維后的主成分以期獲得“盡量大的類間散度和盡量小的類內(nèi)散度”。該方法目前仍然是主流的人臉識別方法之一,,產(chǎn)生了很多不同的變種,,比如零空間法、子空間判別模型,、增強判別模型,、直接的LDA判別方法以及近期的一些基于核學習的改進策略。
麻省理工學院的馬哈丹(Moghaddam)則在特征臉的基礎上,,提出了基于雙子空間進行貝葉斯概率估計的人臉識別方法,。該方法通過“作差法”,將兩幅人臉圖像對的相似度計算問題轉(zhuǎn)換為一個兩類(類內(nèi)差和類間差)分類問題,,類內(nèi)差和類間差數(shù)據(jù)都要首先通過主成分分析(PCA)技術(shù)進行降維,,計算兩個類別的類條件概率密度,最后通過貝葉斯決策(最大似然或者最大后驗概率)的方法來進行人臉識別,。
人臉識別中的另一種重要方法——彈性圖匹配技術(shù)(Elastic Graph Matching,,EGM) 也是在這一階段提出的。其基本思想是用一個屬性圖來描述人臉:屬性圖的頂點代表面部關(guān)鍵特征點,,其屬性為相應特征點處的多分辨率,、多方向局部特征——Gabor變換[12]特征,稱為Jet;邊的屬性則為不同特征點之間的幾何關(guān)系,。對任意輸入人臉圖像,,彈性圖匹配通過一種優(yōu)化搜索策略來定位預先定義的若干面部關(guān)鍵特征點,同時提取它們的Jet特征,,得到輸入圖像的屬性圖,。最后通過計算其與已知人臉屬性圖的相似度來完成識別過程。該方法的優(yōu)點是既保留了面部的全局結(jié)構(gòu)特征,,也對人臉的關(guān)鍵局部特征進行了建模,。近來還出現(xiàn)了一些對該方法的擴展。
局部特征分析技術(shù)是由洛克菲勒大學(Rockefeller University)的艾提克(Atick)等人提出的,。LFA在本質(zhì)上是一種基于統(tǒng)計的低維對象描述方法,,與只能提取全局特征而且不能保留局部拓撲結(jié)構(gòu)的PCA相比,,LFA在全局PCA描述的基礎上提取的特征是局部的,并能夠同時保留全局拓撲信息,,從而具有更佳的描述和判別能力,。LFA技術(shù)已商業(yè)化為著名的FaceIt系統(tǒng),因此后期沒有發(fā)表新的學術(shù)進展,。
由美國國防部反毒品技術(shù)發(fā)展計劃辦公室資助的FERET項目無疑是該階段內(nèi)的一個至關(guān)重要的事件,。FERET項目的目標是要開發(fā)能夠為安全、情報和執(zhí)法部門使用的AFR技術(shù),。該項目包括三部分內(nèi)容:資助若干項人臉識別研究,、創(chuàng)建FERET人臉圖像數(shù)據(jù)庫、組織FERET人臉識別性能評測,。該項目分別于1994年,,1995年和1996年組織了3次人臉識別評測,幾種最知名的人臉識別算法都參加了測試,,極大地促進了這些算法的改進和實用化,。該測試的另一個重要貢獻是給出了人臉識別的進一步發(fā)展方向:光照、姿態(tài)等非理想采集條件下的人臉識別問題逐漸成為熱點的研究方向,。
柔性模型(Flexible Models)——包括主動形狀模型(ASM)和主動表觀模型(AAM)是這一時期內(nèi)在人臉建模方面的一個重要貢獻,。ASM/AAM將人臉描述為2D形狀和紋理兩個分離的部分,分別用統(tǒng)計的方法進行建模(PCA),,然后再進一步通過PCA將二者融合起來對人臉進行統(tǒng)計建模,。柔性模型具有良好的人臉合成能力,可以采用基于合成的圖像分析技術(shù)來對人臉圖像進行特征提取與建模,。柔性模型目前已被廣泛用于人臉特征對準(Face Alignment)和識別中,,并出現(xiàn)了很多的改進模型。
總體而言,,這一階段的人臉識別技術(shù)發(fā)展非常迅速,,所提出的算法在較理想圖像采集條件、對象配合,、中小規(guī)模正面人臉數(shù)據(jù)庫上達到了非常好的性能,,也因此出現(xiàn)了若干知名的人臉識別商業(yè)公司。從技術(shù)方案上看,, 2D人臉圖像線性子空間判別分析,、統(tǒng)計表觀模型、統(tǒng)計模式識別方法是這一階段內(nèi)的主流技術(shù),。
第三階段(1998年~現(xiàn)在)
FERET’96人臉識別算法評估表明:主流的人臉識別技術(shù)對光照,、姿態(tài)等由于非理想采集條件或者對象不配合造成的變化魯棒性比較差。因此,,光照,、姿態(tài)問題逐漸成為研究熱點。與此同時,,人臉識別的商業(yè)系統(tǒng)進一步發(fā)展,。為此,美國軍方在FERET測試的基礎上分別于2000年和2002年組織了兩次商業(yè)系統(tǒng)評測,。
基奧蓋蒂斯(Georghiades)等人提出的基于光照錐 (Illumination Cones) 模型的多姿態(tài),、多光照條件人臉識別方法是這一時期的重要成果之一,他們證明了一個重要結(jié)論:同一人臉在同一視角,、不同光照條件下的所有圖像在圖像空間中形成一個凸錐——即光照錐,。為了能夠從少量未知光照條件的人臉圖像中計算光照錐,他們還對傳統(tǒng)的光度立體視覺方法進行了擴展,,能夠在朗博模型,、凸表面和遠點光源假設條件下,根據(jù)未知光照條件的7幅同一視點圖像恢復物體的3D形狀和表面點的表面反射系數(shù)(傳統(tǒng)光度立體視覺能夠根據(jù)給定的3幅已知光照條件的圖像恢復物體表面的法向量方向),,從而可以容易地合成該視角下任意光照條件的圖像,,完成光照錐的計算。識別則通過計算輸入圖像到每個光照錐的距離來完成,。
以支持向量機為代表的統(tǒng)計學習理論也在這一時期內(nèi)被應用到了人臉識別與確認中來,。支持向量機是一個兩類分類器,而人臉識別則是一個多類問題,。通常有三種策略解決這個問題,,即:類內(nèi)差/類間差法、一對多法(one-to-rest)和一對一法(one-to-one),。
布蘭茲(Blanz)和維特(Vetter)等提出的基于3D變形(3D Morphable Model)模型的多姿態(tài),、多光照條件人臉圖像分析與識別方法是這一階段內(nèi)一項開創(chuàng)性的工作。該方法在本質(zhì)上屬于基于合成的分析技術(shù),,其主要貢獻在于它在3D形狀和紋理統(tǒng)計變形模型(類似于2D時候的AAM)的基礎上,,同時還采用圖形學模擬的方法對圖像采集過程的透視投影和光照模型參數(shù)進行建模,從而可以使得人臉形狀和紋理等人臉內(nèi)部屬性與攝像機配置,、光照情況等外部參數(shù)完全分開,,更加有利于人臉圖像的分析與識別。Blanz的實驗表明,,該方法在CMU-PIE(多姿態(tài),、光照和表情)人臉庫和FERET多姿態(tài)人臉庫上都達到了相當高的識別率,證明了該方法的有效性,。
2001年的國際計算機視覺大會(ICCV)上,,康柏研究院的研究員維奧拉(Viola)和瓊斯(Jones)展示了他們的一個基于簡單矩形特征和AdaBoost的實時人臉檢測系統(tǒng),在CIF格式上檢測準正面人臉的速度達到了每秒15幀以上,。該方法的主要貢獻包括:1)用可以快速計算的簡單矩形特征作為人臉圖像特征;2)基于AdaBoost將大量弱分類器進行組合形成強分類器的學習方法;3)采用了級聯(lián)(Cascade)技術(shù)提高檢測速度,。目前,,基于這種人臉/非人臉學習的策略已經(jīng)能夠?qū)崿F(xiàn)準實時的多姿態(tài)人臉檢測與跟蹤。這為后端的人臉識別提供了良好的基礎,。
沙蘇哈(Shashua)等于2001年提出了一種基于商圖像[13]的人臉圖像識別與繪制技術(shù),。該技術(shù)是一種基于特定對象類圖像集合學習的繪制技術(shù),能夠根據(jù)訓練集合中的少量不同光照的圖像,,合成任意輸入人臉圖像在各種光照條件下的合成圖像,。基于此,,沙蘇哈等還給出了對各種光照條件不變的人臉簽名(Signature)圖像的定義,,可以用于光照不變的人臉識別,實驗表明了其有效性,。
巴斯里(Basri)和雅各布(Jacobs)則利用球面諧波(Spherical Harmonics)表示光照,、用卷積過程描述朗博反射的方法解析地證明了一個重要的結(jié)論:由任意遠點光源獲得的所有朗博反射函數(shù)的集合形成一個線性子空間。這意味著一個凸的朗博表面物體在各種光照條件下的圖像集合可以用一個低維的線性子空間來近似,。這不僅與先前的光照統(tǒng)計建模方法的經(jīng)驗實驗結(jié)果相吻合,,更進一步從理論上促進了線性子空間對象識別方法的發(fā)展。而且,,這使得用凸優(yōu)化方法來強制光照函數(shù)非負成為可能,,為光照問題的解決提供了重要思路。
FERET項目之后,,涌現(xiàn)了若干人臉識別商業(yè)系統(tǒng),。美國國防部有關(guān)部門進一步組織了針對人臉識別商業(yè)系統(tǒng)的評測FRVT,至今已經(jīng)舉辦了兩次:FRVT2000和FRVT2002,。這兩次測試一方面對知名的人臉識別系統(tǒng)進行了性能比較,,例如FRVT2002測試就表明Cognitec, Identix和Eyematic三個商業(yè)產(chǎn)品遙遙領先于其他系統(tǒng),而它們之間的差別不大,。另一方面則全面總結(jié)了人臉識別技術(shù)發(fā)展的現(xiàn)狀:較理想條件下(正面簽證照),,針對37437人121,589 幅圖像的人臉識別(Identification)最高首選識別率為73%,人臉驗證(Verification)的等錯誤率(EER[14])大約為6%,。FRVT測試的另一個重要貢獻是還進一步指出了目前的人臉識別算法亟待解決的若干問題,。例如,F(xiàn)RVT2002測試就表明:目前的人臉識別商業(yè)系統(tǒng)的性能仍然對于室內(nèi)外光照變化,、姿態(tài),、時間跨度等變化條件非常敏感,大規(guī)模人臉庫上的有效識別問題也很嚴重,,這些問題都仍然需要進一步的努力,。
總體而言,目前非理想成像條件下(尤其是光照和姿態(tài)),、對象不配合,、大規(guī)模人臉數(shù)據(jù)庫上的人臉識別問題逐漸成為研究的熱點問題,。而非線性建模方法、統(tǒng)計學習理論,、基于Boosting[15]的學習技術(shù),、基于3D模型的人臉建模與識別方法等逐漸成為備受重視的技術(shù)發(fā)展趨勢。
3 結(jié)束語
人臉識別是一項既有科學研究價值,,又有廣泛應用前景的研究課題。國際上大量研究人員幾十年的研究取得了豐碩的研究成果,,自動人臉識別技術(shù)已經(jīng)在某些限定條件下得到了成功應用,。這些成果更加深了我們對于自動人臉識別這個問題的理解,尤其是對其挑戰(zhàn)性的認識,。盡管在海量人臉數(shù)據(jù)比對速度甚至精度方面,,現(xiàn)有的自動人臉識別系統(tǒng)可能已經(jīng)超過了人類,但對于復雜變化條件下的一般人臉識別問題,,自動人臉識別系統(tǒng)的魯棒性和準確度還遠不及人類,。這種差距產(chǎn)生的本質(zhì)原因現(xiàn)在還不得而知,畢竟我們對于人類自身的視覺系統(tǒng)的認識還十分膚淺,。但從模式識別和計算機視覺等學科的角度判斷,,這既可能意味著我們尚未找到對面部信息進行合理采樣的有效傳感器(考慮單目攝像機與人類雙眼系統(tǒng)的差別),更可能意味著我們采用了不合適的人臉建模方法(人臉的內(nèi)部表示問題),,還有可能意味著我們并沒有認識到自動人臉識別技術(shù)所能夠達到的極限精度,。但無論如何,賦予計算設備與人類似的人臉識別能力是眾多該領域研究人員的夢想,。相信隨著研究的繼續(xù)深入,,我們的認識應該能夠更加準確地逼近這些問題的正確答案。
計算所人臉識別課題組經(jīng)過多年努力,,終于逐漸進入了國際人臉識別競爭的第一方陣,。我們提出的新穎算法、完成的高效識別系統(tǒng)也逐漸得到了國內(nèi)外同行的認可,。但我們也必須清醒地看到,,在人臉識別領域,其實很難說誰的算法就比別的算法真正地好了多少,。而且眾多的研究人員正在加入進來,,逆水行舟,慢進則退,。我們必須付出更多的艱辛才能真正在算法和系統(tǒng)兩方面超越前人,,取得更大的研究成果! |
|
來自: shawnsun007 > 《健康》