言有三 畢業(yè)于中國(guó)科學(xué)院,,計(jì)算機(jī)視覺方向從業(yè)者,有三工作室,,有三AI學(xué)院等創(chuàng)始人 作者 | 言有三 編輯 | 言有三 今天,,給大家送上一份大禮 沒錯(cuò),我就是喜歡寫一些“一文道盡” 這一次我將從人臉檢測(cè),,關(guān)鍵點(diǎn)檢測(cè),,人臉識(shí)別,人臉表情,,人臉年齡,,人臉姿態(tài)等幾個(gè)方向整理出人臉領(lǐng)域有用的數(shù)據(jù)集清單,不全也有9成全吧,。 01 人臉檢測(cè) 所謂人臉檢測(cè)任務(wù),,就是要定位出圖像中人臉的大概位置。 1.1 Caltech 10000 數(shù)據(jù)集地址:http://www.vision./Image_Datasets/Caltech_10K_WebFaces/ 發(fā)布于2007年,,這是一個(gè)灰度人臉數(shù)據(jù)集,,使用Google圖片搜索引擎用關(guān)鍵詞爬取所得,包含了7,092張圖,,10,524個(gè)人臉,,平均分辨率在304x312,除此之外還提供雙眼,,鼻子和嘴巴共4個(gè)坐標(biāo)位置,。在早期被使用的較多,現(xiàn)在的方法已經(jīng)很少用灰度數(shù)據(jù)集做評(píng)測(cè),。 1.2 AFW 發(fā)布于2013年,。AFW數(shù)據(jù)集是人臉關(guān)鍵點(diǎn)檢測(cè)非常早期使用的數(shù)據(jù)集,,共包含205個(gè)圖像,,其中有473個(gè)標(biāo)記的人臉,。每一個(gè)人臉提供了方形邊界框,,6個(gè)關(guān)鍵點(diǎn)和3個(gè)姿勢(shì)角度的標(biāo)注,。目前官網(wǎng)數(shù)據(jù)鏈接已經(jīng)失效,,可以通過其他渠道獲得,。 1.3 FDDB 數(shù)據(jù)集地址:http://vis-www.cs./fddb/index.html 發(fā)布于2010年,,這是被廣泛用于人臉檢測(cè)方法評(píng)測(cè)的一個(gè)數(shù)據(jù)集,,F(xiàn)DDB全稱是Face Detection Data Set and Benchmark,,它的提出是用于研究無(wú)約束人臉檢測(cè)。所謂無(wú)約束指的是人臉表情,、尺度,、姿態(tài)、外觀等具有較大的可變性,。FDDB的圖片都來(lái)自于 Faces in the Wild 數(shù)據(jù)集,,圖片來(lái)源于美聯(lián)社和路透社的新聞報(bào)道圖片,所以大部分都是名人,,而且是自然環(huán)境下拍攝的,。共2845張圖片,里面有5171張人臉圖像,。 通常人臉檢測(cè)數(shù)據(jù)集的標(biāo)注采用的是矩形標(biāo)注,,即通過矩形將人臉的前額,臉頰和下巴通過矩形包裹起來(lái),,但是由于人臉是橢圓狀的,,所以不可能給出一個(gè)恰好包裹整個(gè)面部區(qū)域而無(wú)干擾的矩形。 在FDDB當(dāng)中采用了橢圓標(biāo)記法,,它可以適應(yīng)人臉的輪廓,。具體來(lái)說,每個(gè)標(biāo)注的橢圓形人臉由六個(gè)元素組成,。(ra, rb, Θ, cx, cy, s),,其中ra,rb是橢圓的半長(zhǎng)軸,、半短軸,,cx, cy是橢圓的中心點(diǎn)坐標(biāo),Θ是長(zhǎng)軸與水平軸夾角(頭往左偏Θ為正,,頭往右偏Θ為負(fù)),,s則是置信度得分。標(biāo)注的結(jié)果是通過多人獨(dú)立完成標(biāo)注之后取標(biāo)注的平均值,,而且排除了以下的樣本,。
1.4 WIDER Face 數(shù)據(jù)集地址:http://mmlab.ie./projects/WIDERFace/ 發(fā)布于2015年,F(xiàn)DDB評(píng)測(cè)標(biāo)準(zhǔn)由于只有幾千張圖像,,這樣的數(shù)據(jù)集在人臉的姿態(tài),、尺度,、表情、遮擋和背景等多樣性上非常有限,,訓(xùn)練出來(lái)的模型難以被很好的評(píng)判,,算法很快就達(dá)到飽和。在這樣的背景下香港中文大學(xué)提出了Wider-face數(shù)據(jù)集,,在很長(zhǎng)一段時(shí)間里,,大型互聯(lián)網(wǎng)公司和科研機(jī)構(gòu)都在Wider-face上做人臉檢測(cè)算法競(jìng)賽。 Wider-face總共有32203張圖片,,共有393703張人臉,比FDDB數(shù)據(jù)集大10倍,,而且在面部的尺寸、姿勢(shì),、遮擋,、表情、妝容,、光照上都有很大的變化,,算法不僅標(biāo)注了框,還提供了遮擋和姿態(tài)的信息,,自發(fā)布后廣泛應(yīng)用于評(píng)估性能比傳統(tǒng)方法更強(qiáng)大的卷積神經(jīng)網(wǎng)絡(luò),。 1.5 MALF數(shù)據(jù)集 數(shù)據(jù)集地址:http://www.cbsr./faceevaluation/ 發(fā)布于2015年,全稱 Multi-Attribute Labelled Faces ,,MALF是為了更加細(xì)粒度地評(píng)估野外環(huán)境中人臉檢測(cè)模型而設(shè)計(jì)的數(shù)據(jù)庫(kù),。數(shù)據(jù)主要來(lái)源于Internet,包含5250個(gè)圖像,,11931個(gè)人臉,。每一幅圖像包含正方形邊界框,頭部姿態(tài)的俯仰程度,,包括小中大三個(gè)等級(jí)的標(biāo)注,。該數(shù)據(jù)集忽略了小于20*20或者非常難以檢測(cè)的人臉,共包含大約838個(gè)人臉,,占該數(shù)據(jù)集的7%,。同時(shí)該數(shù)據(jù)集還提供了性別,是否帶眼鏡,,是否遮擋,,是否是夸張的表情等輔助信息。 02 關(guān)鍵點(diǎn)檢測(cè) 檢測(cè)到人臉后,,通常都需要定位出圖像的輪廓關(guān)鍵點(diǎn),,關(guān)鍵點(diǎn)是人臉形狀的稀疏表示,在人臉跟蹤,,美顏等任務(wù)中都很重要,,現(xiàn)在已經(jīng)從最開始的5個(gè)關(guān)鍵點(diǎn)發(fā)展到了超過200個(gè)關(guān)鍵點(diǎn)的標(biāo)注。 2.1 HELEN等 首先集中介紹一些比較小和比較老的數(shù)據(jù)集,,AFW前面已經(jīng)介紹,。 XM2VTS,發(fā)布于1999年,,http://www.ee./CVSSP/xm2vtsdb/,,包含295個(gè)人,2360張正面圖,,標(biāo)注了68個(gè)關(guān)鍵點(diǎn),,大部分的圖像是無(wú)表情,而且在同樣的光照環(huán)境下,。 AR Face Database發(fā)布于1998年,,http://www2.ece./~aleix/ARdatabase.html,包括126個(gè)人,,超過4000張圖,,標(biāo)注了22個(gè)關(guān)鍵點(diǎn)。 FGVC-V2發(fā)布于2005年,,https://www./programs-projects/face-recognition-grand-challenge-frgc,,共466個(gè)人的4950張圖,包括均勻的光照條件下的高質(zhì)量圖和不均勻的光照條件下的低質(zhì)量圖,,標(biāo)注了5個(gè)關(guān)鍵點(diǎn),。 LFPW人臉數(shù)據(jù)庫(kù),發(fā)布于2011年,, https:///projects/face-parts/,,包括1432張圖像,標(biāo)注了29個(gè)關(guān)鍵點(diǎn),。 Helen人臉數(shù)據(jù)庫(kù),,發(fā)布于2012年, http://www.ifp./~vuongle2/helen/,,包括訓(xùn)練集和測(cè)試集,,測(cè)試集包含了330張人臉圖片,訓(xùn)練集包括了2000張人臉圖片,,都被標(biāo)注了68個(gè)特征點(diǎn),。 IBUG,發(fā)布于2013年,,https://ibug.doc./resources/facial-point-annotations/,,這是隨著300W一起發(fā)布的數(shù)據(jù)集,包含了135張人臉圖片,每張人臉圖片被標(biāo)注了68個(gè)特征點(diǎn),。 2.2 AFLW 數(shù)據(jù)集地址:https://www./institute/icg/research/team-bischof/lrs/downloads/aflw/ AFLW(Annotated Facial Landmarks in the Wild)是一個(gè)包括多姿態(tài),、多視角的大規(guī)模人臉數(shù)據(jù)庫(kù),一般用于評(píng)估面部關(guān)鍵點(diǎn)檢測(cè)效果,,圖片來(lái)自于flickr的爬取,。總共有21,997張圖,,25,993張面孔,,每張人臉標(biāo)注21個(gè)關(guān)鍵點(diǎn),共380k個(gè)關(guān)鍵點(diǎn),,由于是肉眼標(biāo)記,,不可見的關(guān)鍵點(diǎn)不進(jìn)行標(biāo)注。 除了關(guān)鍵點(diǎn)之外,,還提供了矩形框和橢圓框的臉部位置標(biāo)注,,其中橢圓框的標(biāo)注方法與FDDB相同。另外還有從平均3D人臉重建提供的3D的人臉姿態(tài)角標(biāo)注,。 大部分圖像是彩色圖,,也有少部分是灰度圖,59%為女性,,41%為男性,,這個(gè)數(shù)據(jù)集非常適合做多角度多人臉檢測(cè),關(guān)鍵點(diǎn)定位和頭部姿態(tài)估計(jì),,是關(guān)鍵點(diǎn)檢測(cè)領(lǐng)域里非常重要的一個(gè)數(shù)據(jù)集,。 2.3 300W 數(shù)據(jù)集地址:https://ibug.doc./resources/300-W/ 發(fā)布于2013年,包含了300張室內(nèi)圖和300張室外圖,,其中數(shù)據(jù)集內(nèi)部的表情,,光照條件,姿態(tài),,遮擋,,臉部大小變化非常大,因?yàn)槭峭ㄟ^Google搜索“party”, “conference”等較難等場(chǎng)景搜集而來(lái),。該數(shù)據(jù)集標(biāo)注了68個(gè)關(guān)鍵點(diǎn),,一定程度上在這個(gè)數(shù)據(jù)集能取得好結(jié)果的,在其他數(shù)據(jù)集也能取得好結(jié)果,。 300-W challenge是非常有名的用于評(píng)測(cè)關(guān)鍵點(diǎn)檢測(cè)算法的基準(zhǔn),,在ICCV 2013舉辦了第一次人臉關(guān)鍵點(diǎn)定位競(jìng)賽。300-W challenge所使用的訓(xùn)練數(shù)據(jù)集實(shí)際上并不是一個(gè)全新的數(shù)據(jù)集,,它是采用了半監(jiān)督的標(biāo)注工具,,將AFLW,AFW,Helen,,IBUG,,LFPW,F(xiàn)RGC-V2,,XM2VTS等數(shù)據(jù)集進(jìn)行了統(tǒng)一標(biāo)注然后得到的,,關(guān)鍵信息是68個(gè)點(diǎn),。 在ICCV2015年拓展成了視頻標(biāo)注,,即300 Videos in the Wild (300-VW),數(shù)據(jù)集地址是https://ibug.doc./resources/300-VW/,,感興趣讀者可以關(guān)注,。 2.4 MTFL/MAFL 數(shù)據(jù)集地址:http://mmlab.ie./projects/TCDCN.html 發(fā)布于2014年,這里包含了兩個(gè)數(shù)據(jù)集,。Multi-Task Facial Landmark (MTFL) 數(shù)據(jù)集包含了12,995 張臉,,5個(gè)關(guān)鍵點(diǎn)標(biāo)注,另外也提供了性別,,是否微笑,,是否佩戴眼鏡以及頭部姿態(tài)的信息。Multi-Attribute Facial Landmark (MAFL) 數(shù)據(jù)集則包含了20,000張臉,,5個(gè)關(guān)鍵點(diǎn)標(biāo)注與40個(gè)面部屬性,,實(shí)際上后面被包含在了Celeba數(shù)據(jù)集中,該數(shù)據(jù)集我們后面會(huì)進(jìn)行介紹,。這兩個(gè)數(shù)據(jù)集都使用TCDCN方法將其拓展到了68個(gè)關(guān)鍵點(diǎn)的標(biāo)注,。 2.5 WFLW數(shù)據(jù)集 數(shù)據(jù)集地址:https://wywu./projects/LAB/WFLW.html WFLW包含了10000張臉,其中7500用于訓(xùn)練,,2500張用于測(cè)試,,共98個(gè)關(guān)鍵點(diǎn)。除了關(guān)鍵點(diǎn)之外,,還有遮擋,,姿態(tài),妝容,,光照,, 模糊和表情等信息的標(biāo)注。 由于人臉關(guān)鍵點(diǎn)是整個(gè)人臉任務(wù)中非?;A(chǔ)和重要的,,所以在工業(yè)界有更多的關(guān)鍵點(diǎn)的標(biāo)注,目前96點(diǎn),,106點(diǎn)都是非常常見的,。因?yàn)樯虡I(yè)價(jià)值,這些數(shù)據(jù)集一般不會(huì)進(jìn)行公開。 03 人臉識(shí)別 人臉檢測(cè)和關(guān)鍵點(diǎn)檢測(cè)都是比較底層的任務(wù),,而人臉識(shí)別是更高層的任務(wù),,它就是要識(shí)別出檢測(cè)出來(lái)的人臉是誰(shuí),完成身份比對(duì)等任務(wù),,也是人臉領(lǐng)域里被研究最多的任務(wù),。 3.1 FERET 數(shù)據(jù)庫(kù)地址:http://www./itl/iad/ig/colorferet.cfm 發(fā)布于1993年至1996年,由FERET項(xiàng)目創(chuàng)建,,包含14,051張多姿態(tài),,不同光照的灰度人臉圖像,每幅圖中均只有一個(gè)人臉,,在早期的人臉識(shí)別領(lǐng)域應(yīng)用非常廣泛,。 3.2 Yale/YaleB 數(shù)據(jù)集地址:http://vision./~iskwak/ExtYaleDatabase/Yale%20Face%20Database.htm Yale人臉數(shù)據(jù)庫(kù)與YALE人臉數(shù)據(jù)庫(kù)B分別發(fā)布于1997年和2001年,這是兩個(gè)早期的灰度數(shù)據(jù)集,。Yale人臉數(shù)據(jù)庫(kù)由耶魯大學(xué)計(jì)算視覺與控制中心創(chuàng)建,,包含15位志愿者的165張圖片,,包含光照,,表情和姿態(tài)的變化,。 后面將其拓展到Y(jié)ALE人臉數(shù)據(jù)庫(kù)B,包含了10個(gè)人的5760幅多姿態(tài),,多光照的圖像,。具體包括9個(gè)姿態(tài),,64種光照變化,在實(shí)驗(yàn)室嚴(yán)格控制的條件下進(jìn)行,。雖然每個(gè)人的圖像很多,,但是由于采集人數(shù)較少,該數(shù)據(jù)庫(kù)的進(jìn)一步應(yīng)用受到了比較大的限制。 3.3 CAS-PEAL 數(shù)據(jù)集地址:http://www./peal/ 發(fā)布于2008年,,CAS-PEAL數(shù)據(jù)集是中國(guó)科學(xué)院收集建立的,它主要是為了提供一個(gè)大規(guī)模的中國(guó)人臉數(shù)據(jù)集用于訓(xùn)練和評(píng)估對(duì)應(yīng)東方人的算法,,有灰度圖和彩色圖兩個(gè)版本,。 目前,CAS-PEAL人臉數(shù)據(jù)庫(kù)由1040個(gè)人(595名男性和445名女性)的99594張圖像組成,,在特定環(huán)境下具有不同的姿勢(shì),、表情、照明條件,、表情以及是否佩戴眼鏡等信息,。對(duì)于每個(gè)被拍攝的人,通過9個(gè)相機(jī)來(lái)同時(shí)捕獲不同姿態(tài)的圖像,,平均每一個(gè)人采集了約900張圖像。 3.4 LFW數(shù)據(jù)集 數(shù)據(jù)集地址:http://vis-www.cs./lfw/index.html#download 發(fā)布于2007年,,Labeled Faces in the Wild(簡(jiǎn)稱LFW),,是為了研究非限制環(huán)境下的人臉識(shí)別問題而建立,這是比較早期而重要的測(cè)試人臉識(shí)別的數(shù)據(jù)集,,所有的圖像都必須要能夠被經(jīng)典的人臉檢測(cè)算法VJ算法檢測(cè)出來(lái),。 該數(shù)據(jù)集包含5749個(gè)人的13233張全世界知名人士的圖像,其中有1680人有2張或2張以上人臉圖片,。它是在自然環(huán)境下拍攝的,,因此包含不同背景、朝向,、面部表情,。 3.5 CMU PIE CMU PIE數(shù)據(jù)集地址:https://www.ri./publications/the-cmu-pose- illumination-and-expression-pie-database-of-human-faces/ Multi-PIE數(shù)據(jù)集地址: http://www.cs./afs/cs/project/PIE/MultiPie/Multi-Pie/Home.html CMU PIE數(shù)據(jù)集發(fā)布于2000年,PIE就是姿態(tài)(Pose),,光照(Illumination)和表情(Expression)的縮寫,。包含68位志愿者的41,368張圖,每個(gè)人有13種姿態(tài)條件,,43種光照條件和4種表情,。其中的姿態(tài)和光照變化圖像也是在嚴(yán)格控制的條件下采集的,,它在推動(dòng)多姿勢(shì)和多光照的人臉識(shí)別研究方面具有非常大的影響力,不過仍然存在模式單一多樣性較差的問題,。 為了解決這些問題,,卡內(nèi)基梅隆大學(xué)的研究人員在2009年建立了Multi-PIE數(shù)據(jù)集。它包含337個(gè)人,,在15個(gè)角度,,19個(gè)照明條件和不同的表情下記錄,最終超過750000個(gè)圖像,。由于圖像質(zhì)量較高,原始的圖片大小超過了300G,,需要購(gòu)買,。 3.6 Pubfig 數(shù)據(jù)集地址:http://www.cs./CAVE/databases/pubfig/ 發(fā)布于2010年,,這是哥倫比亞大學(xué)的公眾人物臉部數(shù)據(jù)集,,包含有200個(gè)人的58797張人臉圖像,,主要用于非限制場(chǎng)景下的人臉識(shí)別,。與LFW相比,這個(gè)數(shù)據(jù)集更大,,但是人更少,,每個(gè)人的圖片更多,。 3.7 MSRA-CFW 數(shù)據(jù)集地址: https://link.zhihu.com/?target=http%3A//research.microsoft.com/en-us/projects/msra-cfw/,; 發(fā)布于2012年,,由MSRA收集整理,,包含1,583個(gè)人的202,792張圖像,,采用了自動(dòng)標(biāo)注的方法,。 3.8 CASIA WebFace 數(shù)據(jù)集地址:http:///dataset/casia-webface/ 發(fā)布于2014年,,這是李子青實(shí)驗(yàn)室開放的國(guó)內(nèi)非常有名的數(shù)據(jù)集,,包含10575個(gè)人494414張圖。 3.9 Celeba 數(shù)據(jù)集地址:http://mmlab.ie./projects/CelebA.html 發(fā)布于2015年,,這是由香港中文大學(xué)湯曉鷗教授實(shí)驗(yàn)室發(fā)布的大型人臉識(shí)別數(shù)據(jù)集。該數(shù)據(jù)集包含10,177個(gè)名人的202,599張人臉圖片,,人臉屬性有40多種,,包括是否戴眼鏡,,是否微笑等,主要用于人臉屬性的識(shí)別,。 3.10 FaceScrub 數(shù)據(jù)集地址:http://vintage./facescrub.html 發(fā)布于2016年,,總共包含了530個(gè)人的106863張圖片,,其中男性女性各占265,每個(gè)人大概200張圖,。 3.11 UMDFaces 數(shù)據(jù)集地址:http://www./ 發(fā)布于2016年,,這個(gè)數(shù)據(jù)集有靜態(tài)圖和視頻兩部分,其中靜態(tài)圖包含8277個(gè)人的367,888張臉,,視頻包含22,075個(gè)視頻中的3,107個(gè)人的3,735,476張圖,。同時(shí)標(biāo)注了21個(gè)關(guān)鍵點(diǎn),,性別信息,以及人的3個(gè)姿態(tài),。 3.12 MegaFace 數(shù)據(jù)集地址:http://megaface.cs./dataset/download.html 發(fā)布于2016年,MegaFace數(shù)據(jù)集包含一百萬(wàn)張圖片,,共 690000個(gè)不同的人,,所有數(shù)據(jù)都是華盛頓大學(xué)從Flickr組織收集,。 這是第一個(gè)在一百萬(wàn)規(guī)模級(jí)別的面部識(shí)別算法測(cè)試基準(zhǔn)。現(xiàn)有臉部識(shí)別系統(tǒng)仍難以準(zhǔn)確識(shí)別超過百萬(wàn)的數(shù)據(jù)量,。為了比較現(xiàn)有公開臉部識(shí)別算法的準(zhǔn)確度,,華盛頓大學(xué)在2017年底開展了一個(gè)名為“MegaFace Challenge”的公開競(jìng)賽,。這個(gè)項(xiàng)目旨在研究當(dāng)數(shù)據(jù)庫(kù)規(guī)模提升數(shù)個(gè)量級(jí)時(shí),現(xiàn)有的臉部識(shí)別系統(tǒng)能否維持可靠的準(zhǔn)確率,。 3.13 MS-Celeb-1M 數(shù)據(jù)集地址:https://www./ 發(fā)布于2016年,,這是目前世界上規(guī)模最大,、水平最高的圖像識(shí)別賽事之一,,由MSRA(微軟亞洲研究院)發(fā)起,,每年定期舉辦。參賽隊(duì)伍被要求基于微軟云服務(wù),,搭建包括人臉檢測(cè)、對(duì)齊,、識(shí)別的完整人臉識(shí)別系統(tǒng),而且識(shí)別系統(tǒng)必須先通過遠(yuǎn)程實(shí)驗(yàn)評(píng)估,。 訓(xùn)練集合包含10M 圖片,,具體的操作是從1M個(gè)名人中,,根據(jù)他們的受歡迎程度,,選擇100K個(gè),。然后,利用搜索引擎,,給100K個(gè)人,每人搜大概100張圖片,。共得到100K*100=10M個(gè)圖片。測(cè)試集包括1000個(gè)名人,,這1000個(gè)名人來(lái)自于1M個(gè)明星中隨機(jī)挑選,,每個(gè)名人大概有20張圖片,。 3.14 VGG Face 數(shù)據(jù)集地址: http://www.robots./~vgg/data/vgg_face/ http://www.robots./~vgg/data/vgg_face2/ VGG Face發(fā)布于2015年,,包括2622個(gè)對(duì)象,每個(gè)對(duì)象擁有約1000副靜態(tài)圖像,; VGG Face2發(fā)布于2017年,,包含了9131個(gè)人的3.31百萬(wàn)張圖片,平均每一個(gè)人有362.6張圖,。這個(gè)數(shù)據(jù)集人物ID較多,,且每個(gè)ID包含的圖片個(gè)數(shù)也較多。數(shù)據(jù)集覆蓋了大范圍的姿態(tài),、年齡和種族,,其中約有59.7%的男性。除了身份信息之外,,數(shù)據(jù)集還包括人臉框,,5個(gè)關(guān)鍵點(diǎn),、以及估計(jì)的年齡和姿態(tài)。 3.15 IMDB-Face 數(shù)據(jù)集地址:https://github.com/fwang91/IMDb-Face#data-download,, 發(fā)布于2018年,包含590000個(gè)人,,17000000張圖,,是現(xiàn)在人臉最多的數(shù)據(jù)集了。 3.16 YouTube Faces 數(shù)據(jù)集地址:http://www.cs./~wolf/ytfaces/results.html 發(fā)布于2011年,,它包含了1,595個(gè)人的3,425段視頻,,最短的為48幀,最長(zhǎng)的為6070幀,。和LFW不同的是,,在這個(gè)數(shù)據(jù)集下,算法需要判斷兩段視頻里面是不是同一個(gè)人,。有不少在照片上有效的方法,,在視頻上未必有效/高效。 還有一些其他的視頻數(shù)據(jù)集,,此處不再一一介紹,,感興趣可以自行關(guān)注。 3.17 IARPA Janus 數(shù)據(jù)集地址:https://www./index.php/research-programs/janus 這是進(jìn)幾年開啟的人臉識(shí)別比賽,,由美國(guó)國(guó)家技術(shù)標(biāo)準(zhǔn)局(NIST)在2015年召開的CVPR上發(fā)布,,當(dāng)時(shí)是IJB-A人臉驗(yàn)證與識(shí)別數(shù)據(jù)集, 包含500個(gè)對(duì)象的5396副靜態(tài)圖像和20412幀的視頻數(shù)據(jù)。 被拍攝者來(lái)自世界不同國(guó)家,、地區(qū)和種族,,具有廣泛的地域性,在完全無(wú)約束環(huán)境下采集的,。面部姿態(tài)變化巨大,,光照變化劇烈,所以難度非常大,。 另外,,數(shù)據(jù)集引入了“模板”的概念,一個(gè)模板就是一個(gè)集合,,集合包括被拍攝者的靜態(tài)圖像和視頻片段,,最終的人臉驗(yàn)證與識(shí)別不是基于單個(gè)圖像,而是基于集合對(duì)集合,。 此后,,2017年迭代到IARPA Janus B,2018年迭代到IARPA Janus C,,包括了138000人臉,,11000個(gè)視頻,,10000張非人臉,在這里拿下好名次,,才能稱為真正的人臉識(shí)別好手,。 人臉識(shí)別雖然在百萬(wàn)級(jí)別的數(shù)據(jù)集如MegaFace等都已經(jīng)達(dá)到相當(dāng)高的水準(zhǔn),但是在現(xiàn)實(shí)世界中面臨各種姿態(tài),,分辨率,,遮擋等問題,仍然有較大的研究空間,。 04 人臉表情 人臉表情識(shí)別(facial expression recognition, FER)是人臉屬性識(shí)別技術(shù)中的一個(gè)重要組成部分,,在人機(jī)交互、安全控制,、直播娛樂,、自動(dòng)駕駛等領(lǐng)域都非常具有應(yīng)用價(jià)值,因此在很早前就已經(jīng)得到了研究,。 4.1 JAFFE 數(shù)據(jù)集鏈接:http://www./jaffe.html 1998年發(fā)布,,這是比較小和老的數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)是由10位日本女性在實(shí)驗(yàn)環(huán)境下根據(jù)指示做出各種表情,,再由照相機(jī)拍攝獲取的人臉表情圖像,。整個(gè)數(shù)據(jù)庫(kù)一共有213張圖像,10個(gè)人,,全部都是女性,,每個(gè)人做出7種表情,這7種表情分別是:sad, happy, angry, disgust, surprise, fear, neutral,,每組大概20張樣圖,。 4.2 KDEF與AKDEF 數(shù)據(jù)集地址:http://www./kdef/ 發(fā)布于1998年,這個(gè)數(shù)據(jù)集最初是被開發(fā)用于心理和醫(yī)學(xué)研究目的,。它主要用于知覺,,注意,情緒,,記憶等實(shí)驗(yàn),。在創(chuàng)建數(shù)據(jù)集的過程中,特意使用比較均勻,,柔和的光照,,被采集者身穿統(tǒng)一的T恤顏色。這個(gè)數(shù)據(jù)集,,包含70個(gè)人,,35個(gè)男性,35個(gè)女性,,年齡在20至30歲之間,。沒有胡須,,耳環(huán)或眼鏡,且沒有明顯的化妝,。7種不同的表情,,每個(gè)表情有5個(gè)角度??偣?900張彩色圖,,尺寸為562*762像素。 4.3 GENKI 數(shù)據(jù)集地址:http://mplab. 發(fā)布于2009年,,GENKI數(shù)據(jù)集是由加利福尼亞大學(xué)的機(jī)器概念實(shí)驗(yàn)室收集。該數(shù)據(jù)集包含GENKI-R2009a,,GENKI-4K,,GENKI-SZSL三個(gè)部分。GENKI-R2009a包含11159個(gè)圖像,,GENKI-4K包含4000個(gè)圖像,,分為“笑”和“不笑”兩種,每個(gè)圖片擁有不同的尺度大小,,姿勢(shì),,光照變化,,頭部姿態(tài),,可專門用于做笑臉識(shí)別。這些圖像包括廣泛的背景,,光照條件,地理位置,個(gè)人身份和種族等,。 4.4 RaFD 數(shù)據(jù)集地址:http://www.socsci.:8180/RaFD2/RaFD?p=main 發(fā)布于2010年,,該數(shù)據(jù)集是Radboud大學(xué)Nijmegen行為科學(xué)研究所整理的,,這是一個(gè)高質(zhì)量的臉部數(shù)據(jù)庫(kù),,總共包含67個(gè)模特,,其中20名白人男性成年人,,19名白人女性成年人,,4個(gè)白人男孩,,6個(gè)白人女孩,18名摩洛哥男性成年人,。總共8040張圖,,包含8種表情,,即憤怒,厭惡,,恐懼,快樂,,悲傷,,驚奇,蔑視和中立,。每一個(gè)表情,,包含3個(gè)不同的注視方向,且使用5個(gè)相機(jī)從不同的角度同時(shí)拍攝的,。 4.5 CK 數(shù)據(jù)集地址:http://www./~emotion/ck-spread.htm 發(fā)布于2010年,,這個(gè)數(shù)據(jù)庫(kù)是在Cohn-Kanade Dataset的基礎(chǔ)上擴(kuò)展來(lái)的,,它包含137個(gè)人的不同人臉表情視頻幀,。這個(gè)數(shù)據(jù)庫(kù)比起JAFFE要大的多,。而且也可以免費(fèi)獲取,,包含表情的標(biāo)注和基本動(dòng)作單元的標(biāo)注,。 4.6 Fer2013 數(shù)據(jù)集地址:https://www./c/challenges-in-representation-learning-facial-expression-recognition-challenge/data 發(fā)布于2013年,該數(shù)據(jù)集包含共26190張48*48灰度圖,,圖片的分辨率比較低,,共6種表情,。分別為0 anger生氣、1 disgust 厭惡,、2 fear 恐懼,、3 happy 開心,、4 sad 傷心,、5 surprised 驚訝、6 normal 中性,。 4.7 RAF 數(shù)據(jù)集地址:http://www./RAF/model1.html 發(fā)布于2017年,,包含總共29672 張圖片,其中7個(gè)基本表情和12 個(gè)復(fù)合表情,,而且每張圖還提供了5個(gè)精確的人臉關(guān)鍵點(diǎn),,年齡范圍和性別標(biāo)注。 4.8 EmotionNet 數(shù)據(jù)集地址:http://cbcsl.ece./EmotionNetChallenge/ 發(fā)布于2017年,,共950,000張圖,,其中包含基本表情,復(fù)合表情,以及表情單元的標(biāo)注,。 另外還有一些需要申請(qǐng)的數(shù)據(jù)集如SCFace等就不再介紹,,表情識(shí)別目前的關(guān)注點(diǎn)已經(jīng)從實(shí)驗(yàn)室環(huán)境下轉(zhuǎn)移到具有挑戰(zhàn)性的真實(shí)場(chǎng)景條件下,研究者們開始利用深度學(xué)習(xí)技術(shù)來(lái)解決如光照變化,、遮擋,、非正面頭部姿勢(shì)等問題,仍然有很多的問題需要解決,。 另一方面,,盡管目前表情識(shí)別技術(shù)被廣泛研究,但是我們所定義的表情只涵蓋了特定種類的一小部分,,尤其是面部表情,,而實(shí)際上人類還有很多其他的表情。表情的研究相對(duì)于顏值年齡等要難得多,,應(yīng)用也要廣泛的多,,相信這幾年會(huì)不斷出現(xiàn)有意思的應(yīng)用。 05 人臉年齡與性別 人臉的年齡和性別識(shí)別在安全控制,,人機(jī)交互領(lǐng)域有著非常廣泛的使用,,而且由于人臉差異性,人臉的年齡估計(jì)仍然是一個(gè)難點(diǎn),。 5.1 FGNet 數(shù)據(jù)集地址:http://www-prima./FGnet/html/benchmarks.html 發(fā)布于2000年,,這是第一個(gè)意義重大的年齡數(shù)據(jù)集,包含了82個(gè)人的1002張圖,,年齡范圍是0到69歲,。 5.2 CACD2000 數(shù)據(jù)集地址:http://bcsiriuschen./CARC/ 發(fā)布于2013年,這是一個(gè)名人數(shù)據(jù)集,,包含了2,000個(gè)人的163446張名人圖片,,其范圍是16到62歲。 5.3 Adience 數(shù)據(jù)集地址:https://www./home/hassner/Adience/data.html#frontalized 發(fā)布于2014年,,這是采用iPhone5或更新的智能手機(jī)拍攝的數(shù)據(jù),,共2284個(gè)人26580張圖像。它的標(biāo)注采用的是年齡段的形式而不是具體的年齡,,其中年齡段為(0-2, 4-6, 8-13, 15-20, 25-32, 38-43, 48-53, 60+),。 5.4 IMDB-wiki 數(shù)據(jù)集地址:https://data.vision.ee./cvl/rrothe/imdb-wiki/ 發(fā)布于2015年,IMDB-WIKI人臉數(shù)據(jù)庫(kù)是由IMDB數(shù)據(jù)庫(kù)和Wikipedia數(shù)據(jù)庫(kù)組成,,其中IMDB人臉數(shù)據(jù)庫(kù)包含了460,723張人臉圖片,,而Wikipedia人臉數(shù)據(jù)庫(kù)包含了62,328張人臉數(shù)據(jù)庫(kù),總共523,051張人臉數(shù)據(jù),。都是從IMDb和維基百科上爬取的名人圖片,,根據(jù)照片拍攝時(shí)間戳和出生日期計(jì)算得到的年齡信息,,以及性別信息,對(duì)于年齡識(shí)別和性別識(shí)別的研究有著重要的意義,,這是目前年齡和性別識(shí)別最大的數(shù)據(jù)集,。 5.5 MORPH 數(shù)據(jù)集地址:http://www./morph/ 發(fā)布于2017年,包括13,000多個(gè)人的55,000張圖,,年齡范圍是16到77,。 06 人臉姿態(tài) 人臉的姿態(tài)估計(jì)在考勤,支付以及各類社交應(yīng)用中有非常廣泛的應(yīng)用,。 6.1 3DMM 數(shù)據(jù)集地址:https://faces.dmi./ 發(fā)布于1999年,,這是隨著著名的3DMM模型一起誕生的數(shù)據(jù)集,通過結(jié)構(gòu)光和激光進(jìn)行采集,,未處理前每一個(gè)模型由70000個(gè)點(diǎn)描述,,處理后由53490個(gè)點(diǎn)描述。 在數(shù)據(jù)庫(kù)的處理過程中,,將所有模型的每一個(gè)點(diǎn)的位置都進(jìn)行了精確一一匹配,,也就是說,每一個(gè)點(diǎn)都有實(shí)際的物理意義,,可能有右嘴角,,可能是鼻尖。 數(shù)據(jù)集包含100個(gè)男性和100個(gè)女性的3D掃描數(shù)據(jù),,是人臉三維重建領(lǐng)域影響最大的數(shù)據(jù)集,,堪稱3D人臉領(lǐng)域的“hello world”。在該數(shù)據(jù)集中,,還標(biāo)注了表情系數(shù),,紋理系數(shù),68個(gè)關(guān)鍵點(diǎn)的坐標(biāo),,以及相機(jī)的7個(gè)坐標(biāo),。 7.2 Bosphorus 數(shù)據(jù)集地址:http://bosphorus.ee./default.aspx 發(fā)布于2009年,這是一個(gè)研究三維人臉表情的數(shù)據(jù)集,,通過結(jié)構(gòu)光采集,。包含105個(gè)人, 4666張人臉,,每一個(gè)人臉有35種表情以及不同的仿真姿態(tài),。 7.3 BIWI 數(shù)據(jù)集地址:http://www.vision.ee./datasets/b3dac2.en.html 發(fā)布于2010年,包含1000個(gè)高質(zhì)量的3D掃描儀和專業(yè)麥克風(fēng)采集的3D數(shù)據(jù),其中14個(gè)人,,6個(gè)男性,8個(gè)女性,。采集以每秒25幀的速度獲取密集的動(dòng)態(tài)面部掃描,。 7.4 HPD 數(shù)據(jù)集地址: http://www-prima./perso/Gourier/Faces/HPDatabase.html 發(fā)布于2013年,為灰度圖數(shù)據(jù)集,,在實(shí)驗(yàn)室采集,,標(biāo)注包括垂直角度和水平角度。包括5580張圖,,其中372個(gè)人,,每個(gè)人15張圖。 7.5 BIWI kinect 數(shù)據(jù)集地址: https://data.vision.ee./cvl/gfanelli/head_pose/head_forest.html 發(fā)布于2013年,,使用kinect進(jìn)行采集,,包含20個(gè)人的15000張圖片,,有3D的標(biāo)注,,圖片大小為640*480,。 7.6 FaceWarehouse 數(shù)據(jù)集地址:http://www./#facewarehouse 發(fā)布于2014年,這是浙江大學(xué)周昆實(shí)驗(yàn)室開源的3D人臉數(shù)據(jù)集,,與3DMM數(shù)據(jù)集的構(gòu)建相似,不過數(shù)據(jù)集是中國(guó)人,。共包含了150個(gè)人,年齡從7-80歲,。相比于3DMM數(shù)據(jù)集,,它增加了表情,每個(gè)人包含了20種不同的表情,,1個(gè)中性表情,,19個(gè)張嘴,微笑等表情,。 7.7 TMU 發(fā)布于2015年,這是一個(gè)面部視頻數(shù)據(jù)庫(kù),,包含31,500個(gè)100名志愿者的視頻,。每個(gè)志愿者在7個(gè)照明條件下由9組同步網(wǎng)絡(luò)攝像頭拍攝,并被要求完成一系列指定的動(dòng)作,,有不同的遮擋,,照明,姿勢(shì)和表情的面部變化,。與現(xiàn)有數(shù)據(jù)庫(kù)相比,,THU人臉數(shù)據(jù)庫(kù)提供了具有嚴(yán)格時(shí)間同步的多視圖視頻序列,,從而能夠?qū)ψ⒁曅U椒ㄟM(jìn)行評(píng)估。 7.8 UPNA 數(shù)據(jù)集地址:http://gi4e./databases/hpdb/ 發(fā)布于2016年,,10個(gè)人,,其中6個(gè)男性,4個(gè)女性,,每個(gè)人12個(gè)視頻,,6個(gè)規(guī)定的動(dòng)作,6個(gè)自由的動(dòng)作,。分辨率1280*720,,30fps,每一個(gè)視頻10s,,有3D標(biāo)注信息,。 7.9 300W-LP 數(shù)據(jù)集地址: http://www.cbsr./users/xiangyuzhu/projects/3DDFA/main.htm 這是基于300W數(shù)據(jù)集和3DMM模型仿真得到的3D數(shù)據(jù)集,這是3D領(lǐng)域里使用最大,,使用最廣泛的仿真數(shù)據(jù)集,,包含了68個(gè)關(guān)鍵點(diǎn),相機(jī)參數(shù)以及3DMM模型的系數(shù)的標(biāo)注,。 其他的還有USF Human ID 3-D Database,,ICT-3DHP database,IDIAP等,,讀者可以線下了解,。由于3D數(shù)據(jù)集的構(gòu)建代價(jià)很高,所以仿真數(shù)據(jù)集經(jīng)常被使用,,即通過從2D圖像構(gòu)建3D模型然后進(jìn)行姿態(tài)仿真,。當(dāng)然另一方面,研究擺脫3D數(shù)據(jù)集的運(yùn)用的方法也不斷被提出,,而且精度已經(jīng)和基于3D數(shù)據(jù)集的方法可以比拼,,因此這可能也是未來(lái)的重要研究方向。 08 其他數(shù)據(jù)集 人臉的應(yīng)用領(lǐng)域還有美顏,,風(fēng)格化等,,我們不再一一展開介紹,下面介紹在顏值和化妝領(lǐng)域比較重要的兩個(gè)數(shù)據(jù)集,。 8.1 SCUT-FBP 數(shù)據(jù)集地址:https://github.com/HCIILAB/SCUT-FBP5500-Database-Release 發(fā)布于2017年,,數(shù)據(jù)集共5500個(gè)正面人臉,年齡分布為15-60,,全部都是自然表情,。包含不同的性別分布和種族分布(2000亞洲女性,2000亞洲男性,750高加索男性,,750高加索女性),,數(shù)據(jù)分別來(lái)自于數(shù)據(jù)堂,US Adult database等,。每一張圖由60個(gè)人進(jìn)行評(píng)分,共評(píng)為5個(gè)等級(jí),,這60個(gè)人的年齡分布為18~27歲,,均為年輕人。適用于基于apperance/shape等的模型研究,。同時(shí),,每一個(gè)圖都提供了86個(gè)關(guān)鍵點(diǎn)的標(biāo)注。 8.2 MakeUp 數(shù)據(jù)集地址:http://www./makeup-datasets.html 發(fā)布于2012年,,這是一個(gè)女性面部化妝數(shù)據(jù)集,,可用于研究化妝對(duì)面部識(shí)別的影響。 總共包括4個(gè)子數(shù)據(jù)集: YMU(YouTube化妝):這是從YouTube視頻化妝教程中獲取的面部圖像,, YouTube網(wǎng)址為http://www./URLs_YMU.txt,。 VMU(虛擬化妝):這是將從FRGC數(shù)據(jù)庫(kù)(http://www./itl/iad/ig/frgc.cfm) 中采集的高加索女性受試者的面部圖像,使用公開的軟件(www.taaz.com)來(lái)合成的虛擬化妝樣本,。 MIW:從互聯(lián)網(wǎng)獲得有化妝和沒有化妝的受試者的前后對(duì)比面部圖像,。 MIFS:化妝誘導(dǎo)面部欺騙數(shù)據(jù)集:這是從YouTube化妝視頻教程的107個(gè)化妝。每一組包含3張圖片,,其中一張圖片是目標(biāo)的化妝前的主體圖像,,一個(gè)是化妝后的,另一個(gè)是其他人化同樣的妝試圖進(jìn)行欺騙,。 |
|