在人臉識(shí)別應(yīng)用中,,很多場(chǎng)景能夠獲取某一個(gè)體的多幅人臉圖像的集合(比如在監(jiān)控視頻中),,使用人臉圖像集來(lái)做識(shí)別,這個(gè)問(wèn)題被稱(chēng)為基于模板的人臉識(shí)別(template-based face recognition),。 對(duì)于多幅圖像,,當(dāng)然可以使用單幅人臉圖像的識(shí)別方法,綜合多幅圖像的識(shí)別結(jié)果確定最終的人臉識(shí)別結(jié)果,,但更好的方式是直接基于人臉圖像集提取特征,,比較人臉圖像集的特征相似性。 這涉及到如何聚合多幅人臉圖像的特征向量成為一個(gè)特征向量,,使該特征緊湊而又更具鑒別性的問(wèn)題,。 幾天前公布的一篇來(lái)自DeepMind和VGG組被ACCV2018接收的論文《GhostVLAD for set-based face recognition》,正是解決這樣的問(wèn)題,,文中提出的算法GhostVLAD在具有較高難度的大型真實(shí)場(chǎng)景人臉數(shù)據(jù)集IJB-B上的識(shí)別精度,,遠(yuǎn)超過(guò)目前的state-of-the-art結(jié)果!非常值得參考,! 作者信息: 算法原理 作者的想法非常簡(jiǎn)單,,當(dāng)聚合多個(gè)人臉圖像特征時(shí),現(xiàn)有的平均池化等方法沒(méi)能考慮到人臉圖像集中一些低質(zhì)量的圖像(比如模糊人臉)的作用,,這些圖像含有的信息對(duì)識(shí)別并沒(méi)有太大的貢獻(xiàn),,應(yīng)該降低這些低質(zhì)量圖像對(duì)最終聚合特征的貢獻(xiàn)。 一種直接的處理方法是,,在人臉圖像預(yù)處理階段將低質(zhì)量圖像找出來(lái),,降低其貢獻(xiàn)權(quán)重,但作者認(rèn)為,,端到端自動(dòng)訓(xùn)練的方式讓網(wǎng)絡(luò)自身去優(yōu)化識(shí)別并降低該部分樣本的權(quán)重更好,。 作者發(fā)明的算法網(wǎng)絡(luò)結(jié)構(gòu)如下: 多幅人臉圖像(每次圖像個(gè)數(shù)可不同)通過(guò)CNN網(wǎng)絡(luò)提取特征并L2歸一化,然后被送入聚合模塊,,GhostVLAD網(wǎng)絡(luò)模塊將多個(gè)人臉特征聚合稱(chēng)固定維數(shù)的特征矩陣(與輸入圖像個(gè)數(shù)無(wú)關(guān)),,再通過(guò)全連接層FC,、BN層和L2歸一化為緊湊鑒別的特征。 其中的關(guān)鍵網(wǎng)絡(luò)模塊GhostVLAD既實(shí)現(xiàn)特征聚合,,同時(shí)降低低質(zhì)量圖像的權(quán)重,,提高高質(zhì)量圖像的聚合權(quán)重。 GhostVLAD是如何實(shí)現(xiàn)上述功效的呢,? 說(shuō)白了一句話,,既然不要人為參與,那就要構(gòu)建一種網(wǎng)絡(luò)結(jié)構(gòu),,讓網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)對(duì)識(shí)別不重要的信息,,并丟掉它。 作者是在NetVLAD上做出的算法改進(jìn),,NetVLAD可以理解為一種可微分完全可訓(xùn)練的VLAD編碼聚合方法,,它的作用大致是自動(dòng)計(jì)算特征聚類(lèi)中心,計(jì)算殘差,,然后把殘差加權(quán),,構(gòu)建聚合特征矩陣,整個(gè)過(guò)程方便加入到神經(jīng)網(wǎng)絡(luò)中,。 在NetVLAD中,,其聚合的特征矩陣中的元素計(jì)算方法如下: 其中K是NetVLAD中手工設(shè)置的聚類(lèi)中心個(gè)數(shù),xi是第i個(gè)特征向量,,ck是可訓(xùn)練的聚類(lèi)中心,,ak、bk是可訓(xùn)練的參數(shù)控制著加權(quán)的權(quán)重,。 由上述公式得知,,NetVLAD中所有聚類(lèi)中心ck都參與了聚合,GhostVLAD的改進(jìn)則是增加聚類(lèi)中心的個(gè)數(shù)到K+G,,但是增加的聚類(lèi)中心在構(gòu)建聚合特征矩陣的時(shí)候不參與貢獻(xiàn)權(quán)重,。 如下圖所示: 紅色位置即標(biāo)示出的Ghost 聚類(lèi)中心,后續(xù)步驟中被去除,,Ghost有“幻象”的意思,,可能很多模糊的人臉的確看起來(lái)是“幻象”,這也是GhostVLAD名稱(chēng)的由來(lái),。 這些多出來(lái)的不參與聚合特征矩陣構(gòu)建的Ghost聚類(lèi)中心,,就相當(dāng)于給了神經(jīng)網(wǎng)絡(luò)丟棄一部分信息使得網(wǎng)絡(luò)更具鑒別性的可能,而在原來(lái)的NetVLAD中是體現(xiàn)不出來(lái)的,。 實(shí)驗(yàn)結(jié)果 作者首先設(shè)計(jì)的實(shí)驗(yàn)是比較網(wǎng)絡(luò)加上GhostVLAD層跟不加的精度,,驗(yàn)證其有效性,作者使用的訓(xùn)練集是VGGFace2,。實(shí)驗(yàn)設(shè)置不再贅述,,這里直接給出結(jié)果,。 在IJB-B數(shù)據(jù)集上的1:1人臉驗(yàn)證結(jié)果比較如下圖,取得了大幅度的精度提升,。 在IJB-B數(shù)據(jù)集上的1:N人臉識(shí)別結(jié)果比較如下圖,,同樣取得了大幅度的精度提升,。 然后作者將提出的算法GhostVLAD與目前的state-of-the-art比較,。 如下圖中Table 3和Table 4,在IJB-A和IJB-B上比較驗(yàn)證和識(shí)別結(jié)果,,同樣所提算法精度也勝出不少,,請(qǐng)注意作者使用的訓(xùn)練集比其中很多state-of-the-art算法規(guī)模要小,但依然實(shí)現(xiàn)性能超越,! 最后作者可視化了使用GhostVLAD后對(duì)輸入樣本權(quán)重的影響,,發(fā)現(xiàn)對(duì)于那些低質(zhì)量模糊人臉的確權(quán)重被降低了。 總結(jié): 該文從一個(gè)簡(jiǎn)單的直覺(jué)開(kāi)始,,構(gòu)建了一種幫助神經(jīng)網(wǎng)絡(luò)丟棄鑒別性不足的信息的有效方式,,大幅改進(jìn)了基于圖像集合的人臉識(shí)別方法,算法具有較高的實(shí)用價(jià)值,,思想也很值得借鑒,! 值得一提的是,該文中的GhostVLAD方法不僅僅適用于人臉識(shí)別,,在圖像檢索,、行人重識(shí)別等領(lǐng)域也同樣適用。 論文地址: https:///abs/1810.09951 關(guān)于代碼: 可惜的是,,該文目前并無(wú)開(kāi)源代碼,,但DeepMind和VGG組都是一向樂(lè)于分享代碼的,期待作者早日開(kāi)源~ 加群: 加入52CV-人臉識(shí)別專(zhuān)業(yè)討論群,,掃碼添加52CV君拉你入群: (請(qǐng)務(wù)必注明:人臉) 喜歡在QQ交流的童鞋,,可以加52CV官方QQ群:928997753。 (不會(huì)時(shí)時(shí)在線,,如果沒(méi)能及時(shí)通過(guò)驗(yàn)證還請(qǐng)見(jiàn)諒) 本文對(duì)你有幫助嗎,?歡迎留言。 長(zhǎng)按關(guān)注我愛(ài)計(jì)算機(jī)視覺(jué) 【點(diǎn)贊與轉(zhuǎn)發(fā)】就是一種鼓勵(lì) |
|