【科普文】深度學(xué)習(xí)：使用PowerVR實(shí)現(xiàn)計(jì)算機(jī)視覺(jué)

晨光skrva5u056 2017-09-13

展開(kāi)全文

嵌入式視覺(jué)產(chǎn)品的市場(chǎng)需求量大,，且呈不斷發(fā)展壯大之勢(shì),，其范圍包括消費(fèi)產(chǎn)品如手機(jī)、筆記本電腦,、電視,、可穿戴設(shè)備、汽車(chē)安全,、安全與數(shù)據(jù)分析等,。來(lái)自ABI、Gartner和TSR的最新數(shù)據(jù)表明,，智能相機(jī)產(chǎn)品的總市場(chǎng)（TAM）量在2019年時(shí)將超過(guò)30億臺(tái),。

計(jì)算機(jī)視覺(jué)的用戶(hù)案例包括計(jì)算攝影、擴(kuò)增實(shí)境,、揮手感控及場(chǎng)景感知,。當(dāng)下，很多手機(jī)能通過(guò)人臉檢測(cè)自動(dòng)調(diào)整相機(jī)對(duì)焦和曝光,，而像美圖手機(jī)這樣的產(chǎn)品還能實(shí)時(shí)美化人臉,。在近期召開(kāi)的嵌入式視覺(jué)聯(lián)盟會(huì)議上，百度公司發(fā)布了一款深度神經(jīng)網(wǎng)絡(luò)應(yīng)用程序（DNN）,。該程序允許用戶(hù)直接從相機(jī)實(shí)時(shí)輸入流中識(shí)別成千上萬(wàn)的對(duì)象,。百度在移動(dòng)應(yīng)用程序處理器上實(shí)現(xiàn)了他們的神經(jīng)網(wǎng)絡(luò)，其使用PowerVR GPU來(lái)匹配圖像實(shí)時(shí)數(shù)據(jù)庫(kù)的對(duì)象,。

百度離線移動(dòng)應(yīng)用款

對(duì)于汽車(chē)市場(chǎng)而言,，在車(chē)輛上添加計(jì)算機(jī)視覺(jué)可以減少事故的發(fā)生。例如,，美國(guó)人民每年的駕駛里程為兩萬(wàn)億英里,，而每年大約有六百萬(wàn)輛機(jī)動(dòng)車(chē)發(fā)生事故。而相比之下,，谷歌的無(wú)人駕駛汽車(chē)原型已經(jīng)在公路上完成了超過(guò)一百萬(wàn)英里的駕駛里程,，卻沒(méi)有發(fā)生任何一起因計(jì)算機(jī)故障引起的事故，這充分說(shuō)明了計(jì)算機(jī)視覺(jué)在推動(dòng)這個(gè)市場(chǎng)轉(zhuǎn)型時(shí)的巨大潛力,。如今,，很多制造商會(huì)提供高級(jí)駕駛員輔助系統(tǒng)(ADAS),。該系統(tǒng)在使用傳統(tǒng)的雷達(dá)和激光雷達(dá)技術(shù)時(shí)，也使用了可視化數(shù)據(jù)來(lái)實(shí)現(xiàn)安全功能,，如盲點(diǎn)檢測(cè),、行人檢測(cè)和自動(dòng)緊急制動(dòng)。

對(duì)于監(jiān)測(cè)市場(chǎng)而言,，將計(jì)算機(jī)視覺(jué)添加到安全攝像頭可降低閉路電視運(yùn)營(yíng)商的成本,，同時(shí)又可提高可靠性。例如,，使用先進(jìn)的人群分析算法，則可通過(guò)檢測(cè)步行模式的細(xì)微變化來(lái)識(shí)別對(duì)象（如隱藏的武器）的存在,。在消費(fèi)市場(chǎng)中,，Nest等公司的安防產(chǎn)品可通過(guò)智能手機(jī)提醒用戶(hù)其家中發(fā)生的異動(dòng)，并過(guò)濾掉不重要的異動(dòng)行為如影子在墻上的移動(dòng)或樹(shù)木的迎風(fēng)擺動(dòng),。

超市等零售環(huán)境傳統(tǒng)上主要依靠支付和商店忠誠(chéng)度來(lái)跟蹤消費(fèi)者的行為,，而使用計(jì)算機(jī)視覺(jué)則為新客戶(hù)的開(kāi)發(fā)帶來(lái)了契機(jī)。Vadaro等公司生產(chǎn)的零售相機(jī)可以通過(guò)評(píng)估顧客的年齡,、性別,、停留時(shí)間及關(guān)注的產(chǎn)品來(lái)識(shí)別顧客是新顧客還是老顧客。這些相機(jī)還能給零售商和廣告商反饋有價(jià)值的信息,，并通過(guò)自動(dòng)化任務(wù)如計(jì)算排隊(duì)等候人數(shù)等來(lái)改善服務(wù)質(zhì)量,。

Vadaro Eagle零售分析傳感器

計(jì)算機(jī)視覺(jué)算法

計(jì)算機(jī)視覺(jué)算法涉及到許多不同類(lèi)型的任務(wù)，通常呈流水線形式,，如下所示：

典型的計(jì)算機(jī)視覺(jué)處理流水線

· 圖像預(yù)處理任務(wù)包括降噪,、色彩標(biāo)準(zhǔn)化、伽馬校正和去翹曲,。
· 特征提取和描述即標(biāo)識(shí)圖像中可精確測(cè)量的點(diǎn)和區(qū),。后續(xù)階段的處理則可在已簡(jiǎn)化的特征上操作，這樣可避免全尺寸圖像操作,，也因此降低了計(jì)算難度,。
· 圖像配準(zhǔn)即對(duì)準(zhǔn)多重圖像以簡(jiǎn)化像素級(jí)的對(duì)比工作。例如,，使圖像作為全景或HDR圖像縫合在一起,。
· 對(duì)于需要了解三維空間如三維模型重建的視覺(jué)算法，深度計(jì)算改善了其性能和穩(wěn)固性,。
· 對(duì)象識(shí)別用于標(biāo)識(shí)代表對(duì)象類(lèi)別的像素或特征,。由于此任務(wù)極其復(fù)雜，許多算法都基于機(jī)器學(xué)習(xí)和人工智能技術(shù),。
· 運(yùn)動(dòng)分析是從多個(gè)視頻幀中提取信息,，如輔助預(yù)測(cè)車(chē)輛或行人等對(duì)象在一段時(shí)間內(nèi)的運(yùn)動(dòng)軌跡,。
· 啟發(fā)法可促進(jìn)瞬間決策，如允許快速移動(dòng)的車(chē)輛進(jìn)行糾正操縱,。

特征提取和描述

特征提取將含有大量像素的圖像轉(zhuǎn)換成已縮減的特征點(diǎn)集,，即特征向量（或描述符號(hào)）。一個(gè)好的算法從輸入數(shù)據(jù)中提取相關(guān)信息是為了以縮減的圖像代替全尺寸圖像來(lái)完成后續(xù)的視覺(jué)任務(wù),。其共同的特征包括邊緣,、角落及具有共享屬性如亮度或色彩（即斑點(diǎn)）的區(qū)域。比較知名的特征探測(cè)器有Sobel和Canny邊緣探測(cè)器,、Harris和FAST的角點(diǎn)探測(cè)器及高斯差分 (DoG)斑點(diǎn)探測(cè)器,。示例如下。

邊緣,、角落和高斯差分

尺度不變特征變換算法

SIFT(尺度不變特征變換算法)是最早期的特征探測(cè)器，精準(zhǔn)度高,。SIFT從DoG尺度空間極值點(diǎn)中檢測(cè)斑點(diǎn),，融入Harris檢測(cè)的變體，丟棄了類(lèi)似邊緣的特征值,。正如下圖所示,，SIFT算法為多尺度圖像（或octave）計(jì)算尺度空間金字塔。在每個(gè)多尺度圖像中,，通過(guò)高斯核卷積圖像獲得多個(gè)模糊圖像,，這可抑制高頻空間信息。DoG操作從另一個(gè)低模糊版的相同圖像中減去一個(gè)模糊圖像,，從而保留頻率范圍之間的空間信息,。通過(guò)將其中一個(gè)模糊圖像縮減2倍像素采樣及重復(fù)計(jì)算，可連續(xù)對(duì)octave進(jìn)行計(jì)算,。最終的輸出是產(chǎn)生一個(gè)迷你圖,。迷你圖包括octave的多個(gè)DoG尺度空間圖像在內(nèi)，還包含了代表特征點(diǎn)的高變體區(qū)域,。

高斯差分金字塔

加速?gòu)?qiáng)健特征

SIFT計(jì)算精準(zhǔn)度雖高,，但計(jì)算成本大，這對(duì)于嵌入式設(shè)備的實(shí)時(shí)執(zhí)行不實(shí)用,。隨后,，運(yùn)算效率高的SURF(加速?gòu)?qiáng)健特征)檢測(cè)器便開(kāi)始迅速發(fā)展。SURF使用一系列簡(jiǎn)化的矩形過(guò)濾器代替了SIFT繁重的卷積操作,。簡(jiǎn)化的矩形過(guò)濾器近似高斯平滑濾波器,，通過(guò)預(yù)計(jì)算積分圖像并將其存儲(chǔ)在一個(gè)數(shù)組中，以此有效地實(shí)現(xiàn)過(guò)濾,。正如下圖所示,，A區(qū)的積分圖像是其左上區(qū)域像素強(qiáng)度的總和,，而通過(guò)計(jì)算D-B-C+A四個(gè)數(shù)組，便可計(jì)算在固定時(shí)間下矩形內(nèi)的像素總和,。

積分圖像

哈爾特征

較為盛行的Viola-Jones人臉檢測(cè)算法也使用了矩形特征,，即通常所說(shuō)的哈爾特征（如下圖所示）。這些特征的計(jì)算即：減去陰影矩形中的像素總和,，計(jì)算清晰矩形中像素的總和,，并使用這些特征找出圖像中類(lèi)似人臉區(qū)域的屬性，如：眼部區(qū)域比上臉頰（特征B）區(qū)域更暗,，鼻梁區(qū)域又比眼部區(qū)域（特征C）更亮,。通過(guò)在此粒度區(qū)域?qū)舆M(jìn)行操作，哈爾特征可有效地辨別人臉面部表情的變化,。

Viola-Jones對(duì)象檢測(cè)框架的四種特征類(lèi)型

直方圖

另一個(gè)較為流行的特征描述符是方向梯度直方圖（HOG）,，其使用在許多汽車(chē)ADAS系統(tǒng)中，用于檢測(cè)路面行人,。如下圖所示，HOG將圖像分成單元格,，并通過(guò)強(qiáng)度梯度分布描述局部出現(xiàn)的對(duì)象,。這些單元格捕獲的梯度結(jié)構(gòu)是典型的局部形態(tài)，可容忍局部幾何形狀的細(xì)小變化,，這也使得HOG更適于檢測(cè)直立行走的人,，且無(wú)論其是否發(fā)生輕微的肢體動(dòng)作均可檢測(cè)。

HOG檢測(cè)的行人

HOG通過(guò)過(guò)濾圖像卷積核來(lái)計(jì)算梯度值,。隨后,，單元格內(nèi)的每個(gè)像素則在梯度計(jì)算的基礎(chǔ)上對(duì)基于方向的直方圖通道進(jìn)行加權(quán)投影。并將單元格組成內(nèi)存塊,，以對(duì)照度和對(duì)比度的變化進(jìn)行歸一化處理,。HOG在沒(méi)有進(jìn)行定向和取向的單一圖像上操作，這使得HOG的計(jì)算成本比SIFT更低,。然而,，HOG所需的卷積和直方圖計(jì)算則比SURF在積分圖像上的加減法操作計(jì)算成本更高。

對(duì)象識(shí)別

對(duì)象識(shí)別即在代表某一類(lèi)對(duì)象如人或汽車(chē)的圖像中標(biāo)識(shí)像素組,。由于此項(xiàng)任務(wù)的計(jì)算復(fù)雜性,，很多算法均基于機(jī)器學(xué)習(xí)和人工智能，如使用級(jí)聯(lián)分類(lèi)器或神經(jīng)網(wǎng)絡(luò),。通常首先進(jìn)行離線訓(xùn)練,，并產(chǎn)生一個(gè)可隨后與新圖像匹配的數(shù)據(jù)庫(kù)。此訓(xùn)練步驟的計(jì)算量大,，可能需要花費(fèi)數(shù)天或數(shù)周在超級(jí)計(jì)算機(jī)上執(zhí)行,。然而,，與數(shù)據(jù)庫(kù)匹配新圖像則工作量小，因此適合在嵌入式設(shè)備上實(shí)時(shí)執(zhí)行,。

級(jí)聯(lián)分類(lèi)器

Viola-Jones人臉檢測(cè)框架使用了學(xué)習(xí)算法來(lái)篩選最佳的人臉特征和序列分類(lèi)器,。匹配算法使用哈爾特征使滑動(dòng)窗口在圖像上移動(dòng)，以檢測(cè)可能的匹配,。哈爾特征是弱分類(lèi)器,，在孤立狀態(tài)下準(zhǔn)確度低，因此Viola-Jones對(duì)加權(quán)弱分類(lèi)器進(jìn)行了線性組合,，即加強(qiáng)版的分類(lèi)器,。加強(qiáng)版的分類(lèi)器使算法快速拒絕非人臉圖像得同時(shí)，又可以高概率的檢測(cè)到人臉,，因此極大平衡了性能和準(zhǔn)確度,。正如下圖所示，在級(jí)聯(lián)的每個(gè)階段,，均可測(cè)試當(dāng)前窗口圖像的少量特征：那些沒(méi)有被拒絕及可以進(jìn)入下一階段的特征,。Viola-Jones序列分類(lèi)器使用了38級(jí)的級(jí)聯(lián)，每級(jí)難度逐漸加深,。第一級(jí)為簡(jiǎn)單的注意提示,，使用了兩個(gè)特征以獲得0%的假陰性率和40%的假陽(yáng)性率，這大約占整個(gè)級(jí)聯(lián)評(píng)估次數(shù)的一半,。

哈爾級(jí)聯(lián)分類(lèi)器

支持向量機(jī)

特征空間很大時(shí),，使用級(jí)聯(lián)非常有效，因?yàn)榧?jí)聯(lián)僅僅關(guān)注執(zhí)行程度最佳的特征,。當(dāng)所有的特征都要用于解決方案時(shí)（例如基于HOG特征的行人檢測(cè)算法）,，則通常使用更為簡(jiǎn)單的基于監(jiān)督式學(xué)習(xí)的算法。支持向量機(jī)（SVM）便是一大例證,。SVM使用學(xué)習(xí)算法來(lái)識(shí)別圖像模式,。相比需要巧妙結(jié)合諸多弱分類(lèi)器的加強(qiáng)版分類(lèi)器，SVM建立了一個(gè)模型,，并在一組訓(xùn)練樣本的基礎(chǔ)上,，將一個(gè)圖像分配為兩種類(lèi)別。在SVM模型中,，將訓(xùn)練樣本表示為空間中的點(diǎn)進(jìn)行映射,，這樣，單獨(dú)類(lèi)別的樣本便可以被盡可能寬的清晰間隔分開(kāi),。

一旦訓(xùn)練圖像包含了特定的對(duì)象,，SVM分類(lèi)器便可提供對(duì)象在其它圖像中存在的置信水平，并通過(guò)這個(gè)閥值來(lái)做出二元判定。訓(xùn)練及匹配基于SVM的分類(lèi)器比級(jí)聯(lián)更加簡(jiǎn)單,，這是一大優(yōu)勢(shì),，但其計(jì)算成本卻很大。

卷積神經(jīng)網(wǎng)絡(luò)

準(zhǔn)確檢測(cè)各式各樣對(duì)象的需求大大推動(dòng)了分層機(jī)器學(xué)習(xí)模型研究的發(fā)展,，如卷積神經(jīng)網(wǎng)絡(luò)（CNN）,。CNN試圖模仿人類(lèi)視覺(jué)系統(tǒng)。正如下圖所示,，CNN的核心操作是圖像卷積和縮減像素采樣,。卷積過(guò)濾器坐標(biāo)是代表神經(jīng)元之間連接強(qiáng)度的權(quán)重，而縮減像素采樣操作可以在不同層次找到對(duì)象,。這些操作需要不斷重復(fù)多次,，由此產(chǎn)生了一套高層次的特征，并形成一個(gè)可進(jìn)行最終輸出預(yù)測(cè)的全連通圖,。

CNN框架

由于CNN為每個(gè)圖像像素執(zhí)行卷積操作,，因此相比其它基于手動(dòng)設(shè)計(jì)特征的對(duì)象檢測(cè)如SURF和HOG，其計(jì)算成本更大,。雖難度加深,，但精準(zhǔn)度更高：基于CNN的檢測(cè)器在對(duì)象檢測(cè)質(zhì)量方面遙遙領(lǐng)先。此外,，由于CNN存儲(chǔ)了所有的學(xué)習(xí)參數(shù),，因此不用改變底層算法亦可將其調(diào)整到許多不同類(lèi)型的對(duì)象中。兼具準(zhǔn)確度與靈活性使其在當(dāng)下廣為流行,，相信在不久的將來(lái)，CNN亦將成為主流趨勢(shì),。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：晨光skrva5u056 > 《待分類(lèi)》

舉報(bào)/認(rèn)領(lǐng)