騰訊專家淺談構(gòu)建圖像識別系統(tǒng)的方法

2016xing 2019-04-18

展開全文

作者介紹

冀永楠博士畢業(yè)于英國諾丁漢大學(xué)計算機系,。2004年起從事機器學(xué)習(xí)的研究和應(yīng)用開發(fā)工作。對機器學(xué)習(xí)在時間序列,，圖像識別,，數(shù)據(jù)處理等領(lǐng)域的應(yīng)用有著豐富實際經(jīng)驗。現(xiàn)就職于騰訊云大數(shù)據(jù)及人工智能產(chǎn)品中心負(fù)責(zé)人工智能產(chǎn)品的落地工作,。

4月13日結(jié)束的計算機視覺沙龍圓滿落幕,。本期沙龍從構(gòu)建圖像識別系統(tǒng)的方法切入，講述騰訊云人臉識別,、文字識別,、人臉核身等技術(shù)能力原理與行業(yè)應(yīng)用，為各位開發(fā)者帶來了一場人工智能領(lǐng)域的技術(shù)開拓實踐之旅,。下面是冀永楠老師關(guān)于淺談構(gòu)建圖像識別系統(tǒng)方法的總結(jié),。

講師介紹：冀永楠博士畢業(yè)于英國諾丁漢大學(xué)計算機系。2004年起從事機器學(xué)習(xí)的研究和應(yīng)用開發(fā)工作,。對機器學(xué)習(xí)在時間序列,，圖像識別，數(shù)據(jù)處理等領(lǐng)域的應(yīng)用有著豐富實際經(jīng)驗?，F(xiàn)就職于騰訊云大數(shù)據(jù)及人工智能產(chǎn)品中心負(fù)責(zé)人工智能產(chǎn)品的落地工作,。

自我介紹一下,，我叫冀永楠，畢業(yè)于諾丁漢大學(xué)計算機系,，我一直做圖像相關(guān)和機器學(xué)習(xí)不同領(lǐng)域的應(yīng)用,，目前在騰訊云的大數(shù)據(jù)AI產(chǎn)品中心擔(dān)任高級研究員的職位，我今天跟大家簡單介紹一下關(guān)于計算機視覺的一些基本原理和應(yīng)用,。

簡單來講,，計算機視覺就是先通過一些方法把一些現(xiàn)實中的東西轉(zhuǎn)化為圖像，通過對圖像做分析,，得到一些我們想要的結(jié)果,。最常見的圖像其實就是我們拍照，常見的這種任務(wù)分為物體識別,、對象的檢測,、對象的追蹤、語義上的分割,，還有三維重建,、知識問答等等，最后通過這些組合來完成我們經(jīng)常常見的人臉識別的這些任務(wù),。

我這邊把整個圖像從成像到實際的應(yīng)用層分這么四層,，最基本的是一個成像層，因為現(xiàn)在騰訊也是要做產(chǎn)業(yè)互聯(lián)網(wǎng),，其實在互聯(lián)網(wǎng)領(lǐng)域的時候,，我們最常用的圖像是視頻和普通的RGB圖像，進入產(chǎn)業(yè)互聯(lián)網(wǎng)之后就會接觸不同的成像方式,，比如工業(yè)相機的成像,，還有比較火的3D人臉模型之后用3D的結(jié)構(gòu)光、TOF等等這種圖像成像方式,。在上面,，我們這是一個成像的輸入圖，它的輸入往往是一些采集過來的信號,，它的輸出一般是圖像或者人可以看懂的東西,。

再往上，會對這些圖像進行一般的簡單的分析,，大部分都是一些幾何性的,，這些東西就能提出一些幾何的點、線,、面這些特征,，這是低等級的特征或者低等級的處理方式。再往上會構(gòu)建出一些物體的檢測,、物體的分割,、還有配準(zhǔn),。

還有一些高等級的應(yīng)用，F(xiàn)ace Recognition等等這些,。

先從成像簡單講,，最近這幾種我們常見的成像方式，除了RGB之外,，上面有紅外,，還有距離的成像，下面是CT成像,，它本身的成像方式是通過感測器,，繞一個物體一周，根據(jù)信號計算出這個物體內(nèi)部對于X光的吸收程度所產(chǎn)生的一個成像,。醫(yī)療成像,，它本身的成像方式是我要攝入一些有放射性的東西，并且從外部感受這些東西,，所產(chǎn)生的密度，疊加在原有的CT成像上,。再往下是有一個紅外廣譜,，這兩個是放大的圖像方式。

遙感圖像,，它比較大的特點是它的頻譜比較寬一點,，它的通道會比普通通道多一點。最后一個比較火的黑洞,，當(dāng)然大家可能最近比較熱的一個話題,，因為剛開始的時候我看新聞的時候，第一張黑洞的照片,，其實我希望的會是一種類似這種照片,，但其實往往得到這個圖片，在我們來看更像一個map,，它是根據(jù)很多的數(shù)據(jù)不斷的去搜集這個數(shù)據(jù)之后,，然后在建立了一個物理模型，再通過這些數(shù)據(jù)訓(xùn)練這些模型,，得到這么一個能源的圖,。

這就是我們現(xiàn)在目前為止比較常見的一些成像的方式吧，那么在接觸任何解決方案的時候,，其實無論是做醫(yī)療也好,，或者現(xiàn)在做多媒體，還是說做天文,，各種領(lǐng)域的圖像的解決方案里面,，往往了解成像過程是第一步,，這個會告訴你看到的圖像是什么，還有傳統(tǒng)的解決方案是什么,，無論你想把AI或者模型應(yīng)用到這里面,，這都是建立整個系統(tǒng)理解的第一步。

我們最常見的圖片,，它的成像方式就比較簡單一點,，可能大家都知道有一個光源，照射到物體之后產(chǎn)生反光,，反光通過成像系統(tǒng),，比如相機，它會映射到一個傳感器上,，在傳感器上產(chǎn)生強度信號,，如果有三重傳感器就會產(chǎn)生RGB的圖像，現(xiàn)在很多的格式里還有α,，α就是一個透明度的圖像,。那么之前的話，記得英特爾做過一個應(yīng)用,，把某一個數(shù)據(jù)和它所形成的圖像進行一個maping,，這個也在很多的相機里有一些專業(yè)的暗光相機里進行使用。

低level呈現(xiàn)的以De-noise為主,，黑的地方黑,，暗的地方暗，一般是線性影射,，映射到人的可見范圍內(nèi),。這個過程是非常常見的，甚至這個可以單做成一個小工具來調(diào),，所以我們看到醫(yī)療圖像一般它的深度是2048的,，壓縮在一個圖上是完全看不見的，或者經(jīng)常是截取其中一部分來看你具體想要看的位置是什么,，想看的器官是什么,。像這種去噪，是一個非常常見的應(yīng)用,，因為幾乎所有的系統(tǒng)都會有噪聲,。

到中一層就涉及到一部分物體里面的內(nèi)容，包括分類,，classification和Localization,，我認(rèn)為這個圖像里到底有幾個我的前景目標(biāo)，你圖像的數(shù)據(jù)數(shù)量沒有多少,，直接指望用一個分類方法就搞定的話這是不太現(xiàn)實的,，這是你在拆解問題沒有拆解好的話,，你在后面用其它的底層技術(shù)方法去彌補的話往往會于事無補而且會浪費很多時間糾結(jié)在這上面。有時候反過來講,，這是拆解問題導(dǎo)致后期的中層問題彌補不了的,。反過來你在成像時候遇到的一些問題，你用中層的技術(shù)也是彌補不了的,。比如我以前做的醫(yī)療圖像,，經(jīng)常出現(xiàn)CT里面放一個金屬，整個圖片就壞掉了,，那個金屬會非常亮,，把周圍的射線全部吸走，這時候在后處理里建模是基本無用的,。

我們現(xiàn)在其實有很多的問題,，常見的問題上在GItHub上或者開源社區(qū)上都會有一些端到端的，如果不做這些分解的話,，結(jié)果怎么提都提不上去,。

這是高等級的圖像應(yīng)用，比如人臉識別,、自動駕駛,，還有中間那個圖是圖像中的物體和語言的一種對應(yīng)關(guān)系。右面是一個冠狀動脈的標(biāo)注,，如果心臟有問題去醫(yī)院的話會先掃一個CT,，會重建出你的八根冠狀動脈,，之后根據(jù)狹窄情況再去考慮是否下支架,，這個過程原來是手動的，必須醫(yī)生一根一根看,，看完之后給出診斷,，現(xiàn)在有計算機輔助的，有一個公司是專門做這一部分,。

講完分層,，再講一下不同層面所對應(yīng)的方法，圖象處理方法,，像我比較早接觸是2000年上下,，那個時候還沒有深度學(xué)習(xí)，那個時候講到圖像,，大部分都是講圖像濾波器,，濾波器就是常見的空間濾波器、頻率濾波器,、傅里葉,、小波濾波器,，后來用對稱等等，這是低層的方法,。中層的方法,，就是涉及各種各樣的Feature，通過Feature加分類器,，再給一個表現(xiàn),，要么是圖片，要么是通過滑窗截取到的一小片圖片,，然后再放到分類器里面看它是不是你想要的目標(biāo),，當(dāng)時基本上是這樣做的。當(dāng)時的分割方法,，還有l(wèi)evel-set,，就是用一個函數(shù)限制它的變化方法，實際上我們大部分接觸到分割,，大部分想要的分割結(jié)果都是比較規(guī)整的,，這種規(guī)整程度用什么描述？可以用level-set函數(shù)表述,，也可以用其他,，大部分都是采用這種思路。

簡單介紹幾個圖像數(shù)據(jù)的Feature,，這是邊緣的Feature,，它要求在一個簡單的場景下做到一個非常穩(wěn)定的效果，那么它本身映射到一個高?？臻g里,，這個空間維度并不是那么高也并不是那么復(fù)雜，但是我就要求它的穩(wěn)定性比較好,，基本上都是采用這種簡單的方法來處理,。Haar Feature這是最早用來做圖像檢測的，它設(shè)計了幾個Haar Feature進行分類,，然后檢測出人臉,。

局部對稱性，這是當(dāng)你需要檢測的物體有一定對稱性的時候,，比如檢測一個股骨頭,，股骨頭大部分圓的，這個時候用對稱性會給一定的加分,。

SIFT是最早一個把SIFT引入到Feature里面的,，它能把你的目標(biāo)物體，當(dāng)你的拍攝角度不一樣的時候，它是第一個能做到有效的對應(yīng)關(guān)系的,。到后來的話,，當(dāng)時很多的檢測和分類的算法里面都會加入這個Feature，之后的很長時間都是用HoG的Feature,。一個整體的部分,，比如一個人，可能不太可能只用一個part來描述,，因為經(jīng)常是組合性的,，其實最簡單的，人的手經(jīng)常是在不同位置上的,，完全用一個不可能區(qū)隔的,，所以在那時候是最好的一個檢測效果。

剛才上面講的是目標(biāo)檢測的傳統(tǒng)方法,，后面這兩個主要是分割的方法,。分割方法最常見的是分水嶺方法，其實就是抽一個維度,，其實和一個圖也沒有太大本質(zhì)的區(qū)別,，然后根據(jù)條件看出不同的區(qū)域。到后來的話還會有其他的,，比如極大穩(wěn)定區(qū)域,，它定義了一種極大穩(wěn)定區(qū)域的度量，就是這個區(qū)域內(nèi)怎么算極大穩(wěn)定,，在這個極大穩(wěn)定區(qū)域里它的均一性好一點,。它本身是要把圖像分為幾塊進行檢測，但后來發(fā)現(xiàn)這個東西做分割也蠻好的,，現(xiàn)在OCR這種傳統(tǒng)仍然常用的,，因為OCR尤其在一些場景下，比如廣告牌,，廣告牌會給一個比較強的背景反射,，比如白墻加紅字或者黑墻加白字,，它的目標(biāo)區(qū)域是非常穩(wěn)定的,，用它做一個初步的檢測結(jié)果，效果往往是非常好的,。

還有一個是ASM,，主觀形狀模型，其實很多思想在后面深度學(xué)習(xí)領(lǐng)域里面仍然被使用,，像這個ASM以及后來這一系列的想法,。它的主要想法是在分割的時候大概知道分割區(qū)域的格式是什么樣，設(shè)計一個變化的范圍，分割的接口不會太多的超出這個范圍,。像這個人臉的話,，當(dāng)時的人臉分割，比如我可以采集十個人臉或者更多的一百個人臉,，把一百個人臉都做一個很好的標(biāo)注,，建一個人臉的模型。做一千個人臉,，做一個平均的人臉,，現(xiàn)在也有亞洲人長什么樣、非洲人長什么樣,，美洲人長什么樣,，其實基本就是這樣，取平均值,，然后做一個平滑,，形成這么一個人臉的效果。

深度學(xué)習(xí)在圖像中的應(yīng)用,，在2011,、2012年前后逐漸流行起來，早期的時候深度學(xué)習(xí)是達不到這樣一個深度,，我們當(dāng)時稱之為MOP,，MOP當(dāng)時用的時候效果并不好。有幾個原因吧,，第一個是當(dāng)時訓(xùn)練不了太深,，非線性擬合做不了那么高的高度，第二是訓(xùn)練難度比較大,，每次訓(xùn)練結(jié)果和前次都不一樣,，為了彌補這個缺陷，統(tǒng)計上得到一個一致的結(jié)果,，比如隨機N個初始條件然后開始訓(xùn)練,，這樣的話最后的效果并沒有好，訓(xùn)練的時間反而很長,。

那么到后來,，因為在圖像上加入了卷積神經(jīng)網(wǎng)絡(luò)GPU的技術(shù)，還有一些關(guān)鍵性的技術(shù),，使得第一它的訓(xùn)練可以訓(xùn)練更深,，可以得到更高的擬合性。第二是不需要對最后的結(jié)果影響并不那么大,，在此之后又一個使它應(yīng)用比較廣泛的前提是,，我們有了很多的預(yù)訓(xùn)練的網(wǎng)絡(luò)，這樣的話其實使我們現(xiàn)在很多做計算機視覺的人都能有幸站在巨人的肩膀上，開發(fā)自己的應(yīng)用,。但是因為巨人隨時會撤掉了,，我們希望能做一個什么呢，希望做一個有一定高度的平臺,，這個平臺就不用考慮平臺會不會倒的問題,，大家會穩(wěn)穩(wěn)站在上面開發(fā)自己的應(yīng)用。

深度學(xué)習(xí)在圖像中的應(yīng)用,，前面是特征層,，到后面會有一些比較高一級的特征，到后來會進行一個全連接,，再進行分類,。簡單的說，分類的話是最簡單的一個網(wǎng)絡(luò)吧,，就是卷積之后加幾個全鏈接,，輸出就可以了。在檢測上的話,，除了一個基本的網(wǎng)絡(luò)之外,，會加一些proposal這一部分的結(jié)構(gòu)。在分割上,，我覺得最早的,，讓我印象比較好的第一個是U型網(wǎng)絡(luò)，其實現(xiàn)在有很多也在用這個思想,。

最后講一下騰訊云的能力,，騰訊云，我們其實開放的大部分是高等級結(jié)果層,，主要分三塊,，OCR、Video,、Image,。包括人臉上我們會輸出一些人臉的檢測點，現(xiàn)在已經(jīng)開放一百個標(biāo)注點了,，根據(jù)這些標(biāo)注點可以做一些自己的應(yīng)用,，我們也希望或者在有余力的情況下開發(fā)一些更偏下游的，讓開發(fā)者有更多的開用工具,，這樣開發(fā)的自由度更高一點,，但坦率講這個對我們工作壓力是非常大的,。在底層,，像平臺這一面，平臺更多的是虛擬機，一些計算資源,，計算資源上搭了一些通用的軟件,，這部分應(yīng)該還是比較容易獲得的，現(xiàn)在一個是從下往上,，另一個角度從上往下,，爭取把結(jié)果進行一個更好的覆蓋，開發(fā)者從粗粒度到細(xì)粒度的工具,，能夠開發(fā)出我們更想要的應(yīng)用場景,。

這是一個例子，我們做一個人臉融合,，把一張模板的圖片和一個用戶的圖片揉合在一起,，先是定位，之后是配準(zhǔn),，之后把臉部分割出來,，融合是沒有進行開放也不太好開放的地方，這里涉及到一些渲染的方法,，再加上光照的廣大,，形成最后的融合圖。

還有一個案例,，是最近工業(yè)性的一個應(yīng)用案例,，現(xiàn)在用的手機屏幕的生產(chǎn)線是一個高自動化的生產(chǎn)線系統(tǒng)，涉及的人力非常少,，用他們的話說只要機器不壞我們是不進去的,，唯一涉及到人的部分，可能就是看它有沒有缺陷的部分,。這個缺陷的部分,，像黑點、光斑的部分是缺陷的部分,。

這一塊主要的問題,，要解決這個視覺應(yīng)用的話，第一個問題是你能看到的,，其實一個切入點是你需要把你幾個缺陷部分和背景度相分離出來,，至于背景后面的分析，其實用傳統(tǒng)的一些方法可能更為可靠一些,，因為背景基本上變化范圍非常少,，而且你讓他怎么變化，可能產(chǎn)生的變化因素是什么,，比如聚焦,、失焦,，產(chǎn)品的更迭，這樣是可以有預(yù)備而來的,。而且他們在高維空間里可以找到一個映射空間把它的前景和背景進行一個有效的分離,。

最后是給希望在圖象和計算機視覺進行進一步學(xué)習(xí)的同學(xué)們一點意見吧，介紹給大家這幾本書,，第三本書可以構(gòu)建出一個圖像分析的框架,，第二本是講深度神經(jīng)網(wǎng)絡(luò)的，包括在圖像上的一些應(yīng)用,。上面有一些課程,，他們在Youtobe上有一些課程，對編程能力和解決實際問題還是有很大幫助的,。

Q：我看到您最后給我們推薦機器視覺的入門資料,，我很想問一下，您覺得機器視覺和計算機視覺的區(qū)別在哪兒,？或者您覺得它是一個東西嗎,？

A：這個很有意思，你去找機器視覺,，可能發(fā)現(xiàn)現(xiàn)在機器視覺都偏向在工業(yè)上的應(yīng)用,，所以更多的是采用一些比較傳統(tǒng)的方法。計算機視覺我覺得應(yīng)該比這種所謂定義的視覺范圍廣一些的,，至于他們倆是不是同樣的東西,，很多的學(xué)術(shù)名稱都不是互斥的，都包括很多共同的東西,，也包括有差異性的東西,，那么在機器視覺上，至少實際應(yīng)用里提到機器視覺的話你會得到一批廠商,，他們主要服務(wù)的對象是誰誰誰,。你提到計算機視覺的時候，會得到另外一些,，包括蘋果,、微軟、英特爾,，這是另外一個圈子,。所以從這個角度上是有一定分類的，但如果從技術(shù)角度或者從從業(yè)者的角度,，或者從一個學(xué)習(xí)者的角度來講,，他們有很多東西是共性的。

Q：冀老師您好,，我想問您兩個問題,，第一個問題是就技術(shù)方面來看,，您會覺得計算機視覺，像圖像分類或者是目標(biāo)檢測已經(jīng)到達一個穩(wěn)定水平了嗎,？

A：在一些通用的場景還是比較穩(wěn)定的,，換句話說調(diào)用的接口,，得到的結(jié)果是能滿足百分之六七十,、七八十的場景，在一些特定的場景,，更像是端到端的解決方案,，我們現(xiàn)在已經(jīng)開放的接口恐怕很難達到一個很好的效果，總結(jié)來講,，一些通用的場景或者一些通用的問題,，絕大多數(shù)場景給一個方案，給一個平臺,，那么這個是比較穩(wěn)定的,。對于一些差異化的場景，只靠這些開放平臺肯定是不夠的,。

Q：可以檢測出哪個階段產(chǎn)生缺陷嗎,？

A：因為生產(chǎn)階段有不同的站點，可以通過站點之前進行回溯,，避免產(chǎn)生資源浪費,。還有多少種，我只能說這個種數(shù),，要求的種數(shù)是非常多的,，至少上百種吧。我們現(xiàn)在理論上正在做的過程,，有一部分是成熟的,，有一部分不太成熟。

Q：我現(xiàn)在在做一個特殊字符的識別,，我現(xiàn)在遇到一個問題,，我沒有那么多的訓(xùn)練數(shù)據(jù)，它給了我一部分測試數(shù)據(jù),，但每個字符只有一百個,，就算全部拿來訓(xùn)練也達不到那種效果。我的訓(xùn)練數(shù)據(jù)非常少,，我想問一下怎么生成那種數(shù)據(jù),，盡量和測試數(shù)據(jù)能達到那種效果。

A：其實你遇到的問題,，我們經(jīng)常遇到,，我們做一個東西,，給你十個例子，又不告訴你上下文,，又不告訴你到底用在什么位置,。從這個角度來講，我會做什么,，我們會跟需求方,，無論需求方是客戶還是產(chǎn)品經(jīng)理聊這個到底干嗎用？這個字符所產(chǎn)生可能的范圍是什么樣的,。

Q：我們現(xiàn)在做那個字符是學(xué)生用手寫了一個數(shù)字,，畫了一個圈，問題是他給我的圖里,，有的是可以把圈全部截到里面去,，有的就截一半的圈。

A：就是一個數(shù)字的手寫體,。

Q：又加了一個圈,，但會有干擾。

A：這個還好,，這個問題不是特別大,。

Q：我想問一下生成這個問題。

A：生成的話,，你可以采用不同的,，比如是不是都是手寫的？還是也有印刷的,？也有印刷的,。我覺得你還是新定義一個sgop（音），看它的變數(shù)是什么,，再去仿照一些樣本,。如果這個sgop定義不了的話，效果肯定不好,，這是必然的,，所以先看一下到底想解決這個問題的范圍、邊界在哪里,。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自： 2016xing > 《人工智能》

舉報/認(rèn)領(lǐng)