聯(lián)合編輯 宗仁 黃鑫 今年夏天,,雷鋒網(wǎng)將在深圳舉辦一場(chǎng)盛況空前的“全球人工智能與機(jī)器人峰會(huì)”(簡(jiǎn)稱CCF-GAIR)。大會(huì)現(xiàn)場(chǎng),,谷歌,,DeepMind,Uber,微軟等巨頭的人工智能實(shí)驗(yàn)室負(fù)責(zé)人將蒞臨深圳,,向我們零距離展示國外人工智能震撼人心,、撬動(dòng)地球的核心所在。如果你不想錯(cuò)過這個(gè)大會(huì)的盛世狂歡,,請(qǐng)點(diǎn)擊文末購買我們的早鳥票,。 本次CVPR 2016上,深度學(xué)習(xí)幾乎成了如今計(jì)算機(jī)視覺研究的標(biāo)配,,人臉識(shí)別,、圖像識(shí)別、視頻識(shí)別,、行人檢測(cè),、大規(guī)模場(chǎng)景識(shí)別的相關(guān)論文里都用到了深度學(xué)習(xí)的方法,加上Google,,F(xiàn)acebook這樣的大企業(yè)助力,,很多人疑惑,為什么深度學(xué)習(xí)相比其它的AI實(shí)現(xiàn)方法,,已然呈現(xiàn)出一副碾壓之態(tài),? 本期硬創(chuàng)公開課嘉賓我們邀請(qǐng)了商湯科技執(zhí)行研發(fā)總監(jiān)曹旭東,其剛從CVPR 2016現(xiàn)場(chǎng)趕回來,,正好在這里為大家解釋一下為什么深度學(xué)習(xí)幾乎成了計(jì)算機(jī)視覺研究的標(biāo)配這個(gè)問題,。以及為大家講解CV和深度學(xué)習(xí)的現(xiàn)狀和未來趨勢(shì)。 曹旭東,,商湯科技執(zhí)行研發(fā)總監(jiān),,深度學(xué)習(xí)專家。畢業(yè)于清華大學(xué),。前微軟亞洲研究院副研究員,,負(fù)責(zé)研發(fā)的人臉?biāo)惴ㄔ糜谖④沊box、How-old等知名產(chǎn)品,,現(xiàn)象級(jí)產(chǎn)品How Old.net有數(shù)億用戶,。在CVPR/ICCV/ECCV等計(jì)算機(jī)視覺頂級(jí)會(huì)議發(fā)表論文十余篇,其中三篇CVPR論文和兩篇ICCV論文獲得口頭報(bào)告榮譽(yù)(接收率小5%),。 商湯科技曹旭東:為什么深度學(xué)習(xí)幾乎成了計(jì)算機(jī)視覺研究的標(biāo)配,?| 硬創(chuàng)公開課 基于深度學(xué)習(xí)的物體檢測(cè)Q:目前的深度學(xué)習(xí)用于目標(biāo)檢測(cè)中有什么優(yōu)點(diǎn)和缺點(diǎn)?首先簡(jiǎn)單介紹一下傳統(tǒng)物體檢測(cè)的方法和基于深度學(xué)習(xí)的物體檢測(cè)方法,。 傳統(tǒng)方法使用滑動(dòng)窗口的框架,,把一張圖分解成幾百萬個(gè)不同位置不同尺度的子窗口,針對(duì)每一個(gè)窗口使用分類器判斷是否包含目標(biāo)物體,。傳統(tǒng)方法針對(duì)不同的類別的物體,,一般會(huì)設(shè)計(jì)不同的特征和分類算法,,比如人臉檢測(cè)的經(jīng)典算法是Harr特征+Adaboosting分類器;行人檢測(cè)的經(jīng)典算法是HOG(histogram of gradients) + Support Vector Machine,;一般性物體的檢測(cè)的話是HOG的特征加上DPM(deformable part model)的算法,。
RCNN系列算法還是將物體檢測(cè)分為兩個(gè)步驟?,F(xiàn)在還有一些工作是端到端(end-to-end)的物體檢測(cè),比如說YOLO(You Only Look Once: Unified, Real-Time Object Detection)和SSD(SSD: Single Shot MultiBox Detector)這樣的算法,。這兩個(gè)算法號(hào)稱和faster RCNN精度相似但速度更快,。物體檢測(cè)正負(fù)樣本極端非均衡,two-stage cascade可以更好的應(yīng)對(duì)非均衡,。端到端學(xué)習(xí)是否可以超越faster RCNN還需要更多研究實(shí)驗(yàn)。 深度學(xué)習(xí)為何成為CV研究的標(biāo)配Q:針對(duì)本屆大會(huì)深度學(xué)習(xí)幾乎成了如今計(jì)算機(jī)視覺研究的標(biāo)配,,法國 Inria 研究所的研究員 Nikos Paragios 在 LinkedIn 撰文表示了擔(dān)憂,,似乎過于單一了,對(duì)這個(gè)有什么看法,?先回答深度學(xué)習(xí)為什么會(huì)成為現(xiàn)在計(jì)算機(jī)視覺標(biāo)配的方法,。 首先,最重要的原因是深度學(xué)習(xí)可以做到傳統(tǒng)方法無法企及的精度,,這是關(guān)鍵中的關(guān)鍵,,如果說這個(gè)優(yōu)點(diǎn)是1的話,其它的優(yōu)點(diǎn)都是1后面的0,。深度學(xué)習(xí)革命爆發(fā)在2011~2012年,,11年的時(shí)候在語音識(shí)別領(lǐng)域有重大突破,12年的時(shí)候在圖像識(shí)別領(lǐng)域有重大突破,。深度學(xué)習(xí)革命,,使得計(jì)算機(jī)視覺在很多應(yīng)用領(lǐng)域達(dá)到了實(shí)用水平,催生了工業(yè)界的大量應(yīng)用,。這也是為什么在11年前,,機(jī)器視覺&人工智能的博士生都是找不到工作的,,但是12年之后,尤其是現(xiàn)在,,都變成了被眾多公司高薪爭(zhēng)奪的寶貝,。 另外深度學(xué)習(xí)成為標(biāo)配,還有其它的優(yōu)點(diǎn),。
再回答深度學(xué)習(xí)過于單一的問題,。 深度學(xué)習(xí)過于單一的說法,我覺得是不準(zhǔn)確的,。就好比說一個(gè)包容萬象的宇宙過于單一了,。 簡(jiǎn)單來說,,機(jī)器學(xué)習(xí)就是學(xué)習(xí)輸入到輸出的一個(gè)映射,傳統(tǒng)方法使用淺層的簡(jiǎn)單映射,,現(xiàn)在深度學(xué)習(xí)是多層的復(fù)合映射,。深度學(xué)習(xí)有很多的自由度,學(xué)習(xí)目標(biāo)和學(xué)習(xí)方法有很多種選擇,,網(wǎng)絡(luò)結(jié)構(gòu)層與層之間有無數(shù)的可能連接方式,,每一層映射的具體形式到底是卷積,還是全連接,,還是其它的形式,,并沒有限制,其實(shí)除了全連接和卷積之外,,還可以用其它的映射形式,,比如說去年ICCV上的一個(gè)工作:微軟研究院用Random Forest做為新的映射形式。 深度學(xué)習(xí)技術(shù)樹Q: 商湯科技CVPR2016送選論文重點(diǎn)介紹了四篇論文《物體分割》《服飾識(shí)別搜索技術(shù)》《行為識(shí)別和定位》《人臉檢測(cè)中級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)合訓(xùn)練》,,這4篇有何重要意義,?這與你們目前的業(yè)務(wù)側(cè)重點(diǎn)有何關(guān)系?深度學(xué)習(xí)的技術(shù)框架是一棵樹形結(jié)構(gòu),。 訓(xùn)練平臺(tái)是樹根,,如caffe、tensorflow等?,F(xiàn)在深度學(xué)習(xí)還處于實(shí)驗(yàn)科學(xué)階段,,實(shí)驗(yàn)效率很大程度上決定著研發(fā)效率,好的訓(xùn)練平臺(tái)可以把實(shí)驗(yàn)周期從一個(gè)月縮短到一天,,對(duì)于深度學(xué)習(xí)研發(fā)非常重要,。 模型是樹干。自06年提出深度學(xué)習(xí)概念,,學(xué)術(shù)界花了六年時(shí)間才認(rèn)識(shí)到模型結(jié)構(gòu)的研究才是深度學(xué)習(xí)的重點(diǎn)。典型的成果有AlexNet,、VGGNet,、GoogleNet、ResNet等,。學(xué)術(shù)界大家主要研究怎么把模型做的精度更好,。在工業(yè)界我們還要考慮怎么把模型做得更快,更小,。 在樹干上有幾個(gè)主干的枝丫,,對(duì)應(yīng)著計(jì)算機(jī)視覺里的核心任務(wù),包括了檢測(cè),、識(shí)別,、分割,、特征點(diǎn)定位、序列學(xué)習(xí)等五個(gè)大的任務(wù),,任何計(jì)算機(jī)視覺的具體的應(yīng)用都可以由這五個(gè)任務(wù)組合而成,。以人臉識(shí)別為例,人臉識(shí)別要完成整個(gè)流程,,要涉及到人臉的檢測(cè),、特征點(diǎn)定位,特征的提取&驗(yàn)證,。這就包含了檢測(cè),、特征點(diǎn)定位和識(shí)別三個(gè)部分。 我們?cè)趧偛盘岬降哪俏鍌€(gè)重要的主干方向其實(shí)都投入了非常大的研究力量,,一方面是保證我們?cè)趯W(xué)術(shù)界的前沿有所突破,,另一方面,針對(duì)我們一些重要應(yīng)用也開發(fā)出了一整套與學(xué)術(shù)界并行的方法,,能夠做到十倍的加速和百倍模型的壓縮,,同時(shí)保持很好的精度。這個(gè)問題中提到的四篇論文主要是我們?cè)谶@五個(gè)計(jì)算機(jī)視覺的核心任務(wù)上取得的一些研究方向的成果,。其實(shí)我們除了在研究方向成果之外在工業(yè)實(shí)用方面有更大,、更多的成果,比如我們的人臉檢測(cè)在做到學(xué)術(shù)界最好結(jié)果的同時(shí)能做到300FPS的速度,。人臉特征點(diǎn)的定位超過學(xué)術(shù)界最好結(jié)果的同時(shí),,做到3000FPS的速度。在學(xué)術(shù)界公開的論文中,,我還沒有看到這樣的性能,。 Q:在《物體分割》這篇文章中(作者石建萍)主要解決的問題是 instance segmentation(也稱為Simultaneous Detection and Segmentation)。Instance segmentation 最近逐漸成為一個(gè)新的熱點(diǎn)問題,。它要解決的問題是檢測(cè)(Object Detection)和語義分割(Semantic Segmentation)綜合的一個(gè)問題,。比起檢測(cè),需要得到物體更精確的邊界信息,;比起語義分割,,需要區(qū)分不同的物體個(gè)體。檢測(cè)好懂,,現(xiàn)在都強(qiáng)調(diào)從2D檢測(cè)升級(jí)到3D,,4D的深度檢測(cè);語義分割一直在做的都是區(qū)分不同的物體個(gè)體,,那么現(xiàn)在的語義分割與之前的區(qū)別是什么,?是不是指語義分割要上升到結(jié)合場(chǎng)景的語義理解?在深度學(xué)習(xí)領(lǐng)域有一個(gè)簡(jiǎn)單但又非常通用的原理,。在學(xué)習(xí)時(shí),,指導(dǎo)信息越豐富,、越精細(xì),學(xué)習(xí)的效果一般來說也會(huì)越好,。 舉個(gè)簡(jiǎn)單的例子,,在數(shù)據(jù)量充足的情況下,如果我對(duì)我圖像類別的標(biāo)注僅僅是動(dòng)物,、植物,、場(chǎng)景的話,學(xué)習(xí)出來的模型和特征可能一般,。但是如果把這些類別標(biāo)記細(xì)化,,比如最開始有十類數(shù)據(jù),我們把它細(xì)化到一千類,,例如把狗分成斑點(diǎn)狗,、斗牛犬等,把貓分成波斯貓,、大花貓等,,通常來說可以學(xué)習(xí)到更好的模型和更加好的特征。 另一個(gè)例子是物體檢測(cè),,如果在bounding box的基礎(chǔ)上增加額外的監(jiān)督信息通長(zhǎng)會(huì)得到更好的結(jié)果,。比如標(biāo)注出人臉的眼睛、鼻子,、嘴的位置,,人臉的角度,種族性別男女等屬性,,做成一個(gè)多任務(wù)學(xué)習(xí)的算法的話,,通常來說能得到更好的效果。 兩個(gè)代表性工作可以參考:Joint cascade face detection and alignment,,F(xiàn)acial landmark detection by deep multi-task learning,。 有時(shí)候多個(gè)標(biāo)注/任務(wù)是并列關(guān)系,可以通過Multi-Task Learning的框架來學(xué)習(xí),。另外一些情況,,多個(gè)任務(wù)是遞進(jìn)關(guān)系,前一個(gè)任務(wù)的結(jié)果可以幫助后一個(gè)任務(wù),,例如將每一個(gè)人都獨(dú)立的檢測(cè)出來之后再分割每個(gè)人身體的Mask。合理利用這種遞進(jìn)關(guān)系,,可以得到比并列關(guān)系更好的結(jié)果,,這其實(shí)就是Instance segmentation的核心思想。因?yàn)橥瑐鹘y(tǒng)語義分割不同的是,,傳統(tǒng)語義分割只需要對(duì)物體類別進(jìn)行分類,,不需要區(qū)分不同的個(gè)體,。物體分割(Instance segmentation)是既需要區(qū)分類別,又需要區(qū)分同一物體的個(gè)體,,所以深度學(xué)習(xí)的網(wǎng)絡(luò)需要學(xué)習(xí)到比之前語義分割任務(wù)更多的信息,。這方面微軟亞洲研究院的戴繼峰做了非常開創(chuàng)性的工作。我們商湯科技石建萍高級(jí)研究員的工作也非常有創(chuàng)建性,。通過多尺度局部區(qū)域融合的方法,,端到端的實(shí)現(xiàn)了instance segmentation 物體類別與區(qū)分統(tǒng)一類別不同個(gè)體的信息。 計(jì)算機(jī)視覺黑科技Q:最近CV的應(yīng)用出現(xiàn)了一些黑科技,,比如MIT給機(jī)器“看電視劇”預(yù)測(cè)人類行為,;MIT的人工智能為視頻配音;迪士尼研究院可以讓AI直接識(shí)別視頻里正在發(fā)生的事,。這些黑科技是噱頭多還是真的有意義,?做深度學(xué)習(xí)的人都是有一個(gè)終極的追求。現(xiàn)在的深度學(xué)習(xí)模式其實(shí)比較傻,。給定一個(gè)數(shù)據(jù),,以及對(duì)應(yīng)的標(biāo)簽(label)。比如說給一張圖片,,標(biāo)簽是一只貓,,給另一幅圖片,標(biāo)簽是一只狗,,然后把這些數(shù)據(jù)送到神經(jīng)網(wǎng)絡(luò)里去學(xué)習(xí),,最終達(dá)到一個(gè)很好的識(shí)別效果。這樣的方法叫做監(jiān)督學(xué)習(xí),,雖然非常有效,,但是和人類學(xué)習(xí)的方法還是不一樣的。深度學(xué)習(xí)的研究者希望,,機(jī)器可以更加聰明,,可以像人一樣學(xué)習(xí)。 在監(jiān)督學(xué)習(xí)領(lǐng)域取得了重大成果之后,,大家就把更多的精力投入到更接近人類學(xué)習(xí)方式的半監(jiān)督學(xué)習(xí)(semi-supervised)和無監(jiān)督學(xué)習(xí)(unsupervised)上,。一方面,我們希望更加的深入的理解人類視覺的機(jī)理,、甚至人的智能的機(jī)理,。另一方面,監(jiān)督學(xué)習(xí)需要大量的數(shù)據(jù),,如果能用半監(jiān)督或無監(jiān)督學(xué)習(xí)的方式繞過大數(shù)據(jù)標(biāo)注難題,,達(dá)到相同精度,這對(duì)工業(yè)界非常有吸引力。 問題中提到的這些黑科技,,都是朝著人類學(xué)習(xí)方式探索性工作,,非常有意義。 其實(shí)朝著這個(gè)方向努力的工作還有很多,。這些工作都使用沒有監(jiān)督信息的圖像或者視頻,。這些數(shù)據(jù)雖然沒有標(biāo)簽,但數(shù)據(jù)內(nèi)部其實(shí)都是蘊(yùn)含著一些結(jié)構(gòu),。比如視頻里物體的運(yùn)動(dòng),、行為存在特定規(guī)律;在一張圖片里,,一個(gè)物體也是有特定的結(jié)構(gòu)的,。利用這些視頻或圖像中特定的結(jié)構(gòu),我們可以把一個(gè)無監(jiān)督的問題轉(zhuǎn)化為一個(gè)有監(jiān)督問題,,然后利用有監(jiān)督學(xué)習(xí)的方法來學(xué)習(xí),。 有兩個(gè)典型的工作。第一個(gè)工作把圖像劃分成2x2或者3x3的圖像區(qū)域,,給定任意兩個(gè)區(qū)域預(yù)測(cè)他們之間的相對(duì)位置關(guān)系,。這個(gè)工作利用到的物體、場(chǎng)景的固有結(jié)構(gòu)特點(diǎn),,例如天空在道路上方,,雙腿在身體下方。另一個(gè)工作利用視頻數(shù)據(jù)學(xué)習(xí)物體邊緣,,主要用到了視頻中物體的邊緣相對(duì)于背景有較大的運(yùn)動(dòng)這一個(gè)特點(diǎn),。 長(zhǎng)期來看的話,探索人類學(xué)習(xí)過程的半監(jiān)督,、非監(jiān)督,、多感知輸入的學(xué)習(xí)方式是深度學(xué)習(xí)的另一個(gè)發(fā)展趨勢(shì)。 怎么看最佳論文們Q:微軟亞洲研究院的論文 Deep Residual Learning for Image Recognition 榮獲最佳論文獎(jiǎng),,本屆 CVPR 2016最佳學(xué)生論文是斯坦福大學(xué)的 Structural-RNN: Deep Learning on Spatio-Temporal Graphs,,您對(duì)這兩篇論文有什么看法?凱明,、孫劍的兩篇best paper都是十分鐘就能看懂,,一天就能復(fù)現(xiàn)出結(jié)果。而對(duì)于之后的研究產(chǎn)生長(zhǎng)遠(yuǎn)影響的工作,。另外,,孫劍做研究的風(fēng)格對(duì)我影響很大。問題導(dǎo)向,,解決重要問題,,做真正work的研究。這些方法論不僅在學(xué)術(shù)界非常有價(jià)值,而且在工業(yè)界研究更加重要,。
另外ResNet有很大的冗余,,把152層網(wǎng)絡(luò)中的后面幾層去掉也不會(huì)改變精度,可能這些層都被skip了,。保持精度的情況下,,去掉這些冗余,做到更小更經(jīng)濟(jì)的網(wǎng)絡(luò),,非常有研究?jī)r(jià)值,。 產(chǎn)業(yè)落地:從學(xué)術(shù)界到工業(yè)界Q:論文總體上大概有基礎(chǔ)理論研究的論文和提出具體解決辦法的論文兩類,對(duì)于論文的產(chǎn)業(yè)化,,我們正確的態(tài)度是怎樣的,,比如多久論文投入實(shí)用的周期是適合?以及怎樣發(fā)揮最大意義,?現(xiàn)在產(chǎn)業(yè)界跟學(xué)術(shù)界的研究基本是并行進(jìn)行的,,總體來說,產(chǎn)業(yè)界沒有落后于學(xué)術(shù)界,學(xué)術(shù)界也沒有落后于產(chǎn)業(yè)界,,只是產(chǎn)業(yè)界和學(xué)術(shù)界的側(cè)重點(diǎn)不一樣,。 現(xiàn)在深度學(xué)習(xí)的研究迭代速度是非常非常快的,,而且快的驚人,。在其他領(lǐng)域的話,學(xué)術(shù)研究主要是通過發(fā)表期刊文章來交流,,期刊周期短的話可能一年,,長(zhǎng)的話可能要兩三年的時(shí)間。而在計(jì)算機(jī)領(lǐng)域,,大家更多的是發(fā)表會(huì)議論文,,會(huì)議論文的時(shí)間周期大概是半年的時(shí)間。在深度學(xué)習(xí)領(lǐng)域,,大家第一時(shí)間把自己做出來的成果放在預(yù)印本(Arxiv),,半年之后再把論文投稿到會(huì)議上去。 在商湯科技,,很多研究員養(yǎng)成的習(xí)慣就是每天先到預(yù)印本(Arxiv)上去看最新論文,,如果這個(gè)論文的思想有價(jià)值或者這個(gè)論文做出了一些非常突出的成果的話大家都會(huì)第一時(shí)間嘗試復(fù)現(xiàn),做一些探索性的實(shí)驗(yàn),。 我認(rèn)為,,在深度學(xué)習(xí)這個(gè)特定的領(lǐng)域,新技術(shù)落地的周期幾乎為零,。 Q:CVPR 上這么多主題演講(main conference),,覺得認(rèn)為哪幾個(gè)版塊的內(nèi)容最有用?我覺得CVPR的很多版塊都非常有意思,。要說哪個(gè)版塊最有用的話,,從工業(yè)界實(shí)用的角度出發(fā),當(dāng)然是檢測(cè)識(shí)別的板塊最有用,。 Q:參加本屆CVPR后有什么心得體會(huì),?最大的體會(huì)是華人圈做計(jì)算機(jī)視覺真的很厲害。去年參加ICCV的時(shí)候所有ImageNet的比賽第一名都被華人包攬了,。這次CVPR的時(shí)候也看到了非常多的華人的優(yōu)秀論文,。凱明、少卿,、翔宇,、孫劍還拿了最佳論文獎(jiǎng)。華人在計(jì)算機(jī)視覺領(lǐng)域的研究水平越來越高,。這是非常振奮人心的事,。稍微雞湯一下,,我們中國錯(cuò)過了工業(yè)革命,錯(cuò)過了電氣革命,,信息革命也只是跟隨狀態(tài),。但人工智能的革命,我們跟世界上的領(lǐng)先國家是并肩往前跑的,。能身處這個(gè)時(shí)代浪潮之中,,做一番偉大的事業(yè),經(jīng)常激動(dòng)的夜不能寐,。 小結(jié):本期硬創(chuàng)公開課上,曹旭東重點(diǎn)為我們介紹了深度學(xué)習(xí)目前相對(duì)其它AI實(shí)現(xiàn)方法占優(yōu)的4個(gè)特點(diǎn):精度好,; 算法通用,;特征推廣性好;工程框架統(tǒng)一,。這或許可以解釋為深度學(xué)習(xí)現(xiàn)在在AI界大受歡迎的原因,。 另外他指出計(jì)算機(jī)視覺里的核心任務(wù),包括檢測(cè),、識(shí)別,、分割、特征點(diǎn)定位,、序列學(xué)習(xí)等五個(gè)大的任務(wù),,為計(jì)算機(jī)視覺的具體應(yīng)用勾畫了一個(gè)清晰的脈絡(luò)。 不過令人震驚的是,,談到深度學(xué)習(xí)這個(gè)特定領(lǐng)域的研究迭代速度,,談到論文投入實(shí)用的合理周期,他認(rèn)為在深度學(xué)習(xí)這個(gè)特定的領(lǐng)域落地的周期應(yīng)該是零,。雖然現(xiàn)在谷歌,,F(xiàn)acebook等大公司正在引導(dǎo)論文從文字到實(shí)踐的產(chǎn)業(yè)化熱潮,但這樣的周期顯然是讓業(yè)內(nèi)人士感到驚心動(dòng)魄的一個(gè)速度,。
|
|