極市學者專訪|第一期 “聽大牛說說計算機視覺那些事兒” 本次專訪,我們邀請到了華南理工大學電子與信息學院金連文教授,,與我們共同探討計算機視覺前沿發(fā)展與未來動向。 觀點提要 “發(fā)文章只是研究工作的副產(chǎn)品,打好基礎,,平衡點與面,,才能提出有創(chuàng)新的方法,。” “資源有限,,解決深度學習工程落地的方式要從數(shù)據(jù)本身去做思考,。” “深度學習使得學術界和工業(yè)界的關系更緊密,,而學術界應該做一些前瞻性的,、探索性的、區(qū)分于工業(yè)界的問題,?!?/p> “做增量創(chuàng)新容易,,做原創(chuàng)創(chuàng)新困難,,但原創(chuàng)創(chuàng)新更能創(chuàng)造價值?!?/p> “數(shù)據(jù)提煉可能是人工智能的下一個突破口,?!?/p> “以深度學習為代表的這一場人工智能革命,,還沒有到它的高潮的時候,,未來也一定還會有更多的新方法,、新思想,、新理論等突破性進展出現(xiàn),?!?/p> “人工智能離真正的大爆發(fā)還很遠,,還有很多研究的空間,,我們依托這個方向還可以向前走很多年?!?/p> 學者介紹 深度學習的“學”與“用” 關于“學” 好的學術生態(tài)是什么樣的? Q1 在大學里,,很多本科學生進校起就以發(fā)表論文為主要目標,。對此,您有什么看法,? 金連文:這個問題要一分為二來看:一方面來講的話,,發(fā)文章是我們研究成果最主要的體現(xiàn),,通過發(fā)文章這個形式,能夠把知識傳承下去,,分享給全社會,因此這件事本身沒有錯,。 但是現(xiàn)在有一個比較不太好的“唯論文”導向:以發(fā)權威期刊、頂級會議論文來作為評價研究水平及能力的唯一標準,,比如很多公司招人的時候,如果有一篇頂會文章,,可能工資待遇就不一樣,我覺得這就不是一個特別好的導向。 在10多年以前,,除非是大型或者研發(fā)型公司或機構,,一般來說本科生畢業(yè)時發(fā)文章與找工作沒有特別直接關系,但在人工智能的浪潮來臨后,,許多人工智能公司往往以發(fā)文章作為公司的估值的一個重要依據(jù),。在大學里同學們也認為發(fā)文章變得特別重要,,沒有一篇頂會牛刊文章,,似乎就找不到特別好工作,。國內(nèi)有些好學校的學生,,甚至可能大二大三就開始發(fā)頂會牛刊論文了,。 雖然說這樣看來我們做研究跟培養(yǎng)人才結(jié)合更緊密了,學生們不再排斥做研究寫paper,,也喜歡去做一些探討性的工作,大家都很自覺地去讀paper,,有很好的學術氛圍,作為導師肯定會很高興,。但是另一方面,,如果將能不能發(fā)文章作為評價學生學術水平的唯一的標準,是非常有局限性的,。發(fā)文章只是研究工作的副產(chǎn)品,,如果做研究不是為了解決問題而去做研究,而是為了發(fā)文章去做研究,,是本末倒置的。 因此,,對本科生一進大學以發(fā)文章為目標,,我是不鼓勵的,。首先需要打好基礎,,有很好的一個知識面,再找一個值得研究的點去深入鉆研,,并能夠很好地平衡點與面,,才能在某個點上提出有創(chuàng)新的方法。把問題真正解決好了,,再發(fā)文章,,才是正確的順序。 因此,,我也希望,,一些公司不要把發(fā)論文變成一種商業(yè)行為,希望能夠有一個很好的學術生態(tài)留給大學,,給真正喜歡做研究的研究人員留一點空間,。 關于“用” 第一個基于深度學習的手機端手寫識別 Q2 在2015年到2019年,安卓版搜狗手機輸入法的手寫設置版權聲明一欄,,顯示由華南理工大學提供技術支持,,能為我們分享您的經(jīng)歷嗎? 金連文:2012年ImageNet競賽給學術界和工業(yè)界帶來了很大沖擊,,許多人開始關注到深度學習這一領域,。雖然我讀書時研究的方向是神經(jīng)網(wǎng)絡,但神經(jīng)網(wǎng)絡在當時短暫地熱門過一段時間后,,就陷入了低谷,。一個主要原因是當時訓練出來的模型非常容易過擬合,因而在實際應用中不實用。甚至在2012年,,雖然CNN取得突破性進展引起了研究人員的極大關注,,但當時深度學習也存在許多爭議,,很多大牛說深度學習是忽悠人的,,我有時也曾被這些觀點動搖。但是在看了許多文章之后,,我覺得這個方向還是非常重要,,也鼓勵我的學生繼續(xù)堅持。 當時我們在這個方向走了很多彎路,。那時候開源的代碼很少,,除了Hinton組開源的一套 Python代碼以外,基本就沒有更好的了,,同學做實驗都很辛苦,,也很難出好的結(jié)果。有一次,,我?guī)У囊晃槐究仆瑢W發(fā)現(xiàn)數(shù)據(jù)預處理很重要,,然后我們加入了一些數(shù)據(jù)增廣和預處理這些技術以后,做出了遠優(yōu)于傳統(tǒng)方法的識別效果,,這件事給我的沖擊很大,。 那時候移動互聯(lián)網(wǎng)還比較火,我們就對模型進行了壓縮及加速處理,,在手機端進行了移植,,實現(xiàn)了第一個基于深度學習的手機端手寫漢字識別方法。 2014年,,我們將這個手寫識別引擎發(fā)布在谷歌市場,,下載量超過100多萬次。有一次,,一位搜狗公司研究人員看到了我們的APP,,并進行評測。發(fā)現(xiàn)華南理工大學的學生工程化能力很強,,我們不僅識別率很高,,還把模型做得很小,做得很快,。在當時的手機端,,大概20ms左右,就可以在沒有GPU的情況下,,完成處理一個字符識別的全部過程,,在服務器的CPU端大概4~6ms,這個速度是非常驚人的。支持10000多類字符的CNN模型,,模型大小還不到3M,。因此,綜合考慮之下,,搜狗選擇了與我們進行合作,。 關于“用” 資源有限,如何解決深度學習工程落地,? Q3 龐大的數(shù)據(jù)資源大都由頭部大型企業(yè)掌握,,中小型企業(yè)如何解決在數(shù)據(jù)量以及計算資源有限的情況下,做好深度學習工程落地的問題,? 金連文:長期以來,,小數(shù)據(jù)訓練模型在深度學習領域都是一個非常重要的問題。有很多思路解決這個問題,,比如零樣本學習,、元學習、遷移學習以及這兩年很熱門的自監(jiān)督學習等,,這些都是在某種程度上去解決這個問題的大方向,,也在近年出現(xiàn)了許多鼓舞人心的進展。 從實踐方面而言,,首先可以從數(shù)據(jù)本身去做思考:數(shù)據(jù)增廣和數(shù)據(jù)合成雖然是常規(guī)的做法,,但是怎么把數(shù)據(jù)增廣、數(shù)據(jù)合成做好,,和訓練模型有機地結(jié)合,,是很重要的。比如說我們早期跟搜狗做手寫輸入法的時候,,我們的數(shù)據(jù)增廣就做的很好,。另外,數(shù)據(jù)合成也很重要,,早期用純圖像處理的方法,,后來有了GAN。雖然簡單的用GAN生成的數(shù)據(jù)直接用來做識別作用不一定很大,,但在數(shù)據(jù)不全的情況下,,GAN的思想還是很好的,因為它可以有依據(jù)的造出數(shù)據(jù),,而且更重要的是GAN可以和識別模型進行聯(lián)合設計及聯(lián)合優(yōu)化,。 模型的魯棒性確實是需要考慮的問題。我們實驗室曾經(jīng)跟某公司做一個OCR的項目,,由于用戶隱私問題,,我們拿到的數(shù)據(jù)一共只有100多張圖片,,而且很多識別條目要求精度99%以上。我們當時就是用數(shù)據(jù)合成的方法,,最后基本達到了要求,。雖然后來發(fā)現(xiàn),如果換了另外一家銀行不同風格的數(shù)據(jù)后,,不進行調(diào)優(yōu)直接用的話,,精度會下降好幾個百分點,說明合成數(shù)據(jù)的魯棒性還有待提升,。但是在特定應用場景下,,合成數(shù)據(jù)確實是一個好的解決方案,。 “學”與“用” 學術與工業(yè)的關系 Q4 在您看來,,在大學和商業(yè)世界兩個領域,計算機視覺研究分別有哪些側(cè)重點,? 金連文:從傳統(tǒng)上來說,,工業(yè)界和學術界還是有很大的差距的。工業(yè)是以產(chǎn)品為導向的研發(fā),,80%的公司的研發(fā)是為半年以后的產(chǎn)品或者一年以后的產(chǎn)品服務,,規(guī)模更大的公司可能是為3~5年之后的產(chǎn)品服務。在這種情況下,,就很難去做一些基礎化,、前沿化的探索性研究。因此,,在深度學習出現(xiàn)之前,,一般是學術界里面技術比較成熟了,才會應用在工業(yè)領域,。 深度學習的出現(xiàn)改變了這個現(xiàn)狀,。深度學習在學術界和工業(yè)界之間架起了一條很好的橋梁,使得學術界和工業(yè)界的關系變得前所未有的緊密,。與過去相比,,更多學術界中研究技術可以更快地應用在產(chǎn)品中。甚至今天我們看到的很多最前沿的研究,,都是在工業(yè)界中產(chǎn)生,,工業(yè)界和學術界之間的界限在逐漸變得模糊。 但從我個人的角度來說,,我經(jīng)常與同學們討論這個問題:我們數(shù)據(jù)PK不過工業(yè)界,,我們的GPU等硬件資源也比不上,那么,,我們高校里做的研究,,優(yōu)勢在哪里?我們應該做什么樣的研究?我們應該選什么樣的題目來做,?我們應該思考這個問題,,不能去做一些同質(zhì)化的研究工作。比如說物體檢測,、人臉識別,、文字識別這些領域,雖然每年都有大量研究成果,,但是實際上門檻已經(jīng)很低,,即使很多問題有著不少新的發(fā)展,但對于很多實際問題,,工業(yè)界比我們做得更快,,也比我們做得更好。 我們學術界應該做一些前瞻性的,、探索性的問題,,這種問題在短期內(nèi)不一定能看得到研究結(jié)果或直接應用產(chǎn)出。比如無監(jiān)督學習/自監(jiān)督學習,,研究它是有風險的,,可能不能立馬出有用的成果,但這樣的一些探索性研究方向,,是非常值得去關注的,,也是在大學中應該去解決的。現(xiàn)在的學生也好,,老師也好,,都有各種各樣的壓力,長期研究一個的比較難的學術問題的確讓人有些為難,,做增量創(chuàng)新容易,,做原創(chuàng)創(chuàng)新困難,但原創(chuàng)創(chuàng)新更能創(chuàng)造價值,。 近期工作與前沿研究 Q1 我們有了解到您學生最近發(fā)表于CVPR2020的最新工作:ABCNet,,在達到最新精度的同時顯著提高了速度。您團隊這個工作的研究動機是什么,?在研究過程中,,您如何解決出現(xiàn)的難點? 金連文:這是我的一位博士生做的一個工作,,解決場景文字中任意形狀的端到端文字檢測和識別,。我們最早并不是解決端到端的檢測和識別,是打算做不規(guī)則任意形狀的曲線文本檢測,。2017年,,我跟我的學生一起去夏威夷參加CVPR,,看到在當時的場景文字檢測中,矩形框,、多方向矩形框,、任意四邊形的場景文字檢測已經(jīng)有不少好的解決思路了,于是我們就想,,能不能再往前一步,,做復雜曲線文本的場景文本檢測。當時就萌發(fā)了用Bezier曲線對不規(guī)則形狀文字建模的初步想法,。 在2017年中,,曲線文本的數(shù)據(jù)是非常少的,所以我們回來第一件工作就是先把數(shù)據(jù)集先做起來,。在2017年底,,我們發(fā)布第一個中英文混合的曲線文本數(shù)據(jù)集:SCUT-CTW1500,近年來也被大家廣泛地使用,。2018年之后,,出現(xiàn)了大量的解決任意曲線文本檢測問題的相關工作,單獨做檢測已經(jīng)不是太難的問題,。在這種情形下,我的學生又往前走了一步,,設計了一個新穎的BezierAlign層,,用于精確地提取任意形狀文本實例的卷積特征,和后面的識別器進行端到端聯(lián)合優(yōu)化,。 對于端到端的場景文字檢測這一問題,,還有很大的發(fā)展空間。雖然在很多思路上大家都做了許多非常好的嘗試,,但是從解決這個問題的本身來看:比如曲線文本識別,,在沒有字典或語言模型輔助的情況下,在SCUT-CTW1500數(shù)據(jù)集上準確率還不到60%,。因此,,還有很多研究問題沒有得到解決。 Q2 您已在計算機研究領域耕耘了幾十年,,這段時間里,,在您重點研究的科學問題上取得了什么樣的進展?您最近正在以及未來打算繼續(xù)深入研究什么課題,? 金連文:從我的實驗室的角度上講,,我們不僅要解決特殊的應用場景問題,還會考慮大部分應用場景需要解決的問題,。比如,,曲線文本雖然是非常難且重要的問題,,也是過去這兩年場景文字檢測識別當這個領域中的一個研究熱點。但實際上,,在很多在OCR相關的領域當中,,曲線文本出現(xiàn)的比例并不大。 因此,,我們會更加關注接近應用場景的檢測識別問題,,比如手寫體、文檔性文字等這樣的一些端到端的檢測識別的問題,,以及相關的結(jié)構化理解問題(例如視覺富文檔關鍵信息抽取及文檔圖像結(jié)構化理解),。這類問題雖然被關注得并不太多,但是實際上也是有比較復雜的研究問題需要解決,,而某種程度上來說,,這類問題有時可能還會更難,而且它的應用價值會非常的大,。 深度學習的未來 Q1 您認為未來人工智能以及深度學習領域,,有哪些研究熱點和值得進一步挖掘的內(nèi)容? 金連文:深度學習的革命和崛起,,是一次非常重要的技術的革命,,過去的5年各方面的發(fā)展也非常的巨大,在方方面面帶來了很多嶄新的技術,。今天有很多學者稱現(xiàn)在是后人工智能時代,,但是我自己并不太贊同這個觀點,我覺得深度學習的這一場革命,,還沒有到它的高潮的時候,,它才剛剛興起不久,還有大量的問題可以依托我們今天的已經(jīng)開拓出的思路去解決,,人工智能還有很遠的路要走,。我相信未來也一定還會有更多的新方法、新思想,、新理論等突破性進展出現(xiàn),。 在計算機視覺領域,從宏觀來說,,無非是解決兩個大的方面問題,,一個是分析理解問題,一個是合成問題,,即怎樣理解我們這個世界和怎么生成數(shù)據(jù),。 第一,在OCR和這個領域當中,,重要的方向有很多,。比如說之前提到自監(jiān)督學習,、文檔結(jié)構化理解問題等等,我們期待會有一些突破性技術的出現(xiàn),,這也是我自己比較關注的一個方向,。 第二個方向,我覺得怎樣更好的利用數(shù)據(jù),,也是非常重要的一個方向,。用個比喻來說,數(shù)據(jù)就是我們的黃金,,有數(shù)據(jù)我們可以做很多事情,。計算機視覺的問題,如果標注數(shù)據(jù)充分多,,隨便找一個成熟的算法都可以達到一個很好的效果,,但高質(zhì)量且能夠覆蓋相應應用場景的數(shù)據(jù)是很難獲取的。 我們比較容易獲取的什么數(shù)據(jù),?你上網(wǎng)一搜可以搜到一大堆數(shù)據(jù),,或者標注質(zhì)量不是特別高的數(shù)據(jù),這些數(shù)據(jù)就像原油,。那有沒有一個很好的方法,,自動化地把原油變成汽油,變成潤滑油,?這個很重要,。如果能找到方法,那就可以一勞永逸地解決很多人工智能的應用問題,。 因此,從這個角度看,,數(shù)據(jù)提煉可能是人工智能的下一個突破口,。 第三點,計算機視覺與自然語言理解這兩個領域的結(jié)合也是一個很重要的方向,。我們今天做的研究,,感知的問題已經(jīng)相對解決較好,但認知,、理解和推理的問題還沒解決好,。比如說OCR領域,很多時候只是把字識別出來了,,但并不知道這個字是什么意思,。這個方向有很多實際需求,比如說作文自動閱卷和批改,,這個就需要OCR和NLP相結(jié)合才能做,。 第四,,我覺得計算機視覺也好,人工智能也好,,它需要解決一個問題是:我的機器學習模型,,不僅是要知道自己知道,也要知道自己不知道,。這說的是一個置信度的問題,。比如識別一個文字,它被墨水污跡遮住了,,這個時候這個字是不可辨認的,,這個情況下,你的模型可以告訴別人,,這個是沒把握識別的,,然后再讓人工介入。如果能有這樣一個高可靠的置信度機制,,就能讓這個模型更好用,、更可用,對產(chǎn)品應用也非常的關鍵,。也可以在機器人流程自動化(RPA)等許多新領域發(fā)揮重要作用,。 “總體來講,人工智能離真正的大爆發(fā)還很遠,,還有很多研究的空間,,我們依托這個方向還可以向前走很多年?!?/strong> 關于極市專訪 邀請嘉賓:計算機視覺領域知名學者,、業(yè)界技術大咖等 活動周期:每月1-2次 如果你身邊有這樣的大牛,歡迎在評論區(qū)下方留言推薦,,點贊最高的學者說不定會成為下一次的極市專訪嘉賓哦~ 如果你覺得這篇文章讓你有所啟發(fā),,記得點個在看和轉(zhuǎn)發(fā)~ |
|