久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

半路出家OCR后成領(lǐng)域?qū)<?,白翔:?jì)算機(jī)視覺科研沒有捷徑

 極市平臺(tái) 2021-01-26

極市學(xué)者專訪|第三期

“聽大牛說說計(jì)算機(jī)視覺那些事兒”

本次極市學(xué)者訪談,我們非常榮幸地邀請(qǐng)到了華中科技大學(xué)白翔教授,。白翔教授是計(jì)算機(jī)視覺領(lǐng)域的優(yōu)秀學(xué)者,,也是場(chǎng)景文字領(lǐng)域的知名大牛。在本次訪談中,,白翔教授不僅分享了他對(duì)于人工智能行業(yè),、場(chǎng)景文字檢測(cè)與識(shí)別技術(shù)發(fā)展的前沿觀點(diǎn),還為當(dāng)下的計(jì)算機(jī)視覺科研者們分享了他非常寶貴的科研經(jīng)歷與心得,。

每一位科研者都走過一條屬于他自己的科研路,。那么白翔教授的科研路是什么樣的?下文即答案,。

白翔,,教授,IAPR Fellow,。研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺與模式識(shí)別,,文檔分析與識(shí)別,。已在國(guó)內(nèi)外刊物和學(xué)術(shù)會(huì)議上發(fā)表論文180余篇,,谷歌學(xué)術(shù)顯示引用15000余次,h指數(shù)63  ……

這是白翔教授目前的學(xué)術(shù)成就,??梢哉f在國(guó)內(nèi)計(jì)算機(jī)視覺研究領(lǐng)域,白翔教授所處的位置是比較高的,。而這份成就的取得,,可以從他的學(xué)生時(shí)代說起。

白翔教授于2003年,、2005年和2009年在華中科技大學(xué)取得本科,、碩士及博士學(xué)位,2007年獲“微軟學(xué)者”獎(jiǎng),,讀博期間以第一作者在計(jì)算機(jī)視覺最具影響力的期刊PAMI上發(fā)表了3篇論文,,并于2011年獲湖北省優(yōu)秀博士論文,。可以說,,他在學(xué)生時(shí)代就是出類拔萃的,。

但即便如此,白翔教授也有過被拒稿的經(jīng)歷

在碩士研究生求學(xué)期間,,他寫了一篇論文投到《軟件學(xué)報(bào)》這個(gè)權(quán)威期刊上,,該文章在投稿前在導(dǎo)師的幫助下至少修改了15遍,最后被拒稿,。后來,,經(jīng)過不到兩年的努力,白翔教授就在PAMI上發(fā)表了2篇論文,,同時(shí)為SCI核心源雜志Pattern Recognition擔(dān)任審稿人,。

當(dāng)時(shí)的他將這一成功簡(jiǎn)單地概括為兩點(diǎn):堅(jiān)持+興趣

白翔教授說:“碩士階段的積累很重要,,它為后面出成果打下了基礎(chǔ),。學(xué)習(xí)的收獲,不能僅僅用發(fā)了多少論文來衡量,。其次,,計(jì)算機(jī)視覺研究確實(shí)是我的興趣所在,我是在享受這個(gè)過程,,名利并不是做研究的目的,。

作為年少成名的科研者,讓人意想不到的是,,白翔教授也有過找工作被拒的經(jīng)歷,。碩士畢業(yè)后,他曾進(jìn)入某國(guó)際知名企業(yè)的最后一輪面試,,但沒有獲得Offer,。

短暫的動(dòng)搖之后,他堅(jiān)守了自己的信念:“在找工作的時(shí)候,,我發(fā)現(xiàn)我更喜歡研究我自己感興趣的東西,。我選擇了繼續(xù)攻讀博士,因?yàn)槲矣X得前面的研究工作沒有完成,,這時(shí)候放棄比較可惜,。”

后來,,事實(shí)也證明,,留在學(xué)校繼續(xù)做研究,是他正確的選擇。

在這次訪談中,,白翔教授非常耐心地為我們答疑解惑,,在分享他在計(jì)算機(jī)視覺領(lǐng)域的科研經(jīng)歷的同時(shí),表達(dá)了他對(duì)于深度學(xué)習(xí)學(xué)業(yè)與產(chǎn)業(yè)的思考,。相信下文的訪談實(shí)錄能為你的科研工作與生活帶來不少啟發(fā),。

01

關(guān)于科研

“堅(jiān)持的力量”

極市平臺(tái):您在計(jì)算機(jī)視覺領(lǐng)域造詣深厚,能否分享一段您印象最深的科研經(jīng)歷,? 

白翔:印象比較深的是2011年到2013年間,,我面臨著選擇新研究課題的問題。因?yàn)槲以诓┦侩A段做的是形狀表述與圖匹配相關(guān)的工作,,相對(duì)來說比較基礎(chǔ),。當(dāng)時(shí)的我特別想嘗試一下應(yīng)用基礎(chǔ)研究。研究方向的選擇是比較重要的,,我花了相當(dāng)一段時(shí)間去思考后,,選擇場(chǎng)景文字檢測(cè)與識(shí)別這個(gè)研究課題。我認(rèn)為該課題具備較高的應(yīng)用潛力,。

進(jìn)入該領(lǐng)域前期是一個(gè)非常困難的階段,。當(dāng)時(shí)的場(chǎng)景文字檢測(cè)和識(shí)別是非常繁瑣的問題,它涉及到很多算法,,要實(shí)現(xiàn)一套有效的解決方案,,需要花大量時(shí)間去摸索。具體來說,,文本不同于一般目標(biāo),,是由多個(gè)非連通的字符組成,這就要求在算法實(shí)現(xiàn)中增加較多經(jīng)驗(yàn)式的操作,。在傳統(tǒng)的區(qū)域特征提取方法之上,,需要完成字符之間的關(guān)聯(lián),同時(shí)需要克服虛景或非文字部分帶來的干擾,。此外,,當(dāng)時(shí)可供參考的開源代碼非常稀少,導(dǎo)致在前期摸索中走了不少彎路(這也是之后我們開源了多篇論文源碼的重要原因),。

盡管困難重重,,我跟學(xué)生更多強(qiáng)調(diào)的是不要著急寫論文,,要靜下心來解決實(shí)際問題,。我們花了大量時(shí)間去反復(fù)論證,這一過程也積累了對(duì)該研究領(lǐng)域的深刻認(rèn)識(shí),。后來大家看到的這些論文其實(shí)跟這段時(shí)間的積累是分不開的,。

當(dāng)時(shí),我們觀察到許多照片中的文字并不是呈水平方向排列,很多是傾斜甚至是彎曲的,。因此,,我們希望做一套方案,能克服當(dāng)時(shí)場(chǎng)景文本檢測(cè)方法的局限性,,通用于各種形狀的文本,。回頭來看,,現(xiàn)在多方向文本檢測(cè)技術(shù)已經(jīng)很普遍,,并且這種方式在遙感目標(biāo)檢測(cè)領(lǐng)域也被普遍采納,但這些都離不開當(dāng)時(shí)做研究的這股韌性和堅(jiān)持,。

極市平臺(tái):您在計(jì)算機(jī)視覺領(lǐng)域少年成名,,在讀博期間就以第一作者發(fā)表了3篇計(jì)算機(jī)視覺頂級(jí)期刊TPAMI論文,那么您認(rèn)為對(duì)于一個(gè)計(jì)算機(jī)視覺博士而言,,什么是完整,、全面的博士科研訓(xùn)練?

白翔:我覺得首先要有興趣,,興趣才是最好的老師,。按照王國(guó)維人生三種境界,初入領(lǐng)域的研究生需經(jīng)過從第一階段“獨(dú)上高樓,,忘盡天涯路”通往第二階段“衣帶漸寬終不悔,,為伊消得人憔悴”的過程。如果僅僅是把科研做為完成學(xué)業(yè)的任務(wù)去完成,,而不是發(fā)自內(nèi)心的喜歡這項(xiàng)工作,,是很難在所從事的研究課題上獲得突破的。

當(dāng)然,,興趣也是可以培養(yǎng)的,,但必須建立在對(duì)計(jì)算機(jī)視覺研究有一定的了解之上。另外,,需要具備一定的程序設(shè)計(jì)基礎(chǔ),,畢竟這是一個(gè)偏應(yīng)用的學(xué)科,對(duì)實(shí)際動(dòng)手能力有一定的要求,。良好的數(shù)學(xué)基礎(chǔ)也是必要的,,例如概率論、線行代數(shù)有關(guān)基礎(chǔ)知識(shí),。但最重要的不是具備多少基礎(chǔ),,而是怎么去做這個(gè)事。

對(duì)于初入研究的學(xué)生,,我一般會(huì)建議他們?nèi)⒓右恍?/span>學(xué)術(shù)競(jìng)賽實(shí)戰(zhàn)項(xiàng)目,。這種方式能讓學(xué)生深入了解實(shí)際問題,,清楚該領(lǐng)域的真正瓶頸所在閱讀文獻(xiàn)或者聽他人的報(bào)告,,這雖然有助于快速獲得一些經(jīng)驗(yàn),,但對(duì)研究入門者而言,它更多只會(huì)帶來感性的認(rèn)識(shí),。要獲得理性的認(rèn)識(shí),,就需要接觸實(shí)際的數(shù)據(jù)、實(shí)際的算法和系統(tǒng),。對(duì)研究問題的認(rèn)識(shí)越深刻,,就越有可能突破其瓶頸。

02

深度探討OCR領(lǐng)域相關(guān)研究

極市平臺(tái): OCR在實(shí)際應(yīng)用中經(jīng)常碰到這樣的情形:不同語種,、不同形式的文字同時(shí)存在,,在這種情況下,學(xué)術(shù)界是否能有較為通用的方法,,來解決這一問題,?

白翔:對(duì)于文字的多樣性的問題,學(xué)術(shù)界的考慮其實(shí)是不夠的,。為什么這樣說,?首先,文字?jǐn)?shù)據(jù)與其他數(shù)據(jù)相比不是那么豐富,,開源的數(shù)據(jù)規(guī)模和種類相對(duì)偏少,。基于這種情況,,我們也在考慮組織構(gòu)建大規(guī)模文字?jǐn)?shù)據(jù)集,。另外,文字?jǐn)?shù)據(jù)很多時(shí)候是涉及到隱私的,,比如手寫字,、發(fā)票等,都是不宜對(duì)外公開的,。第三,,文字的標(biāo)注也比較復(fù)雜。對(duì)于一般物體,,只需一個(gè)包圍盒即可,;而對(duì)文字進(jìn)行詞或行級(jí)別的包圍盒標(biāo)注不一定足夠,例如漢字,,字符級(jí)別的標(biāo)注往往是需要的,。特別是對(duì)于連寫的手寫字,標(biāo)注起來更加繁瑣,。

我們之前的算法基本都是出于使檢測(cè)和識(shí)別過程簡(jiǎn)易化的目的,,對(duì)文本行或單詞直接處理。但如果要把它做得更加的魯棒和通用,,字符級(jí)別的定位與識(shí)別也是有較明顯的提升作用的,,這也體現(xiàn)在最近一些新的研究工作中,例如Mask TextSpotter,,CRAFT等,。但不管怎樣,要解決通用OCR這一難題,,學(xué)術(shù)界缺乏數(shù)據(jù)類型豐富且標(biāo)注精細(xì)的大規(guī)模數(shù)據(jù)集,。從另外一個(gè)方面看,小樣本或者無監(jiān)督條件下的文字檢測(cè)識(shí)別方法目前鮮有學(xué)者對(duì)此展開研究,,這可能是解決通用文字識(shí)別的一個(gè)途徑,。

總體而言,要實(shí)現(xiàn)通用OCR,,還要有很多工作需要做,。這不能靠一個(gè)人來做,它需要工業(yè)界和學(xué)術(shù)界的緊密合作,,通過制定有關(guān)的標(biāo)準(zhǔn),,以及基本數(shù)據(jù)集和評(píng)價(jià)方法,才有希望解決這個(gè)問題,。就現(xiàn)階段來看,,文字識(shí)別技術(shù)泛化性尚可,因?yàn)樗褂煤铣蓴?shù)據(jù)來進(jìn)行訓(xùn)練就可以取得穩(wěn)定的識(shí)別精度,,而文字檢測(cè)技術(shù)的泛化性還存在較大問題,,易受環(huán)境的影響。但如果遇到版式或結(jié)構(gòu)極其復(fù)雜的情況,,兩者都會(huì)遇到極大的困難,。


極市平臺(tái):對(duì)于一個(gè)場(chǎng)景文本研究者而言,若想取得一定的學(xué)術(shù)成就,,您認(rèn)為與其他細(xì)分領(lǐng)域相比,,會(huì)有哪些側(cè)重? 

白翔:研究沒有捷徑可走,,但有方法規(guī)律可循,,這和做什么細(xì)分領(lǐng)域沒有太大關(guān)系。無論哪個(gè)細(xì)分領(lǐng)域,,沒有明顯的難易之分,,都會(huì)面臨極大的挑戰(zhàn)。那么對(duì)于如何做好計(jì)算機(jī)視覺相關(guān)研究,,我個(gè)人比較注重是否真正的嘗試去解決所在方向的瓶頸問題,?打個(gè)比方,,場(chǎng)景文字往往是多方向排列的,但傳統(tǒng)文檔文字識(shí)別方法一般只關(guān)注水平排列的文字,,這就要求我們對(duì)檢測(cè)算法的適用性提出了更高的要求,;做文字識(shí)別時(shí),發(fā)現(xiàn)適合于英文的方法不適用于中文,,如何設(shè)計(jì)一套方法,,同時(shí)適用于拉丁文(英文)和非拉丁文(例如中文)?因此,,需要找到現(xiàn)階段限制該技術(shù)發(fā)展的瓶頸問題,,并圍繞這些瓶頸問題去突破技術(shù)的上限。通過技術(shù)的創(chuàng)新可以解決很多問題,,但這個(gè)問題是不是重要的,?是不是卡脖子的問題?當(dāng)你在做研究的時(shí)候,,你需要給自己定的一個(gè)目標(biāo),。目標(biāo)導(dǎo)向正確了,剩下來要做的事情就是如何去解決它,。這個(gè)過程你會(huì)經(jīng)過反復(fù)的驗(yàn)證,,大膽的嘗試,甚至可能經(jīng)歷無數(shù)次的失敗,,但不要害怕失敗,,因?yàn)槭”旧砭褪墙?jīng)驗(yàn)的積累,是提高自身水平的過程,,是成功之路上必須經(jīng)過的環(huán)節(jié),。無論做什么樣的研究,對(duì)于年輕學(xué)者而言比較困難的是如何做到不忘初心,,在研究過程中需要反復(fù)思考你的研究是什么,?解決的這個(gè)問題是什么?要把它做到什么程度,?是不是能給這個(gè)領(lǐng)域或者子領(lǐng)域帶來技術(shù)上的突破,?這是關(guān)鍵。


03

關(guān)于產(chǎn)業(yè)

“計(jì)算機(jī)視覺離全面落地還有50步要走”

極市平臺(tái):作為場(chǎng)景文本領(lǐng)域的集大成者,,您認(rèn)為這個(gè)領(lǐng)域還有哪些值得研究的課題與應(yīng)用,?是否還存在一些被人們忽視的方向?您最近正在以及未來打算繼續(xù)深入研究什么課題,? 

翔:雖然計(jì)算機(jī)視覺熱度非常高,,但其中很多技術(shù)和方法在實(shí)際應(yīng)用中存在非常大的限制。比如手機(jī)端的OCR識(shí)別程序,,在應(yīng)對(duì)夜間街景圖片時(shí)會(huì)錯(cuò)漏百出,。對(duì)此,,我的看法時(shí),要實(shí)現(xiàn)計(jì)算機(jī)視覺全面落地,,深度學(xué)習(xí)與傳統(tǒng)視覺方法可能已經(jīng)帶我們走完了前50步,,后面仍然還有50步要走。

在這種情況下,,我覺得目前有這么幾個(gè)方面可以值得去嘗試,。首先是圖像合成技術(shù),。目前基于生成的方法,,已經(jīng)取得了一些非常逼真的效果。在一些特定領(lǐng)域會(huì)有一些實(shí)際用途,,包括圖像數(shù)據(jù)生成與擴(kuò)增,,人的服飾搭配,動(dòng)畫制作,,視頻剪輯等,。

另外還有多模態(tài)融合與感知。人類在識(shí)別物體時(shí)候,,其實(shí)是有其3D或其它先驗(yàn)的,,將圖像信息與點(diǎn)云或來自其它傳感設(shè)備得到的信息相融合,可以取得更加可靠的識(shí)別效果,。例如,,國(guó)內(nèi)有些研究組結(jié)合紅外成像在視頻監(jiān)控中取得了理想的應(yīng)用效果;我們最近將臨床數(shù)據(jù)與CT影像相結(jié)合,,在新冠重癥預(yù)測(cè)任務(wù)中獲得了更魯棒的測(cè)評(píng)性能,。再舉一個(gè)例子,要獲得更準(zhǔn)確的視頻行為識(shí)別(例如電影片段)需要結(jié)合圖像和文字甚至語音的方式,。

第三,,我認(rèn)為計(jì)算機(jī)視覺在對(duì)地觀測(cè)領(lǐng)域的應(yīng)用基礎(chǔ)研究將有較大潛力。現(xiàn)有的視覺研究大多面向監(jiān)控視頻圖像或日常生活圖像,,而航拍圖像存在目標(biāo)尺度變化大,、方向性強(qiáng)、形狀和分布更復(fù)雜的特點(diǎn),,從事該方向的研究能夠給更多潛在實(shí)際應(yīng)用帶來想象空間,。

最后,從行業(yè)應(yīng)用來看,,計(jì)算機(jī)視覺在智慧教育工業(yè)質(zhì)檢中將大有可為,。隨著文字識(shí)別與語音識(shí)別技術(shù)不斷進(jìn)步,已經(jīng)可以看到計(jì)算機(jī)視覺在教育領(lǐng)域展露頭角,,比如公式識(shí)別在自動(dòng)閱卷的應(yīng)用,。而工業(yè)缺陷的自動(dòng)檢測(cè)能大大減少工業(yè)產(chǎn)品質(zhì)量檢測(cè)過程的人力成本并且顯著提升效率,。無論是智慧教育還是工業(yè)質(zhì)檢中的視覺技術(shù)都存在著較多科學(xué)問題和應(yīng)用問題亟待解決。


極市平臺(tái):在計(jì)算機(jī)視覺研究領(lǐng)域中,,精度和速度一直是兩個(gè)很重要的要素,,那么您認(rèn)為,應(yīng)當(dāng)如何取舍模型的精度和速度,? 

白翔:我跟很多工業(yè)界的朋友們有過這方面討論,。之前我一直很奇怪一件事情:我們2015年底提出來CRNN算法,為什么工業(yè)界現(xiàn)在還在用,?我們后面提出來的一些更魯棒的方法,,他們反而不用。后來工業(yè)界的朋友告訴我,,CRNN一般情況下就夠用了,。在企業(yè)的實(shí)際應(yīng)用中,還要考慮模型的大小和運(yùn)算的速度,。像BAT這樣的大型互聯(lián)網(wǎng)公司,,每天都有上億的圖片要處理。從實(shí)用性角度來看,,如果一個(gè)算法太慢,,即使它精度很高,  但是時(shí)間消耗太大,這些企業(yè)是無法接受的,。

計(jì)算機(jī)視覺領(lǐng)域中的很多方法,,精度和速度往往是互相矛盾的,如何在精度和速度中(甚至還包括能耗)找到一個(gè)平衡至關(guān)重要,。說到底,,計(jì)算機(jī)視覺是一個(gè)面向應(yīng)用的研究領(lǐng)域,一定要了解實(shí)際應(yīng)用的需求,,要考慮精度和速度兩者的推動(dòng),。如果應(yīng)用基礎(chǔ)研究問題的定義不從實(shí)際應(yīng)用需求中去總結(jié),那就有點(diǎn)紙上談兵的感覺,,甚至?xí)岩恍┭芯糠较驇?/span> 

極市平臺(tái):您如何看待學(xué)術(shù)界和工業(yè)界的關(guān)系,?您如何看待研究生、博士生找工作,、找實(shí)習(xí)這一問題,? 

白翔:這個(gè)問題問得非常好。現(xiàn)在工業(yè)界對(duì)人工智能的技術(shù)和人才的熱情非常高,,導(dǎo)致很多教授或優(yōu)秀學(xué)生,,都高薪去了工業(yè)界,那么這就不是一個(gè)穩(wěn)定的狀態(tài)。如果說去工業(yè)界的高端人才越來越多,,就會(huì)削弱高校培養(yǎng)高端人工智能人才的能力,。過去一兩年我在加拿大、美國(guó)交流期間,,也聽到了一些要把教授,、學(xué)子還給學(xué)術(shù)界的呼吁。也有少數(shù)企業(yè)取代了高校的部分功能,,對(duì)實(shí)習(xí)學(xué)生進(jìn)行科研訓(xùn)練和指導(dǎo),,甚至發(fā)表了高水平論文??傮w而言,,工業(yè)界和學(xué)術(shù)界之間現(xiàn)在關(guān)系已經(jīng)非常密切,合作產(chǎn)生的研究成果也屢見不鮮,,但學(xué)術(shù)界與工業(yè)界的合作形式不應(yīng)主要放在學(xué)生實(shí)習(xí)方面,,我更加看好通過共建校企聯(lián)合研究實(shí)驗(yàn)室的方式,,這樣可以把學(xué)者留在高校,,同時(shí)也能保證足夠的產(chǎn)學(xué)研合作。

目前有很多學(xué)生可能對(duì)實(shí)習(xí)的熱情度較高,,但高校教師也需要研究生參與完成自己正在承擔(dān)的科研課題,。總體上我比較支持學(xué)生去實(shí)習(xí),,但我希望學(xué)生去實(shí)習(xí)之前已經(jīng)具備了一定的研究基礎(chǔ)和技術(shù)創(chuàng)新能力,。這樣能更加有效地幫助企業(yè)在產(chǎn)品線或研究端進(jìn)行技術(shù)升級(jí),同時(shí)也有助于學(xué)生增加實(shí)戰(zhàn)經(jīng)驗(yàn),。另外,,我會(huì)注意保證學(xué)生的實(shí)習(xí)任務(wù)和研究目標(biāo)的一致性。具體來說,,我會(huì)建議研究生找一個(gè)跟自己開題研究方向相同或密切相關(guān)的公司部門或研究組去實(shí)習(xí),,避免研究任務(wù)跨度太大。因?yàn)檠芯渴切枰獙W⒌?,尤其?duì)于年輕學(xué)子,,頻繁換研究主題會(huì)影響做研究的深度。

如今,,發(fā)表頂會(huì)論文已經(jīng)成為研究生入職的一個(gè)重要評(píng)價(jià)標(biāo)準(zhǔn),,這導(dǎo)致不少研究生在學(xué)習(xí)階段加強(qiáng)了對(duì)頂會(huì)論文或?qū)W術(shù)競(jìng)賽的追逐,卻忽視了其它素質(zhì)方面的鍛煉,。事實(shí)上視覺有關(guān)企業(yè)的主要任務(wù)是推動(dòng)科技產(chǎn)業(yè)進(jìn)步,,推動(dòng)科技產(chǎn)業(yè)進(jìn)步和發(fā)表多少論文沒有直接關(guān)系,發(fā)表論文也不能直接證明其推動(dòng)了科技產(chǎn)業(yè)進(jìn)步。對(duì)此,,我還呼吁工業(yè)界要看重人才的綜合素質(zhì),,而不能將論文作為評(píng)價(jià)人才的唯一導(dǎo)向或主要導(dǎo)向。

1

END

1

關(guān)于極市專訪

活動(dòng)介紹:以分享大牛的科研工作經(jīng)驗(yàn)為主旨,,與計(jì)算機(jī)視覺領(lǐng)域知名學(xué)者,、業(yè)界技術(shù)大咖等進(jìn)行深度交流。

讀完文章,,大家如果對(duì)白翔教授還有想請(qǐng)教的問題,,或者對(duì)極市學(xué)者專訪有想法與建議,歡迎在下方留言評(píng)論,。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多