久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

阿里AI Labs王剛:谷歌一個模型解決所有問題是不現(xiàn)實的

 小云麗21 2017-07-27

編者按:本文來自微信公眾號“新智元”(ID:AI_era),,作者張易;36氪經(jīng)授權(quán)發(fā)布,。

阿里巴巴人工智能實驗室和它的杰出科學(xué)家王剛,,一直保持著幾分神秘感,。我們專程到杭州對王剛博士進行了專訪。王剛博士認為,,谷歌的“一個模型解決所有的問題”是不現(xiàn)實的,。他表示人工智能新硬件和降低智能終端成本、生物認知啟發(fā),、量子力學(xué)和量子計算機與深度學(xué)習(xí)的結(jié)合是個人感興趣的方向,,除了最后一項,其他都是實驗室目前正在研發(fā)的,。他談到了學(xué)術(shù)界和工業(yè)界研發(fā)過程的區(qū)別,,并介紹了阿里的 AI 人才計劃。為了進一步了解王剛和阿里人工智能實驗室正在做的事情,,我們介紹了 CVPR 2017 上阿里人工智能實驗室入選的三篇論文,,每一篇都有王剛博士的深度參與。

在德州撲克的賽場上,,當(dāng)有人 All in 時,,其實你只有兩個選擇:跟,,或者棄,。

在國內(nèi)人工智能布局的賽道上,沒有誰會選擇“棄”,。于是,,已經(jīng)低調(diào)成立一年的阿里人工智能實驗室,在有人宣布 All in的同一天,,高調(diào)亮相,。

這一天出現(xiàn)在大家面前的,除了一臺聲線甜美的智能音箱,,一位長相甜美的負責(zé)人,,還有一位年輕的杰出科學(xué)家。當(dāng)你以為這位科學(xué)家是其中最不性感的一環(huán)時,,他卻如此描述自己從南洋理工大學(xué)加盟阿里人工智能實驗室的原因:

“做 C 端的產(chǎn)品,,更性感一些?!?/p>

王剛,,2017年3月加入阿里巴巴人工智能實驗室,擔(dān)任杰出科學(xué)家,,負責(zé)機器學(xué)習(xí),、計算機視覺和自然語言理解的研發(fā)工作。他此前曾是南洋理工大學(xué)的終身教授,,同時也是人工智能領(lǐng)域最頂尖雜志IEEETransactions on Pattern Analysis and Machine Intelligence的編委(Associate Editor),,曾多次受邀成為人工智能頂級學(xué)術(shù)會議如InternationalConference on Computer Vision的領(lǐng)域主席,,在深度學(xué)習(xí)算法領(lǐng)域具有深厚的研究積累和國際權(quán)威。2016年,,他還因在深度神經(jīng)網(wǎng)絡(luò)設(shè)計上的卓越貢獻,,成為當(dāng)年《麻省理工技術(shù)評論雜志》評選出的10名亞洲區(qū)35歲以下青年創(chuàng)新獎得主之一。2005年,,王剛本科畢業(yè)于哈爾濱工業(yè)大學(xué),,2010年在伊利諾伊大學(xué)香檳分校獲博士學(xué)位。

在阿里人工智能實驗室所在的杭州,,王剛博士接受了新智元的專訪,。剛見到王剛博士時,我懷著這樣一種想法:既希望他成為我們理解阿里人工智能實驗室的鑰匙,,也希望阿里人工智能實驗室成為我們理解他的鑰匙,。

專訪綜述:一個模型解決所有的問題是不現(xiàn)實的

作為深度學(xué)習(xí)算法的專家,王剛博士在計算機視覺和自然語言理解兩大應(yīng)用領(lǐng)域都做了很多工作,。在采訪中,,他一方面強調(diào)了語音和視覺的結(jié)合對于人機交互的意義,認為“語音 視覺”是人機交互的未來,,并表示實驗室目前也很關(guān)注“視覺 文字”這樣的多模態(tài)訓(xùn)練研究熱點,;而另一方面,他也明確指出,,自己并不認同谷歌提出的“一個模型解決所有問題”,,認為在每一個單獨的領(lǐng)域,模型仍然是需要定制化的,。

對于深度學(xué)習(xí)的發(fā)展,,王剛博士談了幾個他感興趣的方向,由此也能看到阿里人工智能實驗室的一些研發(fā)方向,。王剛博士談到了人工智能新硬件和降低智能終端成本,,生物認知啟發(fā),量子力學(xué),、量子計算機和深度學(xué)習(xí)的結(jié)合等,。王剛博士說,除了最后一項,,其他都是實驗室目前正在研發(fā)的,。

對于從大學(xué)教授到企業(yè)科學(xué)家的身份轉(zhuǎn)換,王剛博士最大的感覺是興奮和充實,,因為他“喜歡落地或者商業(yè)化這樣的東西”,,而在學(xué)校進行這方面的研究“離市場和消費者太遠了”。當(dāng)然,,他也坦言,,作為已經(jīng)在南洋理工大學(xué)拿到終身教職的他,,目前的工作強度比在學(xué)校還是要大一些。

而談到研究環(huán)境的差異時,,王剛博士指出了兩點:一是學(xué)術(shù)界的研究由政府投資,,肩負著探索知識前沿的使命,需要探索 5 年后可能的技術(shù)方向,,起到引領(lǐng)的作用,,風(fēng)險同時也不可避免,而工業(yè)界需要面臨復(fù)雜的,、千奇百怪的情況,,在落地過程中需要對算法等進行大量的優(yōu)化;二是學(xué)術(shù)界在做研究時首先需要將問題定義清楚,,而有一些任務(wù),,其實并不容易定義,如計算機視覺的“理解”,。工業(yè)界更關(guān)心的則是做出具體的產(chǎn)品,,因此可能更有動力進行相關(guān)研發(fā)。 

在王剛博士談到加入阿里人工智能實驗室的理由時,,我們發(fā)現(xiàn),,這確實和阿里人工智能實驗室將自己定位為提供消費級 AI 產(chǎn)品緊密相關(guān)。王剛博士此前在南洋理工大學(xué)就領(lǐng)導(dǎo)團隊研發(fā)過時裝搜索系統(tǒng),、輔助駕駛系統(tǒng)等密切結(jié)合應(yīng)用場景的系統(tǒng),,且都成功商業(yè)化,。來到阿里,,“發(fā)現(xiàn)離消費者這么近,非常開心,、興奮,、充實”、“做 C 端的產(chǎn)品,,更性感一些”,。他表示,自己的夢想和阿里人工智能實驗室的夢想一樣,,都是希望“讓具有人工智能能力的產(chǎn)品走進千家萬戶,,給大眾的生活帶來便利?!?/p>

最后,,王剛博士透露了阿里人工智能實驗室的招聘計劃。他表示,,從2017年夏季開始,,阿里將推出一項 AI 人才的校招計劃,,主要面向博士生群體,將涉及到計算機視覺,、機器學(xué)習(xí),、NLP、圖形圖像,、語音交互等技術(shù)方向,。

一人斬獲三篇 CVPR 論文

為了進一步了解王剛和阿里人工智能實驗室正在做的事情,讓我們首先介紹 CVPR 2017 上阿里人工智能實驗室入選的三篇論文,,每一篇都有王剛博士的深度參與,。三項研究分別針對深度學(xué)習(xí)和計算機視覺所涉及的上下文模擬、場景分割,、行為理解等問題提出了解決辦法,。王剛表示:“這三篇論文都來自于深度學(xué)習(xí)中的應(yīng)用場景,未來或?qū)⑼ㄟ^人工智能實驗室進行落地,,例如運用到家庭安全監(jiān)測場景中”,。

Deep Level Sets for Salient Object Detection

結(jié)合深度網(wǎng)絡(luò)的水平集方法在顯著性目標(biāo)檢測中的應(yīng)用

阿里AI Labs王剛:谷歌一個模型解決所有問題是不現(xiàn)實的簡介:

阿里AI Labs王剛:谷歌一個模型解決所有問題是不現(xiàn)實的如圖,a是輸入圖像,,b是對應(yīng)saliency區(qū)域的groundtruth,,c、d對應(yīng)使用BCEloss訓(xùn)練的深度網(wǎng)絡(luò)和使用水平集方法的效果,,e對應(yīng)論文的方法,;可以看到e在分割細節(jié)方面和ground truth最為接近,效果更好,,在細節(jié)方面提升明顯,。

顯著性目標(biāo)檢測能夠幫助計算機發(fā)現(xiàn)圖片中最吸引人注意的區(qū)域,有效的圖像分割和圖像的語意屬性對顯著性目標(biāo)檢測非常重要,。由南洋理工大學(xué)和阿里巴巴人工智能實驗室合作,,共同提出了一種結(jié)合深度網(wǎng)絡(luò)的水平集方法,將分割信息和語意信息進行結(jié)合,,獲得了很好的效果,。水平集方法是處理封閉運動界面隨時間演化過程中幾何拓撲變化的有效的計算工具,后來被用到圖像分割算法當(dāng)中,。深度學(xué)習(xí)能夠很好的建模顯著性目標(biāo)的語意屬性,,進而進行顯著性目標(biāo)檢測,但更多的語意屬性信息導(dǎo)致分割邊界的低層信息不準(zhǔn)確,。論文巧妙的結(jié)合了深度網(wǎng)絡(luò)和水平集方法(DeepLevel Sets),,同時利用圖片低層的邊界信息以及高層的語意信息,在顯著性目標(biāo)檢測領(lǐng)域獲得了state-of-art的效果,。

Global Context-Aware Attention LSTM Networks for 3D Action Recognition

將全局上下文注意力機制引入長短時記憶網(wǎng)絡(luò)的3D動作識別

阿里AI Labs王剛:谷歌一個模型解決所有問題是不現(xiàn)實的簡介:

阿里AI Labs王剛:谷歌一個模型解決所有問題是不現(xiàn)實的如圖,,3D動作識別能夠幫助計算及更好的理解人體動作(最左側(cè)的文字),,未來可以作為人機交互的一種補充。 

3D動作識別能夠幫助計算機更好的分析人的動作以及為多樣化的人機交互提供更多的選擇,。一個好的3D動作識別系統(tǒng)需要很好的處理動作在時間(動作需要一定時延),、空間(結(jié)構(gòu))上的信息。LSTM(長短時記憶網(wǎng)絡(luò))能夠很好的建模動態(tài)的,、相互依賴的時間序列數(shù)據(jù)(如人的3D動作序列),,注意力機制能夠更有效的獲取數(shù)據(jù)中的結(jié)構(gòu)信息,并排除掉噪聲的干擾,。由南洋理工大學(xué),、北京大學(xué)、阿里巴巴人工智能實驗室合作,,論文結(jié)合LSTM和上下文注意力機制,,提出了一種新的LSTM網(wǎng)絡(luò):GCA-LSTM(Global Context-Aware Attention LSTM);用來建模動作序列中有效的全局上下文信息(時間信息 空間信息),,進而進行3D動作識別,。同時,論文為GCA-LSTM網(wǎng)絡(luò)提出了一種循環(huán)注意力機制來迭代提升注意力模型的效果,。論文方法在3個主流的3D動作識別數(shù)據(jù)集上都達到了state-of-art的效果,。

Episodic CAMN: Contextual Attention-based Memory Networks With Iterative Feedback For Scene Labeling

阿里AI Labs王剛:谷歌一個模型解決所有問題是不現(xiàn)實的引入迭代反饋的上下文注意力機制記憶網(wǎng)絡(luò)在場景分割中的應(yīng)用

簡介:

阿里AI Labs王剛:谷歌一個模型解決所有問題是不現(xiàn)實的如圖,這是場景分隔在自動駕駛中的應(yīng)用,,通過對路面場景進行分割,,可以幫助無人車分析那部分區(qū)域是可行駛區(qū)域(如圖粉紅色部分)。

場景分割有著廣闊的應(yīng)用前景,,比如自動駕駛汽車通過場景分割獲取可行駛區(qū)域,,比如室內(nèi)機器人通過場景分割獲知室內(nèi)物體的分布。場景分割對待分割區(qū)域周圍的區(qū)域以及全局信息有較強的依賴關(guān)系,,但這種依賴關(guān)系是動態(tài)變化的(即使同一區(qū)域在不同的場景中對周圍信息的依賴是不同的),,因此動態(tài)的獲知不同區(qū)域的依賴關(guān)系以及圖像全局上下文特征的使用至關(guān)重要。由南洋理工大學(xué),,伊利諾伊大學(xué)厄巴納-香檳分校,阿里巴巴人工智能實驗室合作,,論文通過一個可學(xué)習(xí)的注意力機制網(wǎng)絡(luò)來刻畫不同區(qū)域之間的依賴關(guān)系,,并獲取包含上下文信息的特征。進一步,,論文通過引入迭代反饋的方式對注意力機制網(wǎng)絡(luò)的輸出進行調(diào)節(jié),,以獲得更好的包含上下文的特征。上述方法在場景分隔任務(wù)中獲得了和當(dāng)前state-of-art算法相當(dāng)?shù)男Ч?/p>

以下是新智元對王剛博士的專訪,。

語音加視覺是交互的未來

新智元:王剛博士,,咱們的話題不妨從本月初發(fā)布的天貓精靈 X1開始,。這個項目中哪部分您參與的比較多? 

王剛:我 3 月份加入 AI Labs ,,很快就深度參與了這個項目,。主要是跟算法團隊一起實現(xiàn)天貓精靈算法的落地,所以算法上參與比較多,。

新智元:阿里人工智能實驗室的英文是 AI Labs,,為什么 Lab 用的是復(fù)數(shù)形式?

王剛:因為 Labs 里面有算法 Lab,,也有終端的 Lab,,等等,阿里人工智能實驗室是一個航空母艦,。

新智元:您認為語音會是下一代人機交互最重要的入口嗎,?

王剛:這要看人機交互的發(fā)展,我覺得近幾年人機交互應(yīng)該像人和人的交互一樣,,是往這個點去逼近的,。人跟人之間的交互,主要是靠語言,,再加上視覺,,比如去閱讀對方的表情或者各種情緒。我覺得語音肯定是下一代人機交互一個非常主要的部分,,同時視覺加上語音會讓這個交互更加高效,。所以我認為語音加視覺是交互的未來。

從識別到理解,,還缺少基礎(chǔ)的一環(huán)

新智元:但是對于各種語音助理,,有時用戶體驗并不好。這一方面可能有用戶使用習(xí)慣的問題——因為語音助理會說話,,用戶就愿意去問它各種各樣的問題,,而目前場景限制其實是必要的。您認為除了這一點之外,,智能語音助理想要帶來更好的用戶體驗,,技術(shù)上還需要哪些突破?

王剛:這是一個很好的問題,。我們可以看到,,天貓精靈 X1 在很多問題上還是做的比較好的,能夠滿足用戶的很多需求,。自然語言理解目前仍然是非常有挑戰(zhàn)的任務(wù),。我這里指的是,對自然語言的理解有時是超出語言范疇的。

比如說像網(wǎng)上有一個段子,,說有兩種人不能談戀愛,,一種是誰也看不上的人,另外一種是誰也看不上的人,。如果讓機器理解這兩句話的區(qū)別,,它首先需要知道這兩種人到底有什么樣的特征,這需要多維度的信息,。但這樣多維度的信息,,目前還沒有被很好的輸入到機器里面。

所以從技術(shù)上來講,,我覺得一個要做的事情是,,怎么能夠把世界知識以更好的方式表達出來,并且能夠讓機器去理解,,去吸收這些知識,,并且跟深度學(xué)習(xí)這樣的技術(shù)融合在一起。因為深度學(xué)習(xí)主要解決的是模式識別的問題,。我們以前不能夠很好的表達這個信號,,必須要人工去設(shè)計特征來表達,比如像語音,、文字或者是圖象的特征,。

那么深度學(xué)習(xí)要解決的問題,就是能夠讓機器去學(xué)習(xí)出這種特征,,能夠把這個信號映射到我們預(yù)先定義好的一個類上面,,標(biāo)記 Semantic Label,但是從 Label 到理解,,我認為缺少“世界知識”這樣一個基礎(chǔ),。人是基于這個知識,然后再基于我們看到的東西,,來進行推理和理解的,。這一環(huán)目前仍然是缺失的,我覺得這是一個技術(shù)需要投資的地方,。

新智元:您認為世界知識應(yīng)該主要是由機器學(xué)習(xí)還是人工來實現(xiàn)呢,? 人工的規(guī)則在這里有沒有用武之地呢?

王剛:我覺得兩者都是要有的,,因為機器學(xué)習(xí)現(xiàn)在的主要長處還是在于Supervised Learning,。像這種世界知識,我們很難給它提供這么多的 Label,,所以它需要可能一些 Unsupervised Learning、Semi-supervisedLearning 的方式,同時也需要人工去參與,。就像小孩一樣,,也需要別人把書編好讓他們?nèi)ラ喿x。編好書的過程就是一個知識傳承的過程,,是一個世界知識表達的過程,,但現(xiàn)在機器是缺少這一塊的。

新智元:我曾接觸過這種語言知識庫填寫的工作,。為語言設(shè)計一套符號體現(xiàn),,然后通過為詞語(因為詞語是有限的)填寫符號,來表達特定的知識,。比如“結(jié)婚”一詞,,它的符號就會展現(xiàn)出這個行為的“主語”是兩個人,一般是一男一女,,在具體的語境中,,這個符號也展現(xiàn)出了對于主語的預(yù)期。現(xiàn)在較少聽到類似的工作了,。這樣基于人工規(guī)則和符號系統(tǒng)的方法還會回來嗎,?

王剛:我想這樣的任務(wù)或者需求肯定會回來的。因為現(xiàn)在學(xué)術(shù)界關(guān)注于剛才所講的識別問題或者映射問題,。像 ImageNet 這樣的數(shù)據(jù)庫比較容易建,,把 Label 標(biāo)好之后比較容易建好,并且大家用著也很方便,,學(xué)術(shù)界就更有可能去做,。

但在性能逐漸提升以后,并且工業(yè)界也有了更高智能的需求,,那么要更智能的東西,,肯定就需要知識表達,所以我覺得這樣的任務(wù)或領(lǐng)域肯定會回來,,但是它的方法是不是要經(jīng)過迭代,?我覺得是肯定的。因為現(xiàn)在的機器學(xué)習(xí),,我們是經(jīng)過了多輪迭代的,,所以它是螺旋型上升的。我認為知識表達也會是這樣,。

一個模型解決所有問題并不現(xiàn)實,,各個領(lǐng)域的模型需要定制化

新智元:作為深度學(xué)習(xí)算法領(lǐng)域的專家,您之前的工作既涉及到視覺理解,,也涉及到語義理解?,F(xiàn)在谷歌提出了“一個模型解決所有問題”的方法,在一定程度上也引起了學(xué)界的爭論。您覺得這樣的方法現(xiàn)實嗎,?

王剛:我們來看看深度學(xué)習(xí)最開始提出來的 Motivation 是什么,。它主要針對用人工方法很難去理解信號里面那么復(fù)雜的東西,你靠人工去設(shè)計這個特征,,去表達這個信號,,是不太靠譜的。所以我們需要端到端的這樣一個深度學(xué)習(xí)網(wǎng)絡(luò),,它能夠從信號里面自己去發(fā)現(xiàn)特征,,讓任務(wù)做的更好。它的Motivation 就是這樣的,,因此深度學(xué)習(xí)很大程度上削弱了先驗知識和領(lǐng)域知識的重要性,,它更多強調(diào)的是Data Driven。

所以我覺得 One Model 的設(shè)計可能在各個任務(wù)上都能取得還不錯的結(jié)果,,至于說是不是能夠解決所有的任務(wù)呢,?我是不認同的。Machine Learning 中有一個理論,,是說一個 General Model 肯定不能在每一個單獨的領(lǐng)域上超過為這個領(lǐng)域自己設(shè)計的定制的Model,,深度學(xué)習(xí)網(wǎng)絡(luò)也是如此。比如說我們以前在做計算機視覺的不同任務(wù)時,,就發(fā)現(xiàn)針對不同任務(wù),,如果考慮到先驗知識,利用它去更好的設(shè)計網(wǎng)絡(luò)結(jié)構(gòu),,也就是讓網(wǎng)絡(luò)結(jié)構(gòu)能夠更適應(yīng)這個任務(wù)的特點,,那么它學(xué)出來的東西其實會更有效。更不要提語音,、文本,、圖象,它們之間的差異化要大得多,。因此我認為這種模型的設(shè)計還是要定制化的,。

關(guān)于“理解”,將問題定義清楚,,是學(xué)術(shù)研究的前提

新智元:我們會說,,在自然語言理解領(lǐng)域,會發(fā)生從識別到理解的進化,。在計算機視覺領(lǐng)域,,會發(fā)生從識別到理解的變化嗎?

王剛:你講的理解是指什么,?

新智元:比如說在一個視頻中,,能夠迅速檢測到目標(biāo),,這是識別;判斷幾個檢測目標(biāo)的關(guān)系,,這是理解,。

王剛:這一塊跟我講的自然語言理解的難點還是有相通之處的,,比如我們看到一幅畫:一個公交車站,,一個人坐在凳子上,其實人是能夠想象出這個人是在等車,,但如果你讓計算機去“看”,,他只能做識別。從識別到理解,,也是缺了知識的表達,,再加上推理。這兩個部分現(xiàn)在是缺的,,這是為什么沒有真正的“理解”或者智能的原因,。

這個問題會不會在學(xué)術(shù)界引起重視呢?我認為大家知道現(xiàn)在缺這樣一個東西,,但是會不會去做,?我不太確定。因為這個東西確實很難定義,。學(xué)術(shù)界做的東西首先還是要能夠定義清楚的,,我們大家去PK 就行了。但是這樣一個更廣泛的任務(wù),,很難去定義,。而工業(yè)界在做具體產(chǎn)品的時候,反而可能更有動力去做,。我希望學(xué)術(shù)界有人能把這個問題定義好,,引導(dǎo)這個潮流。

新智元:是的,,這個問題我剛才描述的都不是太清楚,,確實很難定義。

王剛:對的,。而且計算機視覺的“理解”,,有很多是跟任務(wù)相關(guān)的。比如說剛才我講的等車,,可能在我的眼睛里,,這個人是在等車;而從警察的眼睛里看,,可能要判斷的是他是不是一個犯罪分子,。只有我們先定義好任務(wù)是做什么,,才能進行下一步研究。比如我定義這是一個家用機器人,,讓它去看這個世界,,它的理解就會跟它的任務(wù)相關(guān)。所以我想,,可能還是要在機器人這類東西興起之后,,這樣的任務(wù)才會受到更廣泛的重視。

新智元:您剛才說到了語言理解 視覺理解,。在訓(xùn)練機器人的時候,,是否也可以讓語言的訓(xùn)練和視覺的訓(xùn)練同時進行呢?

王剛:我覺得正應(yīng)該這么做,,就像人學(xué)習(xí)的時候,,也是通過多模態(tài)來進行學(xué)習(xí)。語言,、圖象還有包括觸摸,、氣味等輸入,都是一起進行的,,這樣學(xué)習(xí)會更高效,。所以在學(xué)術(shù)界,我們也看到,,今年有很多視覺和文字一起結(jié)合進行學(xué)習(xí)的文章,,大家也非常關(guān)注這個問題,并且這樣一個浪潮或者熱點會持續(xù)下去,。

新智元:這也是人工智能實驗室特別關(guān)注的一個部分嗎,?

王剛:對技術(shù)前沿的東西,我們會持續(xù)關(guān)注,。

感興趣的方向:端上的人工智能,、生物認知啟發(fā)、量子計算

新智元:關(guān)于深度學(xué)習(xí)的發(fā)展,,請您談一下您在哪些方面感興趣吧,。

王剛:因為我現(xiàn)在是在人工智能實驗室做端上的人工智能。我們希望打造像天貓精靈這樣的人工智能新硬件,。對于我來講,,我希望能夠看到神經(jīng)網(wǎng)絡(luò)更輕、更快,,在端上能夠更好地跑起來,。因為兩三年前,大家做深度學(xué)習(xí),,都要在云上,,基于大量的GPU 來做,,提供的也多是云上的人工智能產(chǎn)品。現(xiàn)在我們要讓人工智能走到端,。最近兩三年有很多工作,,都是致力于讓神經(jīng)網(wǎng)絡(luò)的速度更快,從而有可能在端上順暢進行,。我還是希望端上能更快一些,,畢竟端上的成本還是比較敏感。

另外從研究的角度講,,我個人比較期望的還有神經(jīng)生物領(lǐng)域的一些進展,,能夠進一步啟發(fā)計算神經(jīng)網(wǎng)絡(luò)。我們看歷史上的神經(jīng)網(wǎng)絡(luò),,像最初的 CNN,還有最近的 Attention ,、Memory,,其實都是受生物認知的啟發(fā)。這兩樣?xùn)|西是完全不一樣的,,一個是人腦,,一個是電腦,但仍然很有啟發(fā)性,,這就好像說飛機和鳥兒都是有空氣動力學(xué)的,。所以生物認知上的一些東西還是可以挖掘的,應(yīng)該能夠進一步啟發(fā)我們設(shè)計更高效的網(wǎng)絡(luò),。這是第二點

另外一點,,我也比較關(guān)注量子力學(xué)、量子計算機和神經(jīng)網(wǎng)絡(luò)的結(jié)合,,和深度學(xué)習(xí)的結(jié)合,。其實現(xiàn)在已經(jīng)有一些相關(guān)的全新的探索發(fā)出來,我也希望看到今年能有更大的進展,,因為這樣我們訓(xùn)練深度學(xué)習(xí)就會更快,,能夠在最短的時間內(nèi)訓(xùn)練完。

新智元:阿里人工智能實驗室會有這幾方面的研究嗎,?

王剛:在量子力學(xué)方面,,還是需要一些設(shè)備,但是前面兩項我們實驗室都在研究,,在研發(fā),。

新智元:終端和云端有一個協(xié)作的問題,如果想提高終端計算能力的話,,阿里人工智能實驗室會不會有自己的智能芯片的研發(fā)計劃,?

王剛:因為神經(jīng)網(wǎng)絡(luò)或者說模型的效果在慢慢收斂,,所以我覺得智能芯片未來肯定會越來越流行。但是至于說我們是不是在研發(fā),,可能還不太方便披露,,現(xiàn)在我們先保留一個懸念吧。

新智元:您以前提到,,在南洋理工,,你曾經(jīng)建了一個標(biāo)準(zhǔn)的數(shù)據(jù)庫,這個數(shù)據(jù)庫學(xué)術(shù)界和工業(yè)界都在用,。結(jié)合阿里的優(yōu)勢,,現(xiàn)在實驗室有類似的研究計劃嗎?

王剛:我們有數(shù)據(jù)庫建設(shè)的計劃,,我覺得這個數(shù)據(jù)庫建設(shè)肯定是非常有意義的,。在阿里,我也在考慮,,是不是在一些恰當(dāng)?shù)膯栴}上,,也做一些這樣的數(shù)據(jù)庫建設(shè)。我們在建數(shù)據(jù)庫的時候,,肯定都是只用一些外界都能拿到的數(shù)據(jù)來建這樣一個數(shù)據(jù)庫,。

消費級 AI 產(chǎn)品,既是個人興趣,,也是實驗室的研發(fā)方向

新智元:您覺得來到阿里人工智能實驗室以后,,狀態(tài)跟之前在大學(xué)里面有什么不一樣?

王剛:我覺得還是挺興奮的,,因為在學(xué)校期間,,其實我也非常喜歡跟商業(yè)化相關(guān)的事情。我覺得技術(shù)最終還是要轉(zhuǎn)化成產(chǎn)品才更有意義,,因為每個人的興趣愛好不一樣,,蘿卜青菜各有所愛。我比較喜歡落地或者商業(yè)化這方面的東西,。而在學(xué)校里面有一個問題,,就是離市場太遠了,也不知道大家需要什么,,也沒有產(chǎn)品等各方面的相關(guān)人士去配合工作,。所以到阿里來之后,發(fā)現(xiàn)離消費者這么近,,既有天貓精靈 X1 這樣的消費級產(chǎn)品,,也有優(yōu)秀的硬件、產(chǎn)品方面的同事,所以覺得非常興奮,,非常開心,,很充實。 

新智元:那么工作節(jié)奏上呢,?

王剛:工作節(jié)奏還是要比學(xué)??煲恍驗樵趯W(xué)校,,尤其是拿到終身教職之后,,相對而言強度不是那么大,在公司強度會高一些,,因為我們要發(fā)產(chǎn)品,,產(chǎn)品要打磨,要用很多心思,,不過覺得很充實,。

新智元:您在這個崗位上有什么新的夢想?

王剛:我的夢想跟整個實驗室的夢想差不多,,都是希望能用人工智能去 Enable 這些硬件,,讓具有人工智能能力的產(chǎn)品走進千家萬戶,能夠為大眾和消費者都使用,,給他們的生活帶來便利,這也是我個人的夢想,,希望能夠看到這一天由我們阿里人工智能實驗室來實現(xiàn),。

新智元:是不是有這樣一種情況,一些學(xué)術(shù)界可能已經(jīng)不會太關(guān)注的問題,,但是在工業(yè)界仍然還是難點,。比如OCR,學(xué)術(shù)界已經(jīng)不再做它了,。但實際上在很多場景下仍是個難題,。您是否會有類似的感覺?

王剛:是有這樣問題的,,學(xué)術(shù)界和工業(yè)界的任務(wù)和使命不太一樣,。學(xué)術(shù)界更關(guān)注的是探索知識的前沿,創(chuàng)造新的知識,。它要解決的問題,,應(yīng)該說是在5 年以后會發(fā)生的事情,相當(dāng)于是引領(lǐng),,需要去探索,。它具有風(fēng)險性,是政府投資的,,它要探索 5 年之后哪一個技術(shù)方向是可能的,,或者哪一個技術(shù)方向不可能,,它有這樣的任務(wù)。

工業(yè)界界實際上應(yīng)該在學(xué)術(shù)界之后,,在學(xué)術(shù)界探索出某種技術(shù),,比如 OCR,是可能的,。這個東西有可能實現(xiàn),,工業(yè)界就去實現(xiàn)落地,在落地和方向之間,,肯定有是 Gap 的,。比如說學(xué)術(shù)界最開始做這個題目時,可能做了一個比較 Toy 的 DataSet,,他可能沒有考慮到工業(yè)界需要面臨的非常復(fù)雜的情況,。因為它是學(xué)者建立的,比如說做 OCR 的研究,,他可能會找到一本書,,感覺印刷不是特別好,就拿過來掃描一下,,作為數(shù)據(jù)庫,。

但是在工業(yè)界應(yīng)用的時候,我們就發(fā)現(xiàn)會有光照,、遮擋等等千奇百怪的情況,,這些學(xué)者在辦公室里面是考慮不到的。所以我們在落地的時候不可避免的會遇到這樣的困難,,需要花很多時間把算法進一步優(yōu)化,。大的方向是確定的,但在這個基礎(chǔ)上還要進行很多的優(yōu)化,,讓它落地,。

新智元:阿里人工智能實驗室定位于消費級 AI 產(chǎn)品的研發(fā)。這一點和您選擇加入阿里有關(guān)系嗎,?

王剛:對,,我覺得關(guān)系挺大的。我剛才講過,,以前的人工智能產(chǎn)品主要在云上實現(xiàn),,這一塊已經(jīng)發(fā)展比較長的時間了。不管是阿里云還是亞馬遜云,,上面都有很多人工智能的解決方案,,比如人臉識別、語言識別方面的。但是在端上,,還是一個相對空白的市場,,并且端上可能會更難一些,因為這個端可以放在不同的環(huán)境里面,,不同的場景里面,,并且還要考慮到計算等各方面的制約,所以說挑戰(zhàn)也會更大一些,。那么做C端的產(chǎn)品,,其實也更性感一些,所以我覺得這是非常好的,、非常有意思的一個機會,,也跟我的興趣非常一致。

新智元:消費級 AI 產(chǎn)品,,在整個阿里人工智能戰(zhàn)略里面的定位是怎樣的,?相關(guān)的技術(shù)是否會開放呢?

王剛:打造下一代的人機交互產(chǎn)品是阿里AI戰(zhàn)略里非常重要的部分,。我們的天貓精靈讓消費者覺得用語音交互居然可以做這么多的事情,,很有意思。我們也希望有更多用戶體驗不同的產(chǎn)品形態(tài),,來享受這個新技,。所以同時我們也是開放的,天貓精靈里面使用了AliGenie這個第一代中文人機交互系統(tǒng),,它能夠精確的理解用戶的語言,,智能的對話,個性化提供用戶需要的服務(wù),。我們AI Labs把AliGenie開放給開發(fā)者、硬件廠商所使用,。我們希望我們的AliGenie能去 Enable 所有的硬件,,我們希望讓更多具有人工智能能力的產(chǎn)品,能夠快速的落地,,被消費者所使用,。

阿里的 AI 人才計劃

新智元:阿里人工智能實驗室目前最需要哪方面的人才?

王剛:阿里巴巴目前正在向全球廣泛招募人工智能方面的人才,,從2017年夏季開始,,阿里將推出一項AI人才的校招計劃,主要面向博士生群體,,將涉及到計算機視覺,、機器學(xué)習(xí)、NLP、圖形圖像,、語音交互等技術(shù)方向,。

新智元:在人工智能技術(shù)方面,阿里的人才計劃是怎樣的,?

王剛:今年3月,,阿里巴巴正式啟動代號“NASA”的計劃,面向未來20年組建強大的獨立研發(fā)部門,,建立新的機制體制,,覆蓋人工智能、機器學(xué)習(xí),、芯片,、IoT、操作系統(tǒng),、生物識別這些核心技術(shù)領(lǐng)域,。

在人工智能領(lǐng)域,阿里很多業(yè)務(wù)都早已實現(xiàn)應(yīng)用,,比如以圖搜圖,、活體檢測、阿里小蜜(語音處理),,ET醫(yī)療大腦,、ET工業(yè)大腦、無人商店,、天貓精靈等均是和人工智能緊密相關(guān)的應(yīng)用場景,,且這些應(yīng)用的諸多技術(shù)均來自于iDST(Institute of Data Science & Technologies)和阿里人工智能實驗室。

今天的阿里巴巴,,處在一個技術(shù)創(chuàng)新的臨界點,,從工程技術(shù)到核心科技的臨界點。阿里擁有十分復(fù)雜的業(yè)務(wù)場景,,金融支付,、電子商務(wù)、物流,、新制造,、新零售等,必然會存在世界級技術(shù)挑戰(zhàn),,而若解決這些世界級難題,,必須依靠世界級優(yōu)秀人才。

基于這樣的背景,,阿里今年一方面公布了AIR( Alibaba Innovative Research)計劃,,此計劃的重點是推進計算機科學(xué)和技術(shù)領(lǐng)域內(nèi)具有前瞻性和開創(chuàng)性的基礎(chǔ)研究工作,。同時,致力于推動學(xué)術(shù)和產(chǎn)業(yè)合作,,在技術(shù)應(yīng)用上取得實質(zhì)性突破,,建立技術(shù)生態(tài)系統(tǒng)?!癆IR計劃”的目標(biāo)是讓全世界的科技人才在追逐世界的同時,,用科技創(chuàng)造新的未來。

新智元:王剛博士,,感謝您接受新智元的專訪,。

王剛:謝謝新智元。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多