注:國外媒體發(fā)表文章對Facebook人工智能實(shí)驗(yàn)室負(fù)責(zé)人伊恩·勒坤(Yann LeCun)進(jìn)行評述,,文章談及勒坤所研究的卷積神經(jīng)網(wǎng)絡(luò)對人工智能產(chǎn)生深遠(yuǎn)影響,,潛力不容小覷。此外還介紹了他開發(fā)的書寫數(shù)字識(shí)別系統(tǒng)LeNets以及他對反向傳播算法的研究成果,,并對深度學(xué)習(xí)的前景進(jìn)行評析,。文章由網(wǎng)易科技編譯
以下為文章主要內(nèi)容:
馬克·扎克伯格精心挑選了深度學(xué)習(xí)專家伊恩·勒坤擔(dān)任Facebook人工智能實(shí)驗(yàn)室的負(fù)責(zé)人。該實(shí)驗(yàn)室于去年年底成立,。作為紐約大學(xué)任教已久的教授,,伊恩·勒坤對深度學(xué)習(xí)(deep learning)的研究成績斐然,在IEEE世界計(jì)算智能大會(huì)中榮獲神經(jīng)網(wǎng)絡(luò)先鋒獎(jiǎng),。深度學(xué)習(xí),,作為人工智能的一種形式,旨在更密切地模仿人類大腦,。最初,,大多數(shù)人工智能研究人員公開表態(tài)對深度學(xué)習(xí)嗤之以鼻,但短短幾年后,,它卻突然在整個(gè)高科技領(lǐng)域蔓延開來,,橫跨谷歌、微軟,、百度再至Twitter,。
這些高科技公司正在探索深度學(xué)習(xí)的一種特殊形態(tài)——卷積神經(jīng)網(wǎng)絡(luò),旨在打造可以自動(dòng)理解自然語言以及識(shí)別圖像的Web服務(wù),。谷歌Android手機(jī)的語音識(shí)別系統(tǒng)就是基于神經(jīng)網(wǎng)絡(luò)而開發(fā)的,。百度利用神經(jīng)網(wǎng)絡(luò)對一種新型的可視化搜索引擎進(jìn)行研發(fā)。研究深度學(xué)習(xí)的學(xué)者不在少數(shù),,但它獲得成功,,勒坤功不可沒。微軟的機(jī)器學(xué)習(xí)專家萊昂·伯托(Leon Bottou)早期曾與勒坤合作,。
“對于可視化卷積神經(jīng)網(wǎng)絡(luò),,勒坤的付出遠(yuǎn)甚于他人?!?/sup>
面臨巨大懷疑,,勒坤仍然力挺神經(jīng)網(wǎng)絡(luò),。要讓神經(jīng)網(wǎng)絡(luò)正常運(yùn)作需要功能強(qiáng)大的計(jì)算機(jī)和龐大的數(shù)據(jù)集,但上世紀(jì)80年代勒坤剛剛接觸這一全新領(lǐng)域時(shí),,卻不具備這些支持條件。當(dāng)時(shí)剛剛步入計(jì)算機(jī)時(shí)代,,科學(xué)家們對人工智能報(bào)以熱切的期望,,但神經(jīng)網(wǎng)絡(luò)受限于那時(shí)的條件,無力滿足科學(xué)家的愿景,,因而不被看好,。要想在權(quán)威學(xué)術(shù)期刊發(fā)表與神經(jīng)網(wǎng)絡(luò)相關(guān)的文章困難重重。時(shí)至90年代乃至21世紀(jì)初,,這一狀況依舊沒有得到改善,。
但勒坤仍然堅(jiān)持不懈。終于,,如今電腦技術(shù)大邁步向前,,為深度學(xué)習(xí)提供了必要的技術(shù)支持,其潛力亦得以開發(fā),。
勒坤的LeNets
在加入Facebook之前的二十多年,,勒坤在貝爾實(shí)驗(yàn)室中工作,這段時(shí)間內(nèi),,他研發(fā)出了一個(gè)可以識(shí)別手寫數(shù)字的系統(tǒng),,并稱之為LeNet。貝爾實(shí)驗(yàn)室作為世界上最著名的計(jì)算機(jī)研究實(shí)驗(yàn)室,,是晶體管,、Unix操作系統(tǒng)和C語言的發(fā)源地。
LeNet能夠自動(dòng)讀取銀行支票,,它標(biāo)志著卷積神經(jīng)網(wǎng)絡(luò)首次被應(yīng)用于實(shí)踐中,。伯托表示,“卷積網(wǎng)絡(luò)原本像是個(gè)小玩具,,勒坤將之應(yīng)用于規(guī)模更廣的實(shí)際問題中,。”
上個(gè)世紀(jì)70以及80年代,,認(rèn)知機(jī)(cognitron)和神經(jīng)認(rèn)知機(jī)(Neocognitron)這些早期的神經(jīng)網(wǎng)絡(luò)模型能夠自主學(xué)習(xí)從數(shù)據(jù)中識(shí)別圖形,,并且無需人類的過多提示。但這類模型都相當(dāng)復(fù)雜,,研究人員無法完全弄清楚如何使它們運(yùn)行無誤,。
“當(dāng)時(shí)缺少一種監(jiān)督學(xué)習(xí)算法,現(xiàn)在我們稱之為反向傳播算法(Back propagation),。這種算法能有效地使錯(cuò)誤率最小化,?!?/sup>
卷積神經(jīng)網(wǎng)絡(luò)
卷積網(wǎng)絡(luò)是由相互連通的卷積層組成,與大腦中處理視覺信息的視覺皮層十分類似,。卷積網(wǎng)絡(luò)的不同之處在于,,它們可以重復(fù)使用一張圖像中多個(gè)位置的相同過濾器。舉例而言,,一旦卷積網(wǎng)絡(luò)學(xué)會(huì)了在某個(gè)位置識(shí)別人臉,,那么它也可以自動(dòng)在其他位置識(shí)別人臉。這種原理也適用于聲波和手寫文字,。
百度研究院負(fù)責(zé)人吳恩達(dá)(Andrew Ng)認(rèn)為,,這使人工神經(jīng)網(wǎng)絡(luò)能夠快速接受培訓(xùn)。
“內(nèi)存占用空間小,,不需要對圖像中每個(gè)位置的過濾器進(jìn)行單獨(dú)存儲(chǔ),,從而使神經(jīng)網(wǎng)絡(luò)非常適合于創(chuàng)建可擴(kuò)展的深網(wǎng)(deep nets)。這也令卷積神經(jīng)網(wǎng)絡(luò)具有善于識(shí)別圖形的優(yōu)點(diǎn),?!?/sup>
當(dāng)卷積神經(jīng)網(wǎng)絡(luò)接收到圖像(即輸入)時(shí),它將其轉(zhuǎn)換為代表特征的數(shù)字陣列,,并對每個(gè)卷積層中“神經(jīng)元”進(jìn)行調(diào)整以識(shí)別數(shù)字中某些圖形,。低級神經(jīng)元能夠識(shí)別基本形狀,而高級神經(jīng)元?jiǎng)t能夠識(shí)別狗或人等更復(fù)雜的形態(tài),。每個(gè)卷積層與相鄰的層互通,,當(dāng)信息在網(wǎng)絡(luò)中傳播時(shí),就會(huì)得出平均值,。最后,,網(wǎng)絡(luò)通過猜測圖像中是什么圖形從而得出輸出結(jié)果。
如果網(wǎng)絡(luò)出錯(cuò),,工程師可以對層與層之間的連接進(jìn)行微調(diào),,以便得到正確答案。而神經(jīng)網(wǎng)絡(luò)能夠自主進(jìn)行微調(diào),,因而更勝一籌,。這時(shí)反向傳播算法就開始發(fā)揮作用了。
反向傳播算法
反向傳播算法的原理是計(jì)算誤差,,并根據(jù)誤差對卷積層所接收的強(qiáng)度進(jìn)行更新,。上個(gè)世界80年代中期,David Rumelhart,、Geoffrey Hinton及Ronald Williams提出反向傳播算法,,即同時(shí)為多重輸入計(jì)算誤差,并取平均值,。然后通過網(wǎng)絡(luò)將平均誤差從輸出層到輸入層反向傳播,。
勒坤對反向傳輸算法的構(gòu)想與上述不同,,他并未采取平均值,而是為每個(gè)樣本計(jì)算出誤差,。他的這種方法成效不錯(cuò),,速度更快。
據(jù)伯托透露,,勒坤得出這一辦法,,實(shí)際上是陰錯(cuò)陽差的結(jié)果。當(dāng)時(shí)的電腦不太給力,。他們不得不想辦法,希望用盡可能少的電腦配置,,盡可能快速地計(jì)算出誤差,。這在當(dāng)時(shí)似乎是蒙混過關(guān)的做法,但如今卻成為人工智能工具箱的重要部分,。它就是隨機(jī)梯度下降算法(stochastic gradient descent),。
勒坤的LeNets已廣泛應(yīng)用于世界各地的自動(dòng)取款機(jī)和銀行,用以識(shí)別支票上的手寫字跡,。但仍有人持懷疑態(tài)度,。勒坤表示,“目前我們所獲得的進(jìn)展還不足以說服計(jì)算機(jī)視覺領(lǐng)域承認(rèn)卷積神經(jīng)網(wǎng)絡(luò)的價(jià)值,?!辈糠衷蛟谟冢m然卷積神經(jīng)網(wǎng)絡(luò)功能強(qiáng)大,,但沒有人知道它為什么這么強(qiáng)大,。目前還未能揭開這項(xiàng)技術(shù)謎一般的內(nèi)在原理。
深度學(xué)習(xí)的前景
批評聲此起彼伏,。支持向量機(jī)(Support Vector Machine)的創(chuàng)建者兼數(shù)學(xué)家弗拉迪米爾·瓦普尼克(Vladimir Vapnik)也持批評立場,。支持向量機(jī)是目前使用最廣泛的人工智能模型之一。
1995年3月的一個(gè)下午,,瓦普尼克和拉里·杰克爾(Larry Jackel,,招募瓦普尼克和勒坤進(jìn)入貝爾實(shí)驗(yàn)室)兩人打了個(gè)賭。杰克爾認(rèn)為,,到2000年,,深度人工神經(jīng)網(wǎng)絡(luò)(deep artificial neural nets)的內(nèi)在原理將明朗化。瓦普尼克則堅(jiān)持將時(shí)限推后至2005年,。他們還較真地把賭注內(nèi)容寫在紙上,,并在幾位見證人面前簽了名。勒坤和伯托當(dāng)時(shí)都在場,。
打賭雙方最終難解勝負(fù),。2000年,,神經(jīng)網(wǎng)絡(luò)的核心原理仍然籠罩在神秘面紗下,哪怕是現(xiàn)在,,研究人員也無法用數(shù)學(xué)方法參透個(gè)中奧妙,。2005年,深度神經(jīng)網(wǎng)絡(luò)在自動(dòng)取款機(jī)和銀行中獲得廣泛應(yīng)用,,雖然人們?nèi)晕茨苷莆蘸诵脑?,但勒坤在上個(gè)世紀(jì)80年代中期和90年代初的研究工作為深度神經(jīng)網(wǎng)絡(luò)的解密奠定了重要根基。
“很少有某項(xiàng)技術(shù)能在問世20或25年后,,雖然基本上未經(jīng)改變,,但在時(shí)間的考驗(yàn)下被證實(shí)是最優(yōu)異的。人們接受它的速度是驚人,。我過去從未遇見過這樣的情況,。”
目前使用最廣泛的卷積神經(jīng)網(wǎng)絡(luò)幾乎完全依賴于監(jiān)督學(xué)習(xí)(supervised learning),。這意味著,,如果想讓神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)如何識(shí)別某一特定對象,就必須對幾個(gè)樣本進(jìn)行標(biāo)注,。無監(jiān)督學(xué)習(xí)(unsupervised learning)是指從未經(jīng)標(biāo)記的數(shù)據(jù)展開學(xué)習(xí),,這更接近人腦的學(xué)習(xí)方式。目前一些深度學(xué)習(xí)的研究者正在探索這一領(lǐng)域,。
“我們對大腦如何學(xué)習(xí)幾近完全陌生,。人們已經(jīng)知道神經(jīng)元突觸能夠自我調(diào)整,但我們對大腦皮層的機(jī)理尚不明確,。我們知道最終答案是無監(jiān)督學(xué)習(xí),,但卻無力解答?!?nbsp;
反向傳播算法不太可能體現(xiàn)出人類大腦的運(yùn)作機(jī)理,,所以研究者正在探索其他算法。此外,,卷積網(wǎng)絡(luò)在收集數(shù)據(jù)或計(jì)算平均值時(shí),,效果并非十全十美,所以當(dāng)前研究者也盡力做出改進(jìn),。辛頓表示,,“卷積網(wǎng)絡(luò)會(huì)丟失信息?!?/div>
以人臉為例,。系統(tǒng)如果學(xué)會(huì)識(shí)別眼睛和嘴唇之類的面部特征,便能有效地識(shí)別出圖像中有人臉,,但無力分辨出不同面孔之間的差異,。它也無法很好地找出眼睛在臉上的準(zhǔn)確位置,。高科技公司和政府想要?jiǎng)?chuàng)建有關(guān)用戶或居民詳盡的數(shù)字檔案,以上所提及的缺陷將成為無法回避的短板,。
勒坤的研究也許不算完美,,但當(dāng)前卻是這一領(lǐng)域的尖端理論。