深度學習和人工神經(jīng)網(wǎng)絡(luò)是現(xiàn)代人工智能的 核心技術(shù) 深度學習根源于傳統(tǒng)的“神經(jīng)網(wǎng)絡(luò)”,,“神經(jīng)網(wǎng)絡(luò)”可以追溯到20世紀五十年代后期,。當時,,弗蘭克·羅森布拉特試圖建立一種類似機械大腦的感知器,可以“感知,,識別,,記憶,像人的思維做出響應的機器”,。在一定范圍內(nèi)這個系統(tǒng)能夠識別一些基本的形狀,,如三角形和正方形。人們對它的潛力寄予厚望,,甚至“New Yorker”宣稱這種“這個卓越的機器能夠思考,。”
但是測驗最終以失敗告終,,一本寫于1969年由馬文·明斯基和他的合作者西摩帕爾特一本書指出,,羅森布拉特設(shè)計的原系統(tǒng)是非常有限制的,從字面上盲目進行一些簡單的邏輯功能如“異或”(比如說你可以擁有蛋糕或餡餅,,但不能同時兼有),。眾所周知,“神經(jīng)網(wǎng)絡(luò)”的魅力很快消失了,。 然而,,在上世紀八十年代中期,當卡內(nèi)基-梅隆大學的年輕教授杰夫·欣頓幫助構(gòu)建更復雜的虛擬神經(jīng)元網(wǎng)絡(luò),,可以規(guī)避一些明斯基指出的難點,,羅森布拉特的又一個想法再度出現(xiàn)。韓丁引入一個“隱藏層”的概念,,“隱藏層”神經(jīng)元允許新一代網(wǎng)絡(luò)有更復雜的學習功能(原始感知器無法處理的類似的異或功能),。然而新的模型也有嚴重的問題。訓練時間長,,學習緩慢,,效率低下,就像史蒂文·平克和我指出的,,不能像孩子一樣掌握一些基本的東西,,比如學習規(guī)則動詞的過去式。由19世紀九十年代晚期,,神經(jīng)網(wǎng)絡(luò)又開始失寵,。
然而,欣頓堅持不懈,,在2006年做出了重大改進,,提出深度學習,這個概念延續(xù)了我的同事Yann LeCu早期提出的重要概念,,這個技術(shù)仍然谷歌,,微軟,,和其他地方有所應用。實際上,,深度學習(Deep Learning)就是現(xiàn)代人工智能的核心技術(shù)。谷歌,、微軟與百度是現(xiàn)代人工智能領(lǐng)域的“三巨頭”,。它們擁有海量數(shù)據(jù)以及DNN技術(shù),比如:2012年11月,,微軟(中國)在天津的一次會議上公開演示了一個全自動的“同聲傳譯”系統(tǒng),,講演者用英文演講,后臺的計算機一氣呵成,,完成語音識別,、英中機器翻譯,以及中文語音合成,,效果非常流暢,。微軟使用的就是深度神經(jīng)網(wǎng)絡(luò)技術(shù)。 機器學習和人工神經(jīng)網(wǎng)絡(luò) 在深入深度學習的實現(xiàn)過程之前,,先介紹機器學習和人工神經(jīng)網(wǎng)絡(luò)的概念,。 機器學習的一個非常通常的任務是這樣的:給出了一個目標的信息,從而能夠知道它屬于哪個種類,。在深度學習的過程中,,程序想要決定在目前游戲狀態(tài)下如何進行下一步動作。機器學習算法從例子中進行學習:給出了許多的目標例子和它們的種類,,學習算法從中找出了那些能夠鑒定某個種類的目標特征,。學習算法會產(chǎn)生一個模型,能夠在訓練集中最小化錯誤分類率,。這個模型之后會被用來預測那個未知目標的種類,。 人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Networks)是機器學習的一個算法。它是由人類的大腦結(jié)構(gòu)產(chǎn)生的靈感,。這個網(wǎng)絡(luò)由許多節(jié)點組成,,如同大腦由神經(jīng)元組成,并且互相之間聯(lián)系在一起,,如同神經(jīng)元之間通過神經(jīng)突觸和神經(jīng)樹聯(lián)系在一起,。對于每個神經(jīng)元,都會對其應該傳遞的信號的情況做特殊規(guī)定,。通過改變這些連接的強弱,,可以使得這些網(wǎng)絡(luò)計算更加快速。現(xiàn)在神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)通常由如下部分組成:
神經(jīng)的輸入層(獲得目標的描述) 隱藏層(主要部分,,在這些層中學習) 輸出層(對于每個種類都一個神經(jīng)節(jié)點,,分數(shù)最高的一個節(jié)點就是預測的種類) 在學習過程結(jié)束之后,,新的物體就能夠送入這個網(wǎng)絡(luò),并且能夠在輸出層看到每個種類的分數(shù),。
深度學習
在這個系統(tǒng)中,,一個神經(jīng)網(wǎng)絡(luò)被用來期望在當前游戲狀態(tài)下每種可能的動作所得到的反饋。下圖給出了文章中所提到的神經(jīng)網(wǎng)絡(luò),。這個網(wǎng)絡(luò)能夠回答一個問題,,比如“如果這么做會變得怎么樣?”,。網(wǎng)絡(luò)的輸入部分由最新的四幅游戲屏幕圖像組成,,這樣這個網(wǎng)絡(luò)不僅僅能夠看到最后的部分,而且能夠看到一些這個游戲是如何變化的,。輸入被經(jīng)過三個后繼的隱藏層,,最終到輸出層。 輸出層對每個可能的動作都有一個節(jié)點,,并且這些節(jié)點包含了所有動作可能得到的反饋,。在其中,會得到最高期望分數(shù)的反饋會被用來執(zhí)行下一步動作,。 學習過程
系統(tǒng)通過學習過程來計算最高期望分數(shù),。確切地說,在定義了網(wǎng)絡(luò)的結(jié)構(gòu)之后,,剩下唯一會變化的就只有一件事:連接之間的強弱程度,。學習過程就是調(diào)整這些方式地權(quán)重,從而使得通過這個網(wǎng)絡(luò)的訓練樣例獲得好的反饋,。 文章將這個問題當作一個優(yōu)化問題,,目標是獲取最好的反饋??梢酝ㄟ^將梯度下降與激勵學習方法結(jié)合起來解決,。這個網(wǎng)絡(luò)不僅僅需要最大化當前的反饋,還需要考慮到將來的動作,。這一點可以通過預測估計下一步的屏幕并且分析解決,。用另一種方式講,可以使用(當前反饋減去預測反饋)作為梯度下降的誤差,,同時會考慮下一幅圖像的預測反饋,。
|