盡管溫度與聲音都是能量的表現(xiàn)形式,,但年幼的你并不需要知道熱對流的概念。每次你的孩子碰到一個(gè)流浪動(dòng)物時(shí),,他們不太可能先在大腦中去執(zhí)行一個(gè)判斷動(dòng)物屬性的程序,,從而來判斷這個(gè)流浪動(dòng)物是一只貓還是一只狗。人類大腦生來就具有認(rèn)知能力,,我們可以很容易地感知事物之間的區(qū)別,。假如事物之間的差異很明顯,那么感知差異對我們來說是再正常不過的事情了,,我們將其稱為常識,。相比之下,計(jì)算機(jī)需要使用確定性地算法來一步一步地處理這些最基本的判斷,。盡管幾十年來機(jī)器在速度和處理能力方面有了很大的進(jìn)步,,但是機(jī)器仍然不能像幼兒一樣,即使在沒有嘗試的情況下也能處理問題,。直到現(xiàn)在,,都是如此。 在最近的六年當(dāng)中,,深度學(xué)習(xí)技術(shù)使得機(jī)器在物理世界的認(rèn)知能力方面取得了巨大的進(jìn)步,,該技術(shù)是受到人類大腦結(jié)構(gòu)啟發(fā),并且也是人工智能的一個(gè)分支,。在 Facebook 的 AI 實(shí)驗(yàn)室中,,科學(xué)家們建立了一個(gè)深度學(xué)習(xí)系統(tǒng),該系統(tǒng)可以回答一些以前從未出現(xiàn)過的簡單問題,。Amazon 的 Echo 也使用了深度學(xué)習(xí)技術(shù),。三年前,微軟的首席研究員在中國的演講給參會者留下了深刻的印象,,他在會上演示了使用深度學(xué)習(xí)技術(shù)的語音軟件,,該軟件將他的英語口語翻譯成中文,然后再模仿他的發(fā)音,,以一種普通話的口吻將中文說出來,,誤差率只有7%。現(xiàn)在,該技術(shù)已經(jīng)被使用在了 Windows 的移動(dòng)手機(jī)和 Bing 的語音搜素上面,。 世界上最強(qiáng)大的科技公司一直以來都在悄悄的部署深度學(xué)習(xí)系統(tǒng),,從而來改善他們的產(chǎn)品和服務(wù),,但是沒有一家公司的投資力度可以超過 Google,。它將整個(gè)公司的命運(yùn)都壓在 AI 上了,紐約時(shí)報(bào)如是說,,Google 不但投入了海量的資源,,并且聚攏了該領(lǐng)域眾多一線研究人員。而它也因此獲得了巨大的收益,。幾年前,,Google 通過使用來自于 YouTube 的1000萬個(gè)未被標(biāo)記的圖片來訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò),結(jié)果證明該網(wǎng)絡(luò)模型對圖像中對象(貓,,人臉,,花朵,各種魚類和其他數(shù)千個(gè)類別)的正確識別率提高了近兩倍,。當(dāng) Google 在 Android 語音搜索上部署深度學(xué)習(xí)系統(tǒng)之后,,一夜之間,語音搜索的錯(cuò)誤率就下降了25%,。在今年年初,,另一個(gè) Google 深度學(xué)習(xí)系統(tǒng)擊敗了世界上最復(fù)雜的棋盤游戲的最好的一位選手。 這僅僅是一個(gè)開始,。我相信在未來幾年,,創(chuàng)業(yè)公司和一般的大型科技巨頭都會使用深度學(xué)習(xí)技術(shù),從而來改進(jìn)他們一系列的現(xiàn)有應(yīng)用程序,,并創(chuàng)造新的產(chǎn)品和服務(wù),。完全嶄新的業(yè)務(wù)線和市場將會興起,這反過來又會帶來更多的創(chuàng)新,。深度學(xué)習(xí)系統(tǒng)將變得更加容易使用并且被更加廣泛的應(yīng)用,。我預(yù)測,深度學(xué)習(xí)技術(shù)將改變?nèi)藗兣c技術(shù)的交互方式,,正如操作系統(tǒng)從根本上改變了普通人對計(jì)算機(jī)的訪問,。 深度學(xué)習(xí) 歷史上,計(jì)算機(jī)通過使用確定性算法進(jìn)行編程,,從而來執(zhí)行任務(wù),,也就是說,算法詳細(xì)的規(guī)定程序必須采取的每一個(gè)步驟,。這在許多情況下,,我們的程序都可以很好地執(zhí)行任務(wù),比如說從執(zhí)行復(fù)雜的計(jì)算,到擊敗國際象棋大師,。但是在有些情況下,,我們無法確定算法,例如面部識別,,情緒識別,,問答系統(tǒng)等等。 假如我們通過手動(dòng)編程的方式來處理臉部與音位(這兩個(gè)對象都具有無數(shù)的屬性)那么我們的工作量將是巨大的,。此外,,我們的機(jī)器也無法處理那些不符合程序要求的參數(shù)類型的數(shù)據(jù)。想想現(xiàn)在的語音助手與自動(dòng)電話菜單系統(tǒng)的區(qū)別,。前者,,比如說 Siri 與 Alexa,你可以使用自然語言來向他們詢問一些事情,;而對于后者,,你只能使用具體的、固定的詞語集合(這個(gè)集合是程序用來理解用戶輸入的),,只有這樣該電話系統(tǒng)才能工作,。相比之下,基于深度學(xué)習(xí)的系統(tǒng)本身對數(shù)據(jù)就有自己的理解,,他們并不需要顯示的算法,。這種設(shè)計(jì)靈感來源于人類的大腦,就真正意義上來講,,這些機(jī)器是從他們的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí),。在一些領(lǐng)域當(dāng)中,機(jī)器現(xiàn)在已經(jīng)能達(dá)到人類水平了,,比如說物體識別與語音識別,。 那么深度學(xué)習(xí)的工作原理是什么呢? 深度學(xué)習(xí)系統(tǒng)模擬的是人類大腦新皮質(zhì)中的神經(jīng)網(wǎng)絡(luò),,該部位擁有更高級別的認(rèn)知能力,。在大腦中,神經(jīng)元是能夠傳遞電流或化學(xué)信息的細(xì)胞,。當(dāng)它與其他神經(jīng)元鏈接時(shí),,這樣就形成了神經(jīng)網(wǎng)絡(luò)。在機(jī)器中,,神經(jīng)元是虛擬的——基本上就是運(yùn)行統(tǒng)計(jì)回歸的代碼,。足夠多的虛擬神經(jīng)元連接在一起,你就得到了一個(gè)虛擬的神經(jīng)網(wǎng)絡(luò),。將下面網(wǎng)絡(luò)中的每個(gè)神經(jīng)元視為一個(gè)簡單的統(tǒng)計(jì)模型:它接受一些輸入,,并且沿著輸出路線進(jìn)行輸出,。 然而,為了使得神經(jīng)網(wǎng)絡(luò)能起作用,,我們必須對它進(jìn)行訓(xùn)練,。為了訓(xùn)練神經(jīng)網(wǎng)絡(luò),我們映射出一組虛擬神經(jīng)元,,并為該組神經(jīng)元分配隨機(jī)數(shù)字,,這些數(shù)字我們稱為“權(quán)重”,權(quán)重確定了神經(jīng)元如何響應(yīng)新的數(shù)據(jù)(數(shù)字化物體或聲音),。像任何系統(tǒng)或機(jī)器學(xué)習(xí)一樣,,機(jī)器最初也是需要知道正確的答案,。因此,,如果神經(jīng)網(wǎng)絡(luò)沒有準(zhǔn)確的識別輸入——例如,沒有識別出圖像中的臉部——?jiǎng)t系統(tǒng)調(diào)整權(quán)重,,以便產(chǎn)生正確答案(權(quán)重就是每個(gè)神經(jīng)元對于數(shù)據(jù)的關(guān)注程度),。最終,在經(jīng)過充分的訓(xùn)練之后,,神經(jīng)網(wǎng)絡(luò)將能夠正確地識別語音與圖像,。 構(gòu)建人工神經(jīng)元的想法已經(jīng)存在了至少60年。在20世紀(jì)50年代,,弗蘭克·羅森布拉特創(chuàng)造了一個(gè)由電機(jī),,撥號盤和檢光器組成的“感知器”。通過訓(xùn)練,,該感知器可以成功地區(qū)別基本的形狀,。但早期的神經(jīng)網(wǎng)絡(luò)可以模擬的神經(jīng)元數(shù)量是極其有限的,這也意味著,,他們不能識別復(fù)雜的模式,。在過去的十年,三個(gè)方面的發(fā)展使得深度學(xué)習(xí)成為了可能,。 首先,,多倫多大學(xué)的 Geofffrey Hinton 和其他研究人員在軟件神經(jīng)元方面取得了突破性的進(jìn)展。軟件神經(jīng)元可以通過分層來訓(xùn)練自己,。(Hinton 現(xiàn)在的精力主要在多倫多大學(xué)與 Google)第一層神經(jīng)元將學(xué)習(xí)如何區(qū)分基本特征,,比如說邊緣或者輪廓信息(這些信息有數(shù)以百萬計(jì)的數(shù)據(jù)點(diǎn))。一旦該層學(xué)習(xí)到如何準(zhǔn)確地識別這些東西,,它就會把這些信息傳送到下一層,,通過訓(xùn)練自身從而識別更復(fù)雜的特征,例如鼻子或耳朵,。然后,,該層信息被送到另一層,,通過繼續(xù)訓(xùn)練自身以識別更高級別的抽象信息等等,一層接著一層,,這就是深度學(xué)習(xí)中“深度”的含義,,直到系統(tǒng)可以可靠地識別非常復(fù)雜的模式,例如人臉,。 第二個(gè)對 AI 技術(shù)進(jìn)步起到作用的是大量可用的數(shù)據(jù)的獲取,。快速數(shù)字化已經(jīng)導(dǎo)致了大規(guī)模數(shù)據(jù)的產(chǎn)生,,數(shù)據(jù)就是用于訓(xùn)練深度學(xué)習(xí)系統(tǒng)的氧氣,。經(jīng)過幾次演示如何辨別物品之后,孩子們就能夠挑選東西了,。然而,,AI 機(jī)器需要進(jìn)行無數(shù)次的實(shí)驗(yàn)訓(xùn)練才可以。深度學(xué)習(xí)本質(zhì)上是使用蠻力的方式來教會機(jī)器如何辨別一個(gè)東西,,以及東西是什么,。我們通過使用1900萬張貓的圖片來訓(xùn)練我們的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),通過訓(xùn)練我們得到了概率,,排除了傾向,,最終我們的軟件神經(jīng)元得到了統(tǒng)計(jì)學(xué)意義上判斷貓的顯著因素,也就是我們的系統(tǒng)能夠辨別貓了,。這就是為什么大數(shù)據(jù)是如此的重要原因——沒有它,,深度學(xué)習(xí)無法進(jìn)行工作。 最后一點(diǎn)是,,由斯坦福大學(xué)吳恩達(dá)(現(xiàn)在在百度)領(lǐng)導(dǎo)的團(tuán)隊(duì)在意識到圖像處理單元芯片,,也就是 GPU(發(fā)明 GPU 的初衷是為了處理視頻游戲的圖像)可以被用于深度學(xué)習(xí)之后,他們?nèi)〉昧送黄菩缘倪M(jìn)展,。直到最近,,典型的計(jì)算機(jī)芯片依然是一次只能處理一個(gè)事件,但是 GPU 設(shè)計(jì)初衷就是用于并行計(jì)算的,。使用這些芯片運(yùn)行擁有幾百萬個(gè)連接的神經(jīng)網(wǎng)絡(luò),,我們可以在幾個(gè)數(shù)量級上并行的加速深度學(xué)習(xí)系統(tǒng)的訓(xùn)練與能力。以前一臺機(jī)器需要數(shù)周的訓(xùn)練時(shí)間來完成某項(xiàng)任務(wù),,現(xiàn)在只需要一天就可以了,。 目前最先進(jìn)的深度學(xué)習(xí)網(wǎng)絡(luò)是由數(shù)百萬個(gè)模擬神經(jīng)元組成的,它們之間有數(shù)十億個(gè)鏈接,,并且可以通過無監(jiān)督學(xué)習(xí)方式來訓(xùn)練,。這是人工智能的最有效的實(shí)際應(yīng)用,雖然還沒有被設(shè)計(jì)出來,。對于某些任務(wù),,最好的深度學(xué)習(xí)系統(tǒng)是與人類能力相當(dāng)?shù)哪J阶R別器,,該技術(shù)正在從研究實(shí)驗(yàn)室走向工業(yè)界。 深度學(xué)習(xí)系統(tǒng) 1.0 早期深度學(xué)習(xí)已經(jīng)取得了一些令人印象深刻的成果,。如果我把它類比到個(gè)人計(jì)算機(jī),,深度學(xué)習(xí)系統(tǒng)就是處于綠色和黑色 DOS 界面的演變階段。目前,,大量的時(shí)間和精力花在深度學(xué)習(xí)前期過程——例如清洗數(shù)據(jù),,標(biāo)記數(shù)據(jù)和解釋數(shù)據(jù),而不是學(xué)習(xí)深度學(xué)習(xí)模型,。但是在接下來的幾年中,,初創(chuàng)企業(yè)和成熟的公司將開始發(fā)布商業(yè)解決方案,用于構(gòu)建生產(chǎn)環(huán)境的深度學(xué)習(xí)應(yīng)用程序,。通過利用一些像 TensorFlow 等的開源框架,,這些解決方案將大大降低創(chuàng)建復(fù)雜深度學(xué)習(xí)系統(tǒng)的工作量、時(shí)間以及成本,。他們將一起構(gòu)成深度學(xué)習(xí)操作系統(tǒng)的基礎(chǔ),。 深度學(xué)習(xí)操作系統(tǒng)將廣泛采用實(shí)際的 AI 系統(tǒng)。Windows 操作系統(tǒng)與 Mac 操作系統(tǒng)已經(jīng)允許普通用戶使用計(jì)算機(jī)與 Saas 功能來訪問云端,,同樣,在未來幾年,,科技公司也將大力推廣深度學(xué)習(xí)技術(shù),。最終,深度學(xué)習(xí)操作系統(tǒng)將使那些不是計(jì)算機(jī)科學(xué)家或者自然語言處理研究人員的用戶,,同樣也可以使用深度學(xué)習(xí)來解決現(xiàn)實(shí)生活中的問題,,如檢測疾病而不單單是識別貓。 構(gòu)建深度學(xué)習(xí)操作系統(tǒng)的第一批新公司將致力于數(shù)據(jù),,軟件和硬件方面的解決方案,。 數(shù)據(jù):獲得高質(zhì)量的大規(guī)模數(shù)據(jù)是采用深度學(xué)習(xí)技術(shù)所面臨的最大障礙。但是會出現(xiàn)相應(yīng)的服務(wù)商和軟件平臺來處理數(shù)據(jù)問題,。相關(guān)公司已經(jīng)建立了自己內(nèi)部的智能平臺,,該平臺可以幫助人們快速標(biāo)記數(shù)據(jù)。未來的數(shù)據(jù)標(biāo)記平臺將嵌入到應(yīng)用程序的設(shè)計(jì)中,,這樣通過使用產(chǎn)品產(chǎn)生的數(shù)據(jù),,就可以用來訓(xùn)練我們的系統(tǒng)。而且未來也將會產(chǎn)生新的服務(wù)型公司,,這些公司將標(biāo)注任務(wù)外包給低成本國家,,以及通過合成手段來創(chuàng)建標(biāo)簽數(shù)據(jù)。 軟件:我認(rèn)為在兩個(gè)主要領(lǐng)域中會有創(chuàng)新產(chǎn)生,。 1)神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)和編程,。不同的深度學(xué)習(xí)架構(gòu),,例如 CNN 和 RNN,支持不同類型的應(yīng)用(圖像,、文本等),。有時(shí)候也會使用神經(jīng)網(wǎng)絡(luò)架構(gòu)的組合。至于訓(xùn)練,,許多應(yīng)用程序?qū)⑹褂脵C(jī)器學(xué)習(xí)算法,、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)或無監(jiān)督學(xué)習(xí)的組合來解決應(yīng)用程序的不同子部分,。我預(yù)測有人將構(gòu)建一個(gè)機(jī)器學(xué)習(xí)引擎來提供解決方案,,它將檢查應(yīng)用程序,訓(xùn)練數(shù)據(jù)集,,提供基礎(chǔ)架構(gòu)資源等,,并推薦使用正確的架構(gòu)和算法。 2)可重用的神經(jīng)網(wǎng)絡(luò)模塊的市場,。如上所述,,神經(jīng)網(wǎng)絡(luò)中的不同層會學(xué)習(xí)不同的概念,然后彼此之間建立一些聯(lián)系,。這種架構(gòu)自然而然地創(chuàng)造了共享和重用已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)的模型的機(jī)會,。已經(jīng)訓(xùn)練好的能夠識別邊緣的虛擬神經(jīng)元,本來該神經(jīng)元是被用來識別貓的臉,,但是也可以被重用來識別人臉,。TensorFlow 已經(jīng)成為了最流行的深度學(xué)習(xí)框架,它支持整個(gè)子圖組件的重用,。很快,,機(jī)器學(xué)習(xí)專家社區(qū)將會將會貢獻(xiàn)開源模塊,而這一舉動(dòng)很可能會創(chuàng)造出機(jī)器學(xué)習(xí)版本的 GitHub 與 Stack Overflow,。 硬件:為開發(fā)人員尋找 GPU,,CPU,云資源的最佳組合,;確定并行化的級別,;以及分析執(zhí)行成本。這為平臺和服務(wù)的公司創(chuàng)造了機(jī)會,,它們將為訓(xùn)練任務(wù)推薦正確的基礎(chǔ)設(shè)施,。此外,將會有公司專門在深度學(xué)習(xí)硬件方面提供基礎(chǔ)設(shè)施服務(wù),,如協(xié)調(diào),,橫向擴(kuò)展,管理和負(fù)載均衡,。此外,,我希望老牌公司和初創(chuàng)公司能夠推出自己的深度學(xué)習(xí)優(yōu)化芯片,。 這些只是一些可能性。我確信還有更多的創(chuàng)新思想存在于其他創(chuàng)業(yè)家的腦海當(dāng)中,,因?yàn)檫@項(xiàng)技術(shù)的愿景是無比光明的,。我們正在開始建立能夠自我學(xué)習(xí)的機(jī)器,并且這些機(jī)器能夠做出一些明智的判斷,。 本文作者 Aditya Singh 是 Foundation Capital 的合伙人,,專注于基礎(chǔ)設(shè)施(網(wǎng)絡(luò)規(guī)模和企業(yè)),安全和服務(wù)方面的投資,。 本文由 AI100 編譯,,轉(zhuǎn)載需得到本公眾號同意。 編譯:AI100 原文鏈接:https:///2017/01/deep-learning-will-radically-change-the-ways-we-interact-with-technology |
|