【導(dǎo)讀】深度學(xué)習(xí)與機(jī)器學(xué)習(xí)一個(gè)很重要的區(qū)別在于數(shù)據(jù)量的大小,。就目前大量的實(shí)驗(yàn)和工作證明,數(shù)據(jù)量的大小直接影響深度學(xué)習(xí)的性能,。我們都希望利用小的數(shù)據(jù)集,、簡單的算法就能取得不錯(cuò)的效果,但目前的事實(shí)是小數(shù)據(jù)集上使用深度學(xué)習(xí)往往容易過擬合,。本文中作者闡述了幾個(gè)大容量訓(xùn)練數(shù)據(jù)的場景來展示大數(shù)據(jù)對(duì)深度學(xué)習(xí)的重要性,。 作者 | Ida Jessie Sagina 編譯 | 專知 參與 | Yingying, Xiaowen Why go large with Data for Deep Learning? 我厭惡面條里的卷心菜,因此我挑出了卷心菜的碎片,。我是如何區(qū)分卷心菜和面條的呢,?如果不是想讓神經(jīng)網(wǎng)絡(luò)模擬人類,我們可能不會(huì)思考這個(gè)問題,。為了在神經(jīng)網(wǎng)絡(luò)上重現(xiàn)這個(gè)令人驚嘆的人類智慧,,人們付出了巨大的努力,。 機(jī)器玩跳棋和國際象棋,并贏了人類的冠軍,。因此我們可以設(shè)想,,如果人造系統(tǒng)能像我們一樣學(xué)習(xí),它們會(huì)變得多么有用,并在現(xiàn)實(shí)生活中服務(wù)于人,,比如自動(dòng)駕駛汽車,。 學(xué)習(xí)的演變: 人工智能的概念雖然設(shè)想的是模擬人的行為,但很快范圍就被縮小為預(yù)測和分類,。 決策樹,,聚類和貝葉斯網(wǎng)絡(luò)可用于預(yù)測用戶音樂偏好和區(qū)分垃圾郵件。雖然這種傳統(tǒng)機(jī)器方法為許多分類問題提供了一種簡單的解決方案,,但更好的方法是像人類一樣無縫尋求識(shí)別語音,,圖像,音頻,,視頻和文本,。這催生了各種深度學(xué)習(xí)方法,它主要依賴于有史以來最好的學(xué)習(xí)機(jī)制 - 人工神經(jīng)網(wǎng)絡(luò),。人工神經(jīng)網(wǎng)絡(luò)近來使Facebook,,亞馬遜,谷歌等科技巨頭正逐步應(yīng)用深度學(xué)習(xí),。弗蘭克羅森布拉特在1957年設(shè)計(jì)了第一個(gè)模擬單個(gè)神經(jīng)元活動(dòng)的rst感知器,。 雖然人類大腦的工作機(jī)制本身是相當(dāng)難以捉摸的,但我們知道,,大腦通過樹突層中的電信號(hào)的傳播識(shí)別物體和聲音,,并且在跨越閾值時(shí)觸發(fā)正信號(hào)。下圖所示的感知器模擬了這個(gè)過程,。 當(dāng)輸入的加權(quán)總和超過閾值時(shí),,將會(huì)觸發(fā)輸出。這只是一個(gè)單層感知機(jī),,它只能用于線性可分的函數(shù),。并像繪制一條線一樣容易,一邊是正例,,一邊是負(fù)例,。但現(xiàn)實(shí)世界中并非如此。 圖像識(shí)別——神經(jīng)網(wǎng)絡(luò)應(yīng)用的主要領(lǐng)域之一,,涉及識(shí)別隱藏在數(shù)據(jù)像素后面的大量特征,。為了獲取這些特征,采用了多層感知機(jī)。和單層感知機(jī)一樣,,將訓(xùn)練數(shù)據(jù)輸入到輸入層,,經(jīng)過輸入層與輸出層之間的許多“隱藏層”之后,將在輸出層得到最終的結(jié)果,。 隱藏層的數(shù)量決定了學(xué)習(xí)的深度,,并且在試錯(cuò)的基礎(chǔ)上找到正確的層數(shù)。這些神經(jīng)網(wǎng)絡(luò)中的“學(xué)習(xí)”部分是這些層調(diào)整最初分配給它們的權(quán)重的方式,。 雖然有各種學(xué)習(xí)方式,,但最常用的是反向傳播,將輸出與訓(xùn)練數(shù)據(jù)的誤差進(jìn)行比較,,并計(jì)算輸出中的誤差,。然后,緊靠輸出層的層會(huì)調(diào)整其權(quán)重,,導(dǎo)致后續(xù)內(nèi)層中的權(quán)重調(diào)整,,直到錯(cuò)誤率降低,。 下圖形象的展示了隱藏層干了什么,。 就像在示例中看到的那樣,每個(gè)圖層都對(duì)應(yīng)一個(gè)特定的特征,,但解釋隱藏層是如何工作的并不容易,,這是因?yàn)樵诘湫偷臒o監(jiān)督學(xué)習(xí)情景中,隱藏層被比作黑匣子,,它們做它們做的事情,,但每層背后的推理仍然像大腦一樣神秘。 深度學(xué)習(xí)與其他機(jī)器學(xué)習(xí)方法有什么不同,? 答案是深度學(xué)習(xí)所涉及的訓(xùn)練數(shù)據(jù)量和所需的計(jì)算能力,。 在詳細(xì)闡述差異之前,我們必須明白,,深度學(xué)習(xí)是實(shí)現(xiàn)機(jī)器學(xué)習(xí)的許多手段之一,。由于需要最低程度的人工干預(yù),深度學(xué)習(xí)只是其中的一種,,并迅速普及,。 也就是說,傳統(tǒng)的ML模型需要一個(gè)稱為特征提取的過程,,程序員必須明確地告訴某個(gè)特定訓(xùn)練集中必須查找哪些特征,。此外,當(dāng)任何一個(gè)特征被遺漏時(shí),,機(jī)器學(xué)習(xí)模型無法識(shí)別手中的物體,。 另一方面,深度學(xué)習(xí)需要大量不同實(shí)例的數(shù)據(jù)集,,模型從中學(xué)習(xí)要查找的特征并生成帶有概率向量的輸出,。 很好,!那么,為什么我們不早點(diǎn)開始深度學(xué)習(xí)呢,? 多層感知器和反向傳播方法是在20世紀(jì)80年代在理論上設(shè)計(jì)的,,但由于缺乏大量的數(shù)據(jù)和高處理能力,逐漸沉寂了,。自大數(shù)據(jù)和Nvidia超級(jí)強(qiáng)大的GPU出現(xiàn)以來,,深度學(xué)習(xí)的潛力正在被不斷挖掘。 現(xiàn)在,,很多關(guān)于深度學(xué)習(xí)的性能能否提升取決于數(shù)據(jù)集的大小,。盡管有人聲稱更小但豐富的數(shù)據(jù)集可以做到這一點(diǎn),但模型學(xué)習(xí)的參數(shù)越多,,或者手中的問題越復(fù)雜,,訓(xùn)練所需的數(shù)據(jù)也會(huì)增加。否則,,具有更多維數(shù)和小數(shù)據(jù)的問題會(huì)導(dǎo)致過擬合,,這意味著你的模型已經(jīng)雖然實(shí)際取得了結(jié)果,但也僅適用于你訓(xùn)練的集合,,深度網(wǎng)絡(luò)失去作用,。 為了驗(yàn)證大數(shù)據(jù)的必要性,我們來看看三個(gè)大容量訓(xùn)練數(shù)據(jù)的成功應(yīng)用場景: · Facebook上著名的現(xiàn)代人臉識(shí)別系統(tǒng)稱為“DeepFace”,,部署了一套4000多個(gè)身份的4百萬面部圖像,,并且在帶標(biāo)簽的數(shù)據(jù)集上達(dá)到了97.35%的準(zhǔn)確率。他們的研究論文在許多地方重申了這樣的大型訓(xùn)練集如何幫助克服過度擬合問題,。 · Alex Krizhevsky - AlexNet開發(fā)者,,在加入Google Brain之后,與Geoffrey Hinton等其他學(xué)者,,描述了一個(gè)涉及手眼協(xié)調(diào)的機(jī)器人抓握學(xué)習(xí)模型,。為了訓(xùn)練他們的網(wǎng)絡(luò),共收集了800,000次抓握嘗試,,機(jī)器人手臂成功地學(xué)習(xí)了更多種類的抓握策略,。 · 特斯拉的AI總監(jiān)Andrej Karpathy在斯坦福大學(xué)博士學(xué)位期間使用神經(jīng)網(wǎng)絡(luò)進(jìn)行密集標(biāo)注 - 識(shí)別圖像的所有部分,而不僅僅是貓,!該團(tuán)隊(duì)已經(jīng)使用了94,000張圖片和410萬個(gè)基于區(qū)域的標(biāo)注,,從而提高了速度和準(zhǔn)確度。 Andrej還聲稱他們的座右銘是保持他的數(shù)據(jù)量大,,算法簡單,,標(biāo)簽少。 那么你的數(shù)據(jù)有多大? 另一方面,,一些人認(rèn)為數(shù)據(jù)集并不用太大,。最近的一篇關(guān)于使用小數(shù)據(jù)的深度人臉表示的研究論文發(fā)現(xiàn),在人臉識(shí)別的問題,,用10,000個(gè)訓(xùn)練樣本和用500,000個(gè)訓(xùn)練樣本的效果是基本一致的,。但對(duì)于目前涉及深度學(xué)習(xí)的其他地方(自動(dòng)駕駛車輛中的語音識(shí)別,車輛,,行人和地標(biāo)識(shí)別,,自然語言處理和醫(yī)學(xué)成像)尚未證明。遷移學(xué)習(xí)的一個(gè)新方面也被發(fā)現(xiàn)需要大量的預(yù)先訓(xùn)練的數(shù)據(jù)集,。 直到上述言論被證實(shí),,如果你希望應(yīng)用神經(jīng)網(wǎng)絡(luò),例如Microsoft的銷售團(tuán)隊(duì)如何使用神經(jīng)網(wǎng)絡(luò)來推薦要聯(lián)系的潛在客戶或需要推薦的產(chǎn)品,,則需要訪問大量的數(shù)據(jù),。百度前首席數(shù)據(jù)科學(xué)家,深受歡迎的深度學(xué)習(xí)專家Andrew Ng將深度學(xué)習(xí)模型與火箭發(fā)動(dòng)機(jī)相提并論,,這些火箭發(fā)動(dòng)機(jī)需要大量的數(shù)據(jù)燃料,。 現(xiàn)在,當(dāng)我從面條中取出卷心菜時(shí)(感謝我驚人的大腦),,為什么不開始為你的人工神經(jīng)網(wǎng)絡(luò)提供豐富的數(shù)據(jù),! 原文鏈接: https:///why-go-large-with-data-for-deep-learning-12eee16f708 |
|