久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

深度學(xué)習(xí)發(fā)展簡(jiǎn)要筆記

 快讀書(shū)館 2017-12-17

來(lái)源:非正式組織

概要:在Yann LeCun、Yoshua Bengio和Geoffrey Hinton三巨頭nature深度學(xué)習(xí)綜述《deep learning》文章中提到,,這段期間神經(jīng)網(wǎng)絡(luò)模型被主流的計(jì)算機(jī)視覺(jué)和學(xué)術(shù)界所拋棄,。


一,、前言


深度學(xué)習(xí)的發(fā)展大致分為這么幾個(gè)學(xué)期:


  • 萌芽期:從BP算法的發(fā)明(1970s-1980s)到2006年期間,。


  • 迅速發(fā)展期:從2006年棧式自編碼器+BP微調(diào)提出之后,。


  • 爆發(fā)期:從2012年Hintont團(tuán)隊(duì)的Alexnet模型在ImageNet競(jìng)賽取得驚人成績(jī)之后,。


萌芽期


在Yann LeCun,、Yoshua Bengio和Geoffrey Hinton三巨頭nature深度學(xué)習(xí)綜述《deep learning》文章中提到,這段期間神經(jīng)網(wǎng)絡(luò)模型被主流的計(jì)算機(jī)視覺(jué)和學(xué)術(shù)界所拋棄,。


這期間,學(xué)者們?cè)噲D用有監(jiān)督學(xué)習(xí)的方式訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),然而方法不是十分奏效,陷入了困境,在Andrew的教程中可以找到大概這幾點(diǎn)原因:數(shù)據(jù)獲取


  • 數(shù)據(jù)獲取問(wèn)題。有監(jiān)督訓(xùn)練依賴于有標(biāo)簽的數(shù)據(jù)才能進(jìn)行訓(xùn)練,。然而有標(biāo)簽的數(shù)據(jù)通常是稀疏的,因此對(duì)于許多問(wèn)題,,很難獲得足夠多的樣本來(lái)擬合一個(gè)復(fù)雜模型的參數(shù),。例如,,考慮到深度網(wǎng)絡(luò)具有強(qiáng)大的表達(dá)能力,在不充足的數(shù)據(jù)上進(jìn)行訓(xùn)練將會(huì)導(dǎo)致過(guò)擬合,。


  • 局部極值問(wèn)題,。使用監(jiān)督學(xué)習(xí)方法來(lái)對(duì)淺層網(wǎng)絡(luò)(只有一個(gè)隱藏層或者沒(méi)有隱藏層)進(jìn)行訓(xùn)練通常能夠使得參數(shù)收斂到合理的范圍內(nèi),。但是當(dāng)用這種方法來(lái)訓(xùn)練深度網(wǎng)絡(luò)的時(shí)候,并不能取得很好的效果,。特別的,,使用監(jiān)督學(xué)習(xí)方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時(shí)候,通常會(huì)涉及到求解一個(gè)高度非凸的優(yōu)化問(wèn)題,。對(duì)深度網(wǎng)絡(luò)而言,,這種非凸優(yōu)化問(wèn)題的搜索區(qū)域中充斥著大量“壞”的局部極值,因而使用梯度下降法(或者像共軛梯度下降法,,L-BFGS等方法)效果并不好,。


  • 梯度彌散問(wèn)題(或者梯度消失)。梯度下降法在使用隨機(jī)初始化權(quán)重的深度網(wǎng)絡(luò)上效果不好的技術(shù)原因是:梯度會(huì)變得非常小,。具體而言,,當(dāng)使用反向傳播方法計(jì)算導(dǎo)數(shù)的時(shí)候,隨著網(wǎng)絡(luò)的深度的增加,,反向傳播的梯度(從輸出層到網(wǎng)絡(luò)的最初幾層)的幅度值會(huì)急劇的減小,,結(jié)果就造成了整體的損失函數(shù)相對(duì)于最初幾層的權(quán)重的導(dǎo)數(shù)特別小。這樣,,當(dāng)使用梯度下降法的時(shí)候,,最初幾層的權(quán)重變化非常緩慢,以至于他們不能夠從樣本中進(jìn)行有效的學(xué)習(xí),。這種問(wèn)題通常被稱為“梯度的彌散”或者梯度消失,。


因?yàn)橐恢睕](méi)有找到有效的解決這些問(wèn)題的方法,這期間,,深度神經(jīng)網(wǎng)絡(luò)的發(fā)展一直不溫不火,。或者說(shuō)在2001年Hochreiter的Gradient flow in recurrent nets: the difficulty of learning long-term dependencies(好像是這篇)提出了神經(jīng)網(wǎng)絡(luò)存在的幾個(gè)問(wèn)題后,,在接下來(lái)的幾年內(nèi)神經(jīng)網(wǎng)絡(luò)的發(fā)展陷入了低谷,。而那幾年流行的機(jī)器學(xué)習(xí)算法是SVM和集成模型(隨機(jī)森林、adaboost等),。


迅速發(fā)展期


2006年hinton在nature上發(fā)表了一篇文章Reducing the dimensionality of data with neural networks,,針對(duì)上面提到的三個(gè)深度學(xué)習(xí)的問(wèn)題,提出了棧式自編碼器+BP微調(diào)的解決方案,。在一定程度上解決了上面的三個(gè)問(wèn)題,。


  • 棧式自編碼神經(jīng)網(wǎng)絡(luò)是無(wú)監(jiān)督學(xué)習(xí)算法。因而不需要規(guī)模很大的有標(biāo)簽樣本,。


  • 經(jīng)過(guò)自編碼神經(jīng)網(wǎng)絡(luò)訓(xùn)練后的參數(shù)已經(jīng)落在一個(gè)較優(yōu)的位置上,,從這個(gè)位置開(kāi)始BP微調(diào),不用擔(dān)心局部極值問(wèn)題,。


  • 自編碼神經(jīng)網(wǎng)絡(luò)訓(xùn)練已經(jīng)使得深度網(wǎng)絡(luò)的前幾層具有表達(dá)能力了,,比如可以提取出圖片的邊,,局部組建等等,即使有梯度彌散問(wèn)題,,前幾層參數(shù)不再更新,也不會(huì)影響最終深度網(wǎng)絡(luò)的表達(dá)能力,。


從此,,深度學(xué)習(xí)開(kāi)啟嶄新的浪潮。


爆發(fā)期


在12年的ILSVRC競(jìng)賽中,,Hinton團(tuán)隊(duì)的Alexnet模型Imagenet classification with deep convolutional neural networks將1000類(lèi)分類(lèi)的top-5誤差率降低到了15.3%,,碾壓了第二名使用SVM算法的26.2%,開(kāi)啟了深度學(xué)習(xí)的革命,,從此之后,,深度學(xué)習(xí)走上了指數(shù)式的發(fā)展道路。


回到Hilton團(tuán)隊(duì)的Alexnet模型上,,僅僅使用了有監(jiān)督的訓(xùn)練,,貌似沒(méi)涉及無(wú)監(jiān)督的預(yù)訓(xùn)練。不是在之前說(shuō)有監(jiān)督的深度學(xué)習(xí)訓(xùn)練存在很多問(wèn)題嗎,,大概是因?yàn)檫@幾條原因,,導(dǎo)致了有監(jiān)督訓(xùn)練的可行:


  • 大規(guī)模標(biāo)注數(shù)據(jù)的出現(xiàn)。在ILSVRC使用的數(shù)據(jù)集包括120萬(wàn)的訓(xùn)練圖片,,5萬(wàn)張驗(yàn)證圖片和15萬(wàn)張測(cè)試圖片,。這些圖片都是有標(biāo)注的(屬于1000類(lèi)),而在imagenet出現(xiàn)之前,,這樣規(guī)模的標(biāo)注數(shù)據(jù)是不存在的,。


  • 對(duì)于局部極值的問(wèn)題,nature綜述中,,三個(gè)大牛作者的說(shuō)法是:對(duì)于深度網(wǎng)絡(luò)來(lái)說(shuō),,局部極值從來(lái)都不是一個(gè)問(wèn)題,從任意的初始參數(shù)值開(kāi)始訓(xùn)練網(wǎng)絡(luò),,最后都能達(dá)到相似的分類(lèi)效果,。這也是被最近的理論和實(shí)踐所證明的。


  • 對(duì)于梯度彌散導(dǎo)致的收斂速度慢的問(wèn)題,,Alexnet模型的兩大利器:ReLu激活函數(shù)和GPU并行加速,,前者使SGD有6倍的加速,,后者使用兩塊CTX580GPU也極大的加快了SGD的收斂速度,,兩者的效果相乘,,使得無(wú)監(jiān)督預(yù)訓(xùn)練幾乎是多余的了,,梯度彌散問(wèn)題也不再是一個(gè)很大問(wèn)題,。


總結(jié)


對(duì)于06-12年期間的深度神經(jīng)網(wǎng)絡(luò)主要以無(wú)監(jiān)督預(yù)訓(xùn)練為主流,,從12年以后,,這時(shí)數(shù)據(jù)庫(kù)足夠大(上萬(wàn)級(jí)別),,模型足夠先進(jìn)(ReLU激活函數(shù),dropout等等),,同時(shí)計(jì)算速度足夠快(GPU)加速,,使得無(wú)監(jiān)督預(yù)訓(xùn)練(自編碼神經(jīng)網(wǎng)絡(luò))在很多應(yīng)用場(chǎng)景中失去了存在的價(jià)值,有監(jiān)督訓(xùn)練已經(jīng)足夠完成任務(wù),。


一句話總結(jié),,06年的無(wú)監(jiān)督預(yù)訓(xùn)練開(kāi)啟了深度學(xué)習(xí)的紀(jì)元,在之后深度學(xué)習(xí)快速發(fā)展的過(guò)程中,,大數(shù)據(jù)的獲取,、計(jì)算機(jī)硬件的發(fā)展以及深度模型的升級(jí)使得有監(jiān)督訓(xùn)練重新走上舞臺(tái),無(wú)監(jiān)督訓(xùn)練也算是完成了歷史使命,。


那么預(yù)訓(xùn)練還有用嗎,?答案是肯定的,比如我們有一個(gè)分類(lèi)任務(wù),,數(shù)據(jù)庫(kù)很小,,這時(shí)還是需要通過(guò)預(yù)訓(xùn)練來(lái)避免過(guò)擬合的問(wèn)題,只不過(guò)預(yù)訓(xùn)練是通過(guò)在一個(gè)大的數(shù)據(jù)庫(kù)上,,通過(guò)有監(jiān)督來(lái)完成的,,這種有監(jiān)督預(yù)訓(xùn)加小的數(shù)據(jù)庫(kù)上的微調(diào)的模型稱為T(mén)ransfer learning。


未來(lái)智能實(shí)驗(yàn)室致力于研究互聯(lián)網(wǎng)與人工智能未來(lái)發(fā)展趨勢(shì),,觀察評(píng)估人工智能發(fā)展水平,,由互聯(lián)網(wǎng)進(jìn)化論作者,計(jì)算機(jī)博士劉鋒與中國(guó)科學(xué)院虛擬經(jīng)濟(jì)與數(shù)據(jù)科學(xué)研究中心石勇,、劉穎教授創(chuàng)建,。


未來(lái)智能實(shí)驗(yàn)室的主要工作包括:建立AI智能系統(tǒng)智商評(píng)測(cè)體系,開(kāi)展世界人工智能智商評(píng)測(cè),;開(kāi)展互聯(lián)網(wǎng)(城市)云腦研究計(jì)劃,,構(gòu)建互聯(lián)網(wǎng)(城市)云腦技術(shù)和企業(yè)圖譜,為提升企業(yè),,行業(yè)與城市的智能水平服務(wù),。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多