理論算法兩手抓,，UIUC助理教授孫若愚60頁長文綜述深度學(xué)習(xí)優(yōu)化

taotao_2016 2020-01-23

展開全文

選自 arXiv

作者：Ruoyu Sun

參與：魔王、杜偉

神經(jīng)網(wǎng)絡(luò)何時才算訓(xùn)練成功,？成功背后的原因是什么,？本文概述了用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的優(yōu)化算法和理論。

理論算法兩手抓,，UIUC助理教授孫若愚60頁長文綜述深度學(xué)習(xí)優(yōu)化

深度學(xué)習(xí)優(yōu)化方法都有哪些,？其理論依據(jù)是什么？最近,，來自伊利諾伊大學(xué)香檳分校（UIUC）的研究者孫若愚就此主題寫了一篇長達(dá) 60 頁的綜述論文,。

理論算法兩手抓，UIUC助理教授孫若愚60頁長文綜述深度學(xué)習(xí)優(yōu)化

UIUC 助理教授孫若愚（圖源：https://ise./directory/profile/ruoyus）
孫若愚現(xiàn)任 UIUC 助理教授,，本科畢業(yè)于北京大學(xué)數(shù)學(xué)系,，博士畢業(yè)于美國明尼蘇達(dá)大學(xué)。其主要研究方向為數(shù)據(jù)分析,。

個人主頁：https://ise./directory/profile/ruoyus
論文地址：https:///pdf/1912.08957.pdf

由于論文篇幅較長,，機(jī)器之心選取了部分內(nèi)容進(jìn)行編譯介紹，更多詳情參見原論文,。
這篇文章首先討論了梯度爆炸/消失問題以及更通用的譜控制問題,，并討論了一些實際解決方案，如初始化和歸一化方法,；其次,，本文綜述了神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中使用的一般優(yōu)化方法，如 SGD,、自適應(yīng)梯度方法和分布式方法,，還介紹了這些算法的現(xiàn)有理論結(jié)果。最后,，本文綜述了關(guān)于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的全局問題的研究,，包括糟糕的局部極小值上的結(jié)果、模式連接（mode connectivity）,、彩票假設(shè)和無限寬度分析,。
引言
本文的主題是了解成功訓(xùn)練神經(jīng)網(wǎng)絡(luò)的實用要素以及導(dǎo)致模型訓(xùn)練失敗的可能因素,。
假設(shè)你回到 1980 年，想使用神經(jīng)網(wǎng)絡(luò)解決圖像分類問題,。如果從頭開始訓(xùn)練,，那么你最初的幾次嘗試大概率無法得到合理的結(jié)果。是哪些本質(zhì)變化使算法奏效了呢,？整體來看,，（除了強(qiáng)大的硬件以外）你需要三樣?xùn)|西：恰當(dāng)?shù)纳窠?jīng)網(wǎng)絡(luò)、恰當(dāng)?shù)挠?xùn)練算法和恰當(dāng)?shù)挠?xùn)練 trick,。
恰當(dāng)?shù)纳窠?jīng)網(wǎng)絡(luò)
這包括神經(jīng)架構(gòu)和激活函數(shù),。對于神經(jīng)架構(gòu)，你可能想用至少具備 5 個層和足夠神經(jīng)元的卷積網(wǎng)絡(luò)來替換全連接網(wǎng)絡(luò),。為了得到更好的性能,，你可能想將網(wǎng)絡(luò)寬度增加到 20 甚至 100，并添加跳躍連接,。至于激活函數(shù),，ReLU 是不錯的起點(diǎn)，不過 tanh 和 swish 也可以,。
恰當(dāng)?shù)挠?xùn)練算法
使用 SGD 并堅持到最后是一個不錯的選擇,。經(jīng)過微調(diào)的常量步長已經(jīng)足夠好，而動量和自適應(yīng)步長還可以提供額外的好處,。
恰當(dāng)?shù)挠?xùn)練 trick
恰當(dāng)?shù)某跏蓟瘜﹂_始算法訓(xùn)練非常重要,。要想訓(xùn)練一個超過 10 層的網(wǎng)絡(luò)，通常需要用到兩個訓(xùn)練 trick：添加歸一化層,、添加跳躍連接。
這些設(shè)計選擇中哪些是必要的,？目前我們對一些設(shè)計選擇有所了解,，包括初始化策略、歸一化方法,、跳躍連接,、過參數(shù)化（大寬度）和 SGD，如下圖 1 所示,。
本文將優(yōu)化的益處大致分為三部分：控制利普希茨常數(shù)（Lipschitz constant）,，實現(xiàn)更快收斂，獲得更好的損失分布（landscape）,。但是還有很多難以理解的設(shè)計選擇,，最顯著的當(dāng)屬神經(jīng)架構(gòu)了。
現(xiàn)在我們似乎無法理解神經(jīng)架構(gòu)這一復(fù)雜系統(tǒng)的每一部分,，但目前已有的理解可以提供一些有用的見解,。

理論算法兩手抓,，UIUC助理教授孫若愚60頁長文綜述深度學(xué)習(xí)優(yōu)化

圖 1：成功訓(xùn)練神經(jīng)網(wǎng)絡(luò)的幾項主要設(shè)計選擇（已具備理論理解）。它們對算法收斂的三個方面產(chǎn)生影響：實現(xiàn)收斂,、實現(xiàn)更快收斂,、獲得更好的全局解。這三項相互關(guān)聯(lián),，這里只是大致的分類,。注意：存在其他重要的設(shè)計選擇，尤其是神經(jīng)架構(gòu),。目前我們并未在理論層面理解神經(jīng)架構(gòu),，因此本圖未包含該項。這些設(shè)計選擇還有其他好處,，如泛化（本圖同樣未包含該項）,。
為保持本綜述論文的簡潔性，本文將主要關(guān)注使用前饋神經(jīng)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)問題,，不討論更復(fù)雜的公式（如 GAN 和深度強(qiáng)化學(xué)習(xí)）,，也不涉及更復(fù)雜的架構(gòu)（如 RNN、注意力和膠囊網(wǎng)絡(luò)）,。在更寬泛的語境中,，監(jiān)督學(xué)習(xí)理論至少包含表示、優(yōu)化和泛化,，本文專注于優(yōu)化,，不過多討論表示和泛化。
本文的核心目標(biāo)是理解神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)（由多個變量連接構(gòu)成的參數(shù)化）對優(yōu)化算法設(shè)計和分析的影響,，優(yōu)化算法可以超出監(jiān)督學(xué)習(xí)范式,。
本文適合對神經(jīng)網(wǎng)絡(luò)優(yōu)化的理論理解感興趣的研究者。了解優(yōu)化方法及其基礎(chǔ)理論有助于讀者閱讀本文,。關(guān)于深度學(xué)習(xí)優(yōu)化的現(xiàn)有綜述文章針對的是一般的機(jī)器學(xué)習(xí)從業(yè)者,，如 Goodfellow 等人所著《深度學(xué)習(xí)》的第 8 章。這些綜述文章通常不深入討論優(yōu)化的理論層面,。而本文將更多地關(guān)注理論結(jié)果,，同時試圖讓無理論知識的讀者也能理解。本文盡可能用簡單的示例詮釋直觀概念,，而不是解釋定理的細(xì)節(jié),。
大方向：分解理論
研究理論時，分解是一種有用且常見的元方法,。本文首先簡要綜述優(yōu)化在機(jī)器學(xué)習(xí)中的作用,，然后討論如何分解深度學(xué)習(xí)優(yōu)化理論。
表示,、優(yōu)化和泛化
監(jiān)督學(xué)習(xí)的目標(biāo)是基于觀測樣本找出逼近底層函數(shù)的函數(shù),。第一步就是找到能夠表示期望函數(shù)的函數(shù)族（如神經(jīng)網(wǎng)絡(luò)）,；第二步是最小化特定損失函數(shù)，進(jìn)而確定函數(shù)的參數(shù),；第三步是使用第二步找到的函數(shù)在未見過的測試數(shù)據(jù)上執(zhí)行預(yù)測,，得到的誤差就是測試誤差。測試誤差可被分解為表示誤差,、優(yōu)化誤差和泛化誤差,，分別對應(yīng)這三個步驟導(dǎo)致的誤差。
在機(jī)器學(xué)習(xí)中,，「表示」,、「優(yōu)化」和「泛化」經(jīng)常被分開研究。例如,，在研究特定函數(shù)族的表示能力時,，我們通常不關(guān)心它們能否很好地解決優(yōu)化問題。在研究泛化誤差時,，我們通常假設(shè)找到了全局最優(yōu)解,。類似地，在研究優(yōu)化屬性時,，我們常常不會明確考慮泛化誤差（不過有時會假設(shè)表示誤差為零）,。
優(yōu)化問題的分解
深度學(xué)習(xí)優(yōu)化問題很復(fù)雜，需要進(jìn)一步分解,。優(yōu)化的過程可以分為三步：第一步是開始運(yùn)行算法,，使之收斂至合理的解，如駐點(diǎn),；第二步是使算法盡快收斂,；第三步是確保算法收斂至一個具備低目標(biāo)值的解（如全局最小值）。還有一個額外的步驟是獲取優(yōu)秀的測試準(zhǔn)確率,，但這超出了優(yōu)化范疇,，這里不過多討論。
簡言之,，本文將優(yōu)化問題劃分為三部分：收斂、收斂速度和全局質(zhì)量,。
文章結(jié)構(gòu)
本文第二章介紹了監(jiān)督學(xué)習(xí)范式下,，典型神經(jīng)網(wǎng)絡(luò)優(yōu)化問題的公式。
第三章介紹了反向傳播,，并分析了對神經(jīng)網(wǎng)絡(luò)梯度下降應(yīng)用經(jīng)典收斂分析的難度,。
第四章討論了訓(xùn)練神經(jīng)網(wǎng)絡(luò)的 trick，以及一些底層理論,。這些方法依賴于神經(jīng)網(wǎng)絡(luò),，打開了神經(jīng)網(wǎng)絡(luò)的黑箱,。具體而言，這部分討論了梯度爆炸/消失這一主要挑戰(zhàn),，以及更一般的譜控制（controlling spectrum）難題,，此外，第四章還綜述了主要的解決方案,，如初始化和歸一化方法,。
第五章討論了通用算法設(shè)計：將神經(jīng)網(wǎng)絡(luò)視作通用非凸優(yōu)化問題。具體而言,，這部分綜述了使用不同學(xué)習(xí)率的 SGD,、自適應(yīng)梯度方法、大規(guī)模分布式訓(xùn)練,、二階優(yōu)化方法,，以及現(xiàn)有的收斂和迭代復(fù)雜度結(jié)果。
第六章綜述了神經(jīng)網(wǎng)絡(luò)全局優(yōu)化方面的研究,，包括全局分布,、模型連接、彩票假設(shè)和無限寬度分析（如神經(jīng)切線核）,。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： taotao_2016 > 《it》

舉報/認(rèn)領(lǐng)