編輯:Sophia 計算機視覺聯(lián)盟 報道 | 公眾號 CVLianMengAI博士筆記系列推薦: 作為 2019 年最后一場重量級的人工智能國際學術頂會,,NeurIPS 2019 所反映出的一些人工智能研究趨勢,,例如神經網絡可解釋性、深度學習新方法,、神經科學等等,,想必對于大家在新的一年開展研究工作,具有一定的借鑒和參考價值,。 NeurIPS 2019 共舉辦 51 場研討會,,接收了 1,428 篇論文,以及有超過 13,000 名參會者,,可謂萬眾矚目,。 來自英偉達的工程師小姐姐 Chip Huyen 基于自己的參會體驗,較為全面地總結了 NeurIPS 2019 反映的關鍵研究趨勢,。 下面我們一一來看: 一,、 解構深度學習的黑盒最近,研究人員對深度學習的局限性進行了大量的反思,,以下為幾個例子: Facebook 的人工智能總監(jiān)表達了對算力達到瓶頸的擔憂,。人工智能企業(yè)不應該僅僅寄希望于通過更大的深度學習系統(tǒng)來不斷取得進步,因為「現(xiàn)在,,一個實驗可能要花費七位數(shù)的金錢,,但現(xiàn)實情況不會讓這一數(shù)字增長到九位數(shù)或十位數(shù),因為沒人負擔得起這樣的開銷」。 Yoshua Bengio 指出以 Gary Marcus 為代表的一些人經常強調深度學習的局限性,,他將 Gary Marcus 的觀點總結為「你們看,,我就說深度學習不行吧」,而 Gary Marcus 后來則反駁了這種說法,。 針對這一趨勢,,Yann Lecun 談到:「我不明白,為什么突然之間,,我們看到了許多新聞和推特聲稱人工智能的進步正在放緩,,或稱深度學習正在碰壁。在過去的五年中,,我?guī)缀踉诿恳淮窝葜v上都會指出這兩個局限和挑戰(zhàn),。所以,認識到這些局限性并不是什么新鮮事,。而且,,實際上人工智能的發(fā)展并沒有慢下來」。 在這種大環(huán)境下,,我們很高興看到探究深度學習背后的理論(深度學習為何有效,?它是如何工作的?)的論文的數(shù)量迎來了爆炸式增長,。 在今年的 NeurIPS 上,,有 31 篇融合了各種技術的論文。本屆大會的杰出新方向論文獎授予了 Baishnavh 和 J.Zico Kolter 的論文「Uniform convergence may be unable to explain generalization in deep learning」 他們認為一致收斂理論本身并不能解釋深度學習的泛化能力,。隨著數(shù)據(jù)集的規(guī)模增大,,泛化差異(Generalization Gap,模型在見過和未見過的數(shù)據(jù)上的性能差異)的理論界限也會增大,,而經驗泛化差異則會減小,。 - 論文鏈接:https:///abs/1902.04742
圖 1:泛化差異和泛化邊界隨訓練集規(guī)模變化的情況神經切線核(NTK)是近年來提出的一個研究方向,旨在理解神經網絡的優(yōu)化和泛化,。有關 NTK 的討論多次出現(xiàn)在本屆 NeurIPS 的亮點演講中,我在 NeurIPS 期間也與其他人多次談到 NTK,。Arthur Jacot 等人提出了「全連接的神經網絡等價于寬度無限時的高斯過程」這一眾所周知的概念,,能夠在函數(shù)空間而不是參數(shù)空間中研究它們的訓練動力學(Training Dynamics)。他們證明了「在人工神經網絡參數(shù)梯度下降的過程中,,網絡函數(shù)(將輸入向量映射到輸出向量)遵循關于一種新的核——NTK的函數(shù)代價的核梯度」,。他們還表明,當我們使用梯度下降法訓練一個有限層版本的 NTK 時,,其性能將收斂到寬度無限的 NTK 上,,然后在訓練中性能保持不變。下面,我們列出本屆 NeurIPS 上一些基于 NTK 構建的論文:- Learning and Generalization in Overparameterized Neural Networks, Going Beyond Two Layers,,論文鏈接:https:///abs/1811.04918
- On the Inductive Bias of Neural Tangent Kernels,,論文鏈接:http://papers./paper/9449-on-the-inductive-bias-of-neural-tangent-kernels
然而,許多人認為 NTK 不能完全解釋深度學習,。一個神經網絡要接近 NTK 狀態(tài)需要具備學習率小,、初始化寬度大、無權值衰減等超參數(shù)設置,,而在實際訓練中并不經常使用這樣的設置,。NTK 的觀點還認為,神經網絡只會像核方法一樣泛化,。但根據(jù)我們的經驗來看,,它們可以更好地泛化。Colin Wei 等人的論文「Regularization Matters: Generalization and Optimization of Neural Nets v.s. their Induced Kernel」從理論上證明了帶有權值衰減的神經網絡具有比 NTK 更好的泛化能力,,這說明研究 L2 正則化神經網絡可以為泛化問題提供更好的研究思路,。此論文鏈接:- https:///Conferences/2019/Schedule?showEvent=14579
本屆 NeurIPS 上也有幾篇論文說明了,傳統(tǒng)的神經網絡可以具有比 NTK 更好的性能:- What Can ResNet Learn Efficiently, Going Beyond Kernels,?論文鏈接:http://papers./paper/9103-what-can-resnet-learn-efficiently-going-beyond-kernels
- Limitations of Lazy Training of Two-layers Neural Network,,論文鏈接:http://papers./paper/9111-limitations-of-lazy-training-of-two-layers-neural-network
許多論文分析了神經網絡的不同組成部分的表現(xiàn)。比如,,Chulhee Yun 等人提出了「Small ReLU networks are powerful memorizers: a tight analysis of memorization capacity」,,說明了「帶有 O(sqrt(N)) 個隱藏節(jié)點的 3 層的 ReLU 網絡可以完美地記憶大多數(shù)帶有 N 個數(shù)據(jù)點的數(shù)據(jù)集」。- 論文鏈接:https:///abs/1810.07770
Shirin Jalali 等人在論文「Efficient Deep Learning of Gaussian Mixture Models」中,,開篇就提出了這樣一個問題:通用近似定理(Universal approximation theorem,,一譯萬能逼近定理)表明,任何正則函數(shù)都可以通過一個單隱層神經網絡近似,。- 論文鏈接:https://papers./paper/8704-efficient-deep-approximation-of-gmms
那么,,增加深度能讓它更有效率嗎?他們說明了,,在高斯混合模型的最優(yōu)貝葉斯分類的情況下,,這些函數(shù)可以用帶有單個隱層的神經網絡中的 o (exp (n)) 個節(jié)點以任意精度近似,而在兩層網絡中只需要用 o (n) 個節(jié)點近似,。 在一篇更為實用的論文「Control Batch Size and Learning Rate to Generalize Well: Theoretical and Empirical Evidence」中,,F(xiàn)engxiang He 和他的團隊在 CIFAR 數(shù)據(jù)集上使用隨機梯度下降算法(SGD)訓練了 1,600 個 ResNet-110 模型和 VGG-19 模型,發(fā)現(xiàn)這些模型的泛化能力與批處理大小呈負相關,,與學習率呈正相關,,與「批處理大小/學習率」的比值呈負相關。- 論文鏈接:https://papers./paper/8398-control-batch-size-and-learning-rate-to-generalize-well-theoretical-and-empirical-evidence
圖 2:測試準確率與批處理大小,、學習率的誒關系,。第四行分別是(1)使用 CIFAR-10 數(shù)據(jù)集訓練的 ResNet-110 模型(2)使用 CIFAR-100 數(shù)據(jù)集訓練的 ResNet-110 模型(3)使用 CIFAR-10 數(shù)據(jù)集訓練的 VGG-19 模型(4)使用 CIFAR-100 數(shù)據(jù)集訓練的 VGG-19 模型,。每條曲線都是根據(jù) 20 個網絡的情況綜合繪制而出。與此同時,,Yuanzhi Li 等人的論文「Towards Explaining the Regularization Effect of Initial Large Learning Rate in Training Neural Networks」指出:「一個具有較大的初始學習率并使用退火算法訓練的雙層網絡,,比使用較小的初始學習率訓練的相同的網絡具有更好的泛化性能。這是因為學習率較小的模型首先會記憶低噪聲,、難以擬合的模式,,它在較高噪聲、易于擬合的情況下的泛化性能比學習率較大的情況下差一些,?!?/section>- 論文地址:https:///abs/1907.04595
盡管這些理論分析非常吸引人,也很重要,,但是很難講它們聚合成一個大的研究體系,,因為這其中的一個研究都集中在整個系統(tǒng)的一個較為狹窄的方面。二,、深度學習新方法在今年的 NeurIPS 上,,研究者們提出了一系列新穎的方法,而不僅僅是在別人的工作上疊加新的網絡層,。新提出的研究深度學習的方法中,,我感興趣的三個方向是:貝葉斯學習、圖神經網絡以及凸優(yōu)化,。正如 Emtiyaz Khan 在他的演講「Deep Learning with Bayesian Principles」中所強調的,貝葉斯學習和深度學習是有很大的而區(qū)別,。根據(jù) Khan 的說法,,深度學習使用的是一種「試錯」的方法,我們通過實驗看看會得到什么結果,,然而貝葉斯原理迫使你事先考慮一個假設(先驗),。與常規(guī)的深度學習相比,貝葉斯深度學習有兩個主要的優(yōu)勢:非確定性估計以及在小數(shù)據(jù)集上更好的泛化性能,。在現(xiàn)實世界的應用中,,讓系統(tǒng)能夠進行預測是遠遠不夠的。弄明白每個預測的可靠性是很重要的,。例如,,對癌癥進行預測時,可靠性為 50.1% 和可靠性為 99.9% 時的治療方案是不同的,。在貝葉斯學習中,非確定性估計是一個內在的特質,。傳統(tǒng)的神經網絡給出的是單點估計——它們使用一組權值針對一個數(shù)據(jù)點輸出一個預測,。另一方面,,貝葉斯神經網絡使用一個關于網絡權重的概率分布,并輸出該分布中所有權重組合的平均預測值,,這與對許多神經網絡求平均的效果相同,。因此,貝葉斯神經網絡是一種自然的集成,,它的作用類似于正則化,,并且能夠防止過擬合。訓練具有數(shù)百萬參數(shù)的貝葉斯神經網絡仍然需要非常大的計算開銷,。要想使網絡收斂到一個后驗上可能需要花費數(shù)周的時間,,因此諸如變分推斷這樣的近似方法越來越流行。本屆 NeurIPS 的「概率方法-變分推斷」環(huán)節(jié)共有 10 篇論文與這類變分貝葉斯方法有關,。下面是向大家推薦的本屆 NeurIPS 上有關貝葉斯深度學習的 3 篇論文:- Importance Weighted Hierarchical Variational Inference,,論文鏈接:https:///abs/1905.03290
- A Simple Baseline for Bayesian Uncertainty in Deep Learning,論文鏈接:https:///abs/1902.02476
- Practical Deep Learning with Bayesian Principles,,論文鏈接:https:///abs/1906.02506
多年來,我經常談到:圖論是在機器學習領域最被低估的課題之一,。我很高興有關圖的工作在本屆 NeurIPS 上大放異彩,。「圖表征學習」是本屆 NeurIPS 上最受歡迎的研討會。令人驚訝的是,,該領域已經取得了如此大的進步,。時間回到 2015 年,當我在實習期間開始研究圖神經網絡時,,我沒有想到會有如此多的研究人員參與到這個領域中來,。圖是適用于許多種數(shù)據(jù)(例如,社交網絡,、知識庫,、游戲的狀態(tài))的優(yōu)雅而自然的表征形式。用于推薦系統(tǒng)的「用戶-物品」數(shù)據(jù)可以被表示為一個二分圖,,其中一個不相交的集合由用戶組成,,另一個由物品組成。圖也可以表征神經網絡的輸出,。正如 Yoshua Bengio 在他的演講中提醒人們的那樣:任何聯(lián)合分布都可以通過因子圖來表示,。這使得圖神經網絡能夠完美地適應組合優(yōu)化(例如,旅行商問題,、任務調度問題),、身份匹配(在這種問題中 Twitter 用戶和 Facebook 的用戶是一樣的嗎?),、推薦系統(tǒng)等任務,。目前最流行的圖神經網絡是圖卷積神經網絡(GCNN),,這是意料之中的,因為圖和卷積都可以編碼局部的信息,。卷積以尋找輸入中鄰近部分之間的關系為目標編碼一種偏置,。而圖通過邊對輸入中關系最密切的部分進行編碼。圖 4:(左圖)二分圖 St=(G,,C,,E,V)有 n=3 個變量和 m=2 個常量,。(右圖)用于將策略πθ(a|st)參數(shù)化的二分圖 GCNN 架構,。- Exact Combinatorial Optimization with Graph Convolutional Neural Networks,論文地址:https:///abs/1906.01629
- 是的,, 今年有一篇論文融合了 NTK 和圖神經網絡兩個最熱門的研究趨勢:Graph Neural Tangent Kernel: Fusing Graph Neural Networks with Graph Kernels,,論文地址:https:///abs/1905.13192
- 本屆NeurIPS 上我最喜歡的海報展示:(Nearly) Efficient Algorithms for the Graph Matching Problem on Correlated Random Graphs,論文地址:https:///abs/1805.02349
圖 5:(Nearly) Efficient Algorithms for the Graph Matching Problem on Correlated Random Graphs- Thomas N. Kipf 關于圖卷積網絡的博文(https://tkipf./graph-convolutional-networks/)
- Kung-Hsiang,,Huang 對圖神經網絡(Basics,,DeepWalk,GraphSage)簡介(https:///a-gentle-introduction-to-graph-neural-network-basics-deepwalk-and-graphsage-db5d540d50b3)
我一直默默推崇 Stephen Boyd 關于凸優(yōu)化的工作,,所以很高興看到它在 NeurIPS 上越來越受歡迎。在今年的 NeurIPS 上,,有 32 篇論文是關于這個主題的,。Stephen Boyd 和 j. Zico Kolter 的實驗室也展示了他們的論文「Differentiable Convex Optimization Layers」,該論文說明了如何通過凸優(yōu)化問題的解來進行微分,,這使得將它們可以被嵌入可微分的程序(如神經網絡)并根據(jù)數(shù)據(jù)進行學習,。- 論文鏈接:http://papers./paper/9152-differentiable-convex-optimization-layers
凸優(yōu)化問題之所以吸引人,是因為它們可以被精確地求解(可以實現(xiàn) 1e-10 的容錯率),,而且速度很快,。它們也不會產生奇怪的或意料之外的輸出,而這對于現(xiàn)實世界中的應用是至關重要的,。盡管在真實場景中遇到的許多問題是非凸的,,但是將它們分解為一系列凸問題可以達到很好的效果。 神經網絡也使用凸優(yōu)化的算法進行訓練,。然而,,神經網絡重點強調以一種端到端的方式從頭進行學習,而凸優(yōu)化問題的應用則顯式地使用領域特定的知識對系統(tǒng)建模,。如果能夠以凸方法對系統(tǒng)進行顯式建模,,那么通常所需的數(shù)據(jù)就會少得多。關于可微凸優(yōu)化層的工作是將端到端學習和顯式建模的優(yōu)勢結合起來的一種方法,。當你想要控制一個系統(tǒng)的輸出時,,凸優(yōu)化特別有用,。例如,SpaceX 公司使用凸優(yōu)化來發(fā)射火箭,,BlackRock 公司將它用于交易算法??吹酵箖?yōu)化在深度學習中的應用真的很酷,,就像現(xiàn)在的貝葉斯學習一樣。下面是 Akshay Agrawal 推薦的一些有關凸優(yōu)化的 NeurIPS 論文:- Acceleration via Symplectic Discretization of High-Resolution Differential Equations,,論文鏈接:https://papers./paper/8811-acceleration-via-symplectic-discretization-of-high-resolution-differential-equations
- Hamiltonian descent for composite objectives,,論文鏈接:http://papers./paper/9590-hamiltonian-descent-for-composite-objectives
圖 6:用于問題的Hamiltonian 下降(HD)和梯度下降算法的對比情況三、神經科學 x 機器學習根據(jù) NeurIPS 2019 程序委員會主席 Hugo Larochelle 的分析,,接收率最高的論文類別是神經科學,。在Yoshua Bengio的演講「From System 1 Deep Learning to System 2 Deep Learning」和 Blaise Aguera y Arcas的演講「Social Intelligence」中,他們都敦促機器學習研究社區(qū)更多地思考自然智能的生物學根源,。Bengio 的演講將「意識」引入了主流的機器學習詞匯體系中,。Bengio 提出的「意識」概念的核心是注意力。他將機器注意力機制與我們的大腦選擇分配注意力的方式進行了比較:「機器學習可以用來幫助腦科學家更好地理解意識,,但我們對意識的理解也可以幫助機器學習發(fā)展出更好的能力」,。根據(jù) Bengio 的說法,如果我們希望機器學習算法能夠泛化到分布之外的樣本上,,那么受意識啟發(fā)的方法可能是一種解決方案,。圖 8:將機器學習用于意識&將意識用于機器學習——(1)形式化定義并測試特定的意識的假設函數(shù)(2)揭開意識的神秘面紗(3)從計算和統(tǒng)計的角度(例如,系統(tǒng)的泛化)理解意識演化的優(yōu)勢(4)將這些優(yōu)勢應用于學習智能體,。在本屆大會上,,我最喜歡 Aguera y Arcas 的演講。他的演講在理論上非常嚴謹,,但同時也是可行的,。他認為通過優(yōu)化方法不足以獲得類似于人類的智力:「優(yōu)化不是生命體工作的方式,大腦不僅僅是在評估一個函數(shù),。它們會發(fā)展,。它們會自我修正。他們從經驗中學習,。僅僅通過一個函數(shù)并不能包含這些東西」,。他呼吁人們研究「一種更通用的、受生物學啟發(fā)的突觸更新規(guī)則,,它允許使用損失函數(shù)和梯度下降法,,但并不要求一定要這么做」。NeurIPS 上的這一趨勢與我觀察到的現(xiàn)象不謀而合:很多人工智能界的研究人員正轉而研究神經科學,。他們把神經科學重新帶回了機器學習領域,。有些我所熟知的智者紛紛離開了人工智能研究領域,,投身工業(yè)界或神經科學領域。這是為什么呢,?1. 我們需要理解人類學習的機制,,從而教導機器進行學習。2. 科學研究應該是一個從假設到實驗的過程,,而如今的人工智能研究則往往是先做實驗然后證明結果成立,。四、關鍵詞分析讓我們從更宏觀的角度看看本屆 NeurIPS 大會上的論文都與什么主題相關,。首先,,我使用 Vennclods 將 1,011 份 NeurIPS 2018 的論文和 1,428 份 NeurIPS 2019 的論文的標題進行了可視化。中間黑色的部分是在這兩年都十分常見的論文關鍵詞的列表,。 接著,,如下圖所示,我計算出了這些關鍵詞從 2018 年到 2019 年的百分比變化,。例如,,如果在2018年,所有被接收的論文中有 1% 包含關鍵詞「X」,,而在2019年,,這個數(shù)字是 2% ,那么這一比例的變化是(2-1) / 1=100% ,。在下圖中,,我將絕對比例變化在 20% 以上的關鍵詞繪制了出來。- 即使是在機器人領域之外,,強化學習也得到了進一步發(fā)展,。具有顯著正向變化的關鍵詞有:多臂老虎機、反饋,、遺憾值,、控制。
- 生成模型依然很流行,。GAN 仍然吸引著我們的想象力,,但是炒作變少了。
- 循環(huán)神經網絡和卷積神經網絡依然延續(xù)了去年的下降趨勢,。
- 與硬件相關的關鍵詞也在增加,,這表明有更多考慮到硬件的算法誕生。這是解決「硬件成為機器學習瓶頸」這一問題的方法,。
- 令人遺憾的是,,「數(shù)據(jù)」這一關鍵詞的百分比處于下降趨勢。我激動萬分地前去參觀「Algorithms–Missing Data」海報展,但卻發(fā)現(xiàn)竟然只有一張海報「Missing Not at Random in Matrix Completion: The Effectiveness of Estimating Missingness Probabilities Under a Low Nuclear Norm Assumption」張貼了出來,!
- 「元」這一關鍵詞在今年增長的最多,。詳情請參閱 Jesse Mu 的「Meta-meme」:https://twitter.com/jayelmnop/status/1206637800537362432
- 盡管「貝葉斯」一詞的比例下降了,但「非確定性」卻上升了,。去年,,有許多論文使用了貝葉斯原理,但并不是將其運用在深度學習中,。
五,、NeurIPS 關鍵數(shù)據(jù)一覽提交給正會的 7 千多篇論文中,有 1428 篇被接收,,接收率為 21%。 - 據(jù)我估計,,1萬3千多名參會者中,,至少有一半人并沒有在會議期間展示論文。
57 個研討會,,其中 4 個專注于包容性:Black in AI,,Women in Machine Learning,LatinX in AI,,,Queer in AI,,New In Machine Learning,Machine Learning Competitions for All,。 1萬6千多頁會議記錄 在所有被接收的論文中,,有 12% 至少包含一名來自谷歌或 DeepMind 的作者。 有 87 篇論文來自斯坦福,,它是本屆 NeurIPS 被接收論文最多的學術機構,。 有 250 篇關于應用的論文,占總論文數(shù)的 16.7%,。 648 是本屆大會時間檢驗論文獎獲得者 Lin Xiao 的「Dual Averaging Method for Regularized Stochastic Learning and Online Optimization」的引用次數(shù),。這證明了引用量與貢獻不一定相關。 75% 的論文在「camera-ready」版中給出了代碼鏈接,,去年這一數(shù)字只有 50%,。 2,255 份審稿意見提到了查看提交的代碼。 173 篇論文聲稱進行了 OpenReview 上的可復現(xiàn)性挑戰(zhàn),。 - 31 張海報出現(xiàn)在了本屆 NeurIPS 的「創(chuàng)意和設計中的機器學習」研討會上,。一些人告訴我這是他們在本屆大會上最喜歡的環(huán)節(jié)。
- 為「Good Kid」樂隊在閉幕宴會上的演出打 call,!如果你還沒有欣賞過他們的音樂作品,,可以去 Spotify 上聽一聽。
有時,他們是機器學習研究者,;有時,,他們又是搖滾明星。今夜,,他們二者都是,!- 「Retrospectives: A Venue for Self-Reflection in ML Research」研討會進行了 11 場演講,這也是大家最喜歡的環(huán)節(jié)之一,。
六,、結語
無論從知識的角度還是從社交的角度來說,NeurIPS 都勢不可擋,。我不認為任何人能夠閱讀16,000頁的會議記錄,。海報展人滿為患,這使得我們很難與作者交談,。毫無疑問,,我錯過了很多。然而,,會議的大規(guī)模召開也意味著匯聚了許多的研究方向和相關的研究人員,。讓我能夠了解自己研究的分支領域之外的工作,能夠向那些研究背景和興趣與我不同的研究人員學習,,這種感覺很好,。看到研究社區(qū)從「更大就更好」的誤區(qū)中走出來是一件很棒的事。我逛海報展收獲的印象是:許多論文只是在小數(shù)據(jù)集上做實驗,,比如 MNIST 和 CIFAR,。最佳論文獎獲得者 Ilias Diakonikolas 等人的「Distribution-Independent PAC Learning of Halfspaces with Massart Noise」就沒有任何實驗。我經常聽到年輕的研究人員擔心:只有加入大型研究實驗室,,才能獲得計算資源,。但 NeurIPS 證明了:你可以在無需擔心數(shù)據(jù)和計算問題的情況下做出重要的貢獻。在我參加的 NewInML 圓桌討論上,,有人說他不知道 NeurIPS 上的大多數(shù)論文如何被應用到生產環(huán)節(jié)中去,。Neil Lawence 指出,也許他應該考慮參加其它會議,。NeurIPS 比許多其它的機器學習會議更加理論化——從事基礎研究是很重要的,。總的來說,,我在 NeurIPS 上度過了一段美好的時光,并計劃明年繼續(xù)參會,。然而,,對于那些新加入機器學習研究社區(qū)的人來說,我建議他們將 ICLR 作為參加的第一個學術會議,。ICLR 的規(guī)模更小,、時間更短、也更加面向實際應用,。明年,,ICLR 將在埃塞俄比亞召開,那是一個神奇的國度,!Via https:///2019/12/18/key-trends-neurips-2019.html
|