久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

我們真的需要深度圖神經(jīng)網(wǎng)絡嗎?

 板橋胡同37號 2020-08-03
深度學習的一大特點就是使用的神經(jīng)網(wǎng)絡具有幾十層甚至數(shù)百層,。與之形成鮮明對比的是,大多數(shù)用于圖深度學習的架構(gòu)都很“淺”,,只有少量的層,。在本文中,作者提出了一個看上去有些離經(jīng)叛道的問題:圖神經(jīng)網(wǎng)絡架構(gòu)的深度能否帶來任何優(yōu)勢,?

本文最初發(fā)表于 TowardsDataScience 博客,,經(jīng)原作者 Michael Bronstein 授權(quán),InfoQ 中文站翻譯并分享,。

今年,,圖深度學習成為機器學習領(lǐng)域 炙手可熱 的話題之一。然而,,那些習慣于想象卷積神經(jīng)網(wǎng)絡具有數(shù)十層甚至數(shù)百層的人,,如果看到大多數(shù)關(guān)于圖深度學習的工作最多只用了幾層的話,他們會不會感到深深的失望呢,?“深度圖神經(jīng)網(wǎng)絡”一詞是否被誤用了,?我們是否應該套用經(jīng)典的說法,思考深度是否應該被認為對圖的學習 是有害的,?

訓練深度圖神經(jīng)網(wǎng)絡是一個難點,。除了在深度神經(jīng)結(jié)構(gòu)中觀察到的標準問題(如反向傳播中的梯度消失和由于大量參數(shù)導致的過擬合)之外,還有一些圖特有的問題,。其中之一是過度平滑,,即應用多個圖卷積層后,節(jié)點特征趨向于同一向量,,變得幾乎無法區(qū)分的現(xiàn)象【1】,。這種現(xiàn)象最早是在 GCN 模型【2】【3】中觀察到的,,其作用類似于低通濾波器【4】。

最近,,人們致力于解決圖神經(jīng)網(wǎng)絡中的深度問題,,以期獲得更好的性能,或許還能避免在提到只有兩層的圖神經(jīng)網(wǎng)絡時使用“深度學習”這一術(shù)語的尷尬,。典型的方法可以分為兩大類,。首先,使用正則化技術(shù),,例如邊 dropout(DropEdge)【5】,、節(jié)點特征之間的成對距離歸一化(PairNorm)【6】,或節(jié)點均值和方差歸一化(NodeNorm)【7】,。其次,,架構(gòu)變化,包括各種類型的殘差連接(residual connection),,如跳躍知識【8】或仿射殘差連接【9】,。雖然這些技術(shù)允許訓練具有幾十層的深度圖神經(jīng)網(wǎng)絡(否則很難,甚至不可能),,但它們未能顯示出顯著的收益,。更糟糕的是,使用深度架構(gòu)常常會導致性能下降,。下表摘自【7】,,顯示了一個典型的實驗評估,比較了不同深度的圖神經(jīng)網(wǎng)絡在節(jié)點分類任務上的表現(xiàn):

該圖顯示了深度圖神經(jīng)網(wǎng)絡結(jié)構(gòu)在 CoauthorsCS 引文網(wǎng)絡上的節(jié)點分類任務中的典型結(jié)果,。隨著深度的增加,,基線(具有殘差連接的 GCN)表現(xiàn)不佳,性能從 88.18% 急劇下降到 39.71%,。使用 NodeNorm 技術(shù)的架構(gòu)隨著深度的增加表現(xiàn)一直良好,。然而,當深度增加時,,性能下降(雖然不明顯,,從 89.53% 下降到 87.40%)??偟膩碚f,,通過 64 層的深度架構(gòu)獲得的最佳結(jié)果(87.40%),遜于簡單基線(88.18%),。另外,,還可以觀察到 NodeNorm 正則化提高了淺 2 層架構(gòu)的性能(從 88.18% 提高到 89.53%)。上表摘自【7】(所示為每個類 5 個標簽的情況,;該論文中研究的其他設(shè)置也表現(xiàn)出了類似的行為),。類似的結(jié)果在【5】和其他幾篇論文中也有顯示,。

從這張表中可以看出,要將深度架構(gòu)帶來的優(yōu)勢與訓練這樣一個神經(jīng)網(wǎng)絡所需的“技巧”區(qū)分開來很困難,。實際上,,上例中的 NodeNorm 還改進了只有兩層的淺層架構(gòu),從而達到了最佳性能,。因此,,在其他條件不變的情況下,更深層次的圖神經(jīng)網(wǎng)絡是否會表現(xiàn)得更好,,目前尚不清楚,。

這些結(jié)果顯然與傳統(tǒng)的網(wǎng)格結(jié)構(gòu)化數(shù)據(jù)的深度學習形成了鮮明的對比,在網(wǎng)格結(jié)構(gòu)化數(shù)據(jù)上,,“超深度”(ultra-deep)架構(gòu)【10】【11】帶來了性能上的突破,,并在今天得到了廣泛的使用。在下文中,,我將嘗試提供一些指導,,以期有助回答本文標題提出的“挑釁性”問題。需要注意的是,,我本人目前還沒有明確的答案,。

圖的結(jié)構(gòu) 。由于網(wǎng)格是一種特殊的圖,,因此,肯定有一些圖的例子,,在這些圖上,,深度是有幫助的。除網(wǎng)格外,,表示分子,、點云【12】或網(wǎng)片【9】等結(jié)構(gòu)的“幾何”圖似乎也受益于深度架構(gòu)。為什么這樣的圖與通常用于評估圖神經(jīng)網(wǎng)絡的引用網(wǎng)絡(如 Cora,、PubMed 或 CoauthsCS)有如此大的不同,?其中一個區(qū)別是,后者類似于具有較小直徑的“小世界”網(wǎng)絡,,在這種網(wǎng)絡中,,人們可以在幾跳內(nèi)從任何其他節(jié)點到達任何節(jié)點。因此,,只有幾個卷積層的感受野(receptive field)已經(jīng)覆蓋了整個圖【13】,,因此,添加更多的層對到達遠端節(jié)點并沒有幫助,。另一方面,,在計算機視覺中,,感受野呈多項式增長,需要許多層來產(chǎn)生一個能捕捉圖像中對象的上下文的感受野【14】,。

在小世界圖(圖上)中,,只需幾跳即可從另一個節(jié)點到達任意一個節(jié)點。結(jié)果,,鄰居的數(shù)量(以及相應的,,圖卷積濾波器的感受野)呈指數(shù)級快速增長。在這個例子中,,從紅色節(jié)點到每個節(jié)點僅需兩跳即可(不同的顏色表示將到達相應節(jié)點的層,,從紅色節(jié)點開始)。另一方面,,在網(wǎng)格(圖下),,感受野的增長是多項式的,因此,,需要更多的層才能達到相同的感受野大小,。

在鄰居呈指數(shù)級增長的圖中(如上圖所示),會出現(xiàn)瓶頸現(xiàn)象:來自太多鄰居的太多信息必須壓縮到單個節(jié)點特征向量中,。結(jié)果,,消息無法傳播,性能受到影響,。

遠程問題域短程問題 ,。一個稍微不同但相關(guān)的區(qū)別是,問題需要遠程信息還是短程信息,。例如,,在社交網(wǎng)絡中,預測通常只依賴于來自某個節(jié)點本地鄰域的短程信息,,而不會通過添加遠程信息來改善,。因此,這類任務可以由淺層 GNN 來執(zhí)行,。另一方面,,分子圖通常需要遠程信息,因為分子的化學性質(zhì)可能取決于其相對兩邊原子的組合【15】,。要利用這些遠程交互,,可能需要深度 GNN。但是,,如果圖的結(jié)構(gòu)導致感受野呈指數(shù)級增長,,那么瓶頸現(xiàn)象就會阻止遠程信息的有效傳播,這就解釋了為什么深度模型在性能上沒有提高【4】。

理論的局限性 ,。除了一個更大的感受野外,,深度架構(gòu)在計算機視覺問題上提供的關(guān)鍵優(yōu)勢之一是它們從簡單特征組合復雜特征的能力。將 CNN 從人臉圖像中學習到的特征進行可視化后,,會顯示出從簡單的幾何原語到整個面部結(jié)構(gòu)逐漸變得更加復雜的特征,,這表明傳說中的“ 祖母神經(jīng)元”更多是真實的,而不是神話,。對于圖來說,,這樣的組合似乎是不可能的,例如,,無論神經(jīng)網(wǎng)絡有多深,,都無法從邊組成三角形【16】。另一方面,,研究表明,,如果沒有一定的最小深度,使用消息傳遞網(wǎng)絡計算某些圖的屬性(如圖矩)是不可能的【17】,??偟膩碚f,我們目前還不清楚哪些圖屬性可以用淺層 GNN 表示,,哪些需要深度模型,,以及哪些圖的屬性根本無法計算。

通過卷積神經(jīng)網(wǎng)絡在人臉圖像上學習特征的示例,。請注意,,當進入更深的圖層時,特征是如何變得越來越復雜的(從簡單的幾何原語,,到面部部分,,再到整個人臉)。圖片改編自 Matthew Stewart 的一篇 博文,。

深度與豐富度 ,。與底層網(wǎng)格固定的計算機視覺不同,,在對圖的深度學習中,,圖的結(jié)構(gòu)確實很重要,并被考慮在內(nèi),。設(shè)計出更為復雜的消息傳遞機制來解決標準 GNN 無法發(fā)現(xiàn)的復雜的高階信息是有可能的,,比如主題【18】或 子結(jié)構(gòu)計數(shù)【19】。人們可以選擇具有更豐富的多跳濾波器的淺層網(wǎng)絡,,而不是使用具有簡單一跳濾波器的淺層網(wǎng)絡,。我們最近發(fā)表的關(guān)于可擴展的初始類圖神經(jīng)網(wǎng)絡(SIGN)的論文,通過將單層線性圖卷積架構(gòu)與多個預計算濾波器結(jié)合使用,將這一想法發(fā)揮到了極致,。我們展示的性能可以與更復雜的模型相媲美,,而它們的時間復雜度僅為后者的一小部分【20】。有趣的是,,計算機視覺走的是相反的道路:早期具有大(最大 11x11)濾波器的淺層 CNN 架構(gòu),,如 AlexNet,被具有?。ㄍǔ?3x3)濾波器的非常深的架構(gòu)所取代,。

評估 。最后但并非不重要的是,,圖神經(jīng)網(wǎng)絡的主要評估方法受到了 Oleksandr Shchur 和 Stephan Günnemann【21】小組同事的嚴厲批評,,他們提請人們注意常用基準的缺陷,并表明,,如果在公平的環(huán)境下進行評估,,簡單模型的表現(xiàn)可與更復雜的模型相媲美。我們觀察到的一些深度架構(gòu)的現(xiàn)象,,例如,,性能隨深度而下降,可能僅僅是源于對小數(shù)據(jù)集的過擬合所致,。新的 Open Graph Benchmark 解決了其中的一些問題,,提供了非常大的圖,并進行了嚴格的訓練和測試數(shù)據(jù)分割,。我認為,,我們還需要進行一些精心設(shè)計的特定實驗,以便更好地理解深度在圖深度學習是否有用,,以及何時有用,。

參考文獻

【1】 更確切地說,過度平滑使節(jié)點特征向量塌縮成一個子空間,,見《 圖神經(jīng)網(wǎng)絡對節(jié)點分類的表達力呈指數(shù)松散》(Graph neural networks exponentially loose expressive power for node classification),,K. Oono,T. Suzuki,,2009 年,,arXiv:1905.10947。論文闡述了使用動態(tài)系統(tǒng)形式主義提供漸近分析,。

【2】 《 深入研究圖卷積網(wǎng)絡的半監(jiān)督學習》(Deeper insights into graph convolutional networks for semi-supervised learning),,Q. Li、Z. Han,、X.-M. Wu,,2019 年,,Proc. AAAI。將 GCN 模型與 Laplacian 平滑進行了類比,,指出了過度平滑現(xiàn)象,。

【3】 《 重溫圖神經(jīng)網(wǎng)絡:我們所擁有的都是低通濾波器》(Revisiting graph neural networks: All we have is low-pass filters),H. Nt and T. Maehara,,2019 年,,arXiv:1905.09550。在圖上使用譜分析來回答 GCN 何時表現(xiàn)良好,。

【4】 《 論圖神經(jīng)網(wǎng)絡的瓶頸及其實踐意義》(On the bottleneck of graph neural networks and its practical implications),,U. Alon、E. Yahav,,2020 年,,arXiv:2006.05205。論文確定了圖神經(jīng)網(wǎng)絡中的過度壓縮現(xiàn)象,,這與序列遞歸模型中的過壓縮現(xiàn)象類似,。

【5】 《 DropEdge:面向深度圖卷積網(wǎng)絡的節(jié)點分類》(DropEdge: Towards deep graph convolutional networks on node classification),Y. Rong 等人,,2020 年,,In Proc. ICLR。論文闡述了一種類似于 DeopOut 的思想,,在訓練中使用隨機邊緣子集,。

【6】 《 PairNorm:處理 GNN 中的過度平滑》(PairNorm: Tackling oversmoothing in GNNs),L. Zhao,、L. Akoglu,,2020 年,Proc. ICLR,。論文提出對節(jié)點特征之間的成對距離和進行歸一化,,以防止它們塌縮成單個點。

【7】 《 深度圖神經(jīng)網(wǎng)絡的有效訓練策略》(Effective training strategies for deep graph neural networks),,K. Zhou 等人,,2020 年,arXiv:2006.07107,。

【8】 《 具有跳躍知識的圖表示學習》(Representation learning on graphs with jumping knowledge networks),,K. Xu 等人,2018 年,,Proc. ICML 2018,。

【9】 《 圖神經(jīng)網(wǎng)絡中的幾何原理連接》(Geometrically principled connections in graph neural networks),,S. Gong 等人,,2020 年,,Proc. CVPR。

【10】 《更深的卷積》(Going deeper with convolutions),,C. Szegedy 等人,,2015 年,Proc. CVPR,。

【11】《基于深度殘差學習的圖像識別》(Deep residual learning for image recognition),,K. He 等人,2016 年,,Proc. CVPR,。

【12】 《 DeepGCN:GCN 能像 CNN 一樣深嗎?》(DeepGCNs: Can GCNs go as deep as CNNs?),,G. Li 等人,,Proc. ICCV。論文闡述了幾何點云數(shù)據(jù)的深度優(yōu)勢,。

【13】 Alon 和 Yahav 將節(jié)點無法從比層數(shù)更遠的節(jié)點接受信息的情況稱為“欠范圍”(under-reachinig),。P Barceló 等人在論文《 圖神經(jīng)網(wǎng)絡的邏輯表達力》(The logical expressiveness of graph neural networks)首先指出了這一現(xiàn)象,2020 年,,Proc. ICLR,。Alon 和 Yahav 通過實驗研究了分子圖的化學性質(zhì)預測問題(使用層數(shù)大于圖直徑的 GNN),發(fā)現(xiàn)性能差的根源并非達不到,,而是過度壓縮,。

【14】 André Araujo 和合著者發(fā)表了一篇關(guān)于卷積神經(jīng)網(wǎng)絡感受野的 優(yōu)秀博文。隨著 CNN 模型在計算機視覺應用中的發(fā)展,,從 AlexNet,,到 VGG、ResNet 和 Inception,,它們的感受野作為層數(shù)增加的自然結(jié)果而增加,。在現(xiàn)代架構(gòu)中,感受野通常包含整個輸入圖,,即最終輸出特征映射中每個特征所使用的上下文包含所有的輸入像素,。Araujo 等人觀察到分類準確率與感受野大小之間存在對數(shù)關(guān)系,這表明較大的感受野對于高水平的識別任務是必需的,,但收益是遞減的,。

【15】 《 基于波網(wǎng)絡的無向圖遠程信息的深度學習》(Deep learning long-range information in undirected graphs with wave networks),M. K. Matlock 等人,,2019 年,,Proc. IJCNN。觀察了圖神經(jīng)網(wǎng)絡在分子圖中捕捉遠距離交互作用的失敗現(xiàn)象,。

【16】 這源于消息傳遞 GNN 等價于 Weisfeiler-Lehman 圖通過測試,,參見例如《 關(guān)于 Weisfeiler-Lehman 不變性:子圖計數(shù)和相關(guān)圖性質(zhì)》(On Weisfeiler-Leman invariance: subgraph counts and related graph properties),,V. Arvind 等人,2018 年,,arXiv:1811.04801,。以及《 圖神經(jīng)網(wǎng)絡能計算子結(jié)構(gòu)嗎?》(Can graph neural networks count substructures?),,Z. Chen 等人,,2020 年,arXiv:2002.04025,。

【17】 《 理解圖神經(jīng)網(wǎng)絡在學習圖拓撲中的表示能力》(Understanding the representation power of graph neural networks in learning graph topology),,N. Dehmamy、A.-L. Barabási,、R. Yu,,2019 年,Proc. NeurIPS,。論文表明了一定階數(shù)的學習圖矩需要一定深度的 GNN,。

【18】 《 MotifNet:基于主題(motif)的有向圖卷積網(wǎng)絡》(MotifNet: a motif-based Graph Convolutional Network for directed graphs),F(xiàn). Monti,、K. Otness,、M. M. Bronstein,2018 年,,arXiv:1802.01572,。

【19】 《 通過子圖同構(gòu)計數(shù)提高圖神經(jīng)網(wǎng)絡的表達能力》(Improving graph neural network expressivity via subgraph isomorphism counting),G. Bouritsas 等人,,2020 年,,arXiv:2006.09252。

【20】 《 SIGN:可擴展的初始圖神經(jīng)網(wǎng)絡》(SIGN: Scalable inception graph neural networks),,E. Rossi 等人,,2020 年,arXiv:2004.11198,。

【21】 《 圖神經(jīng)網(wǎng)絡評估的缺陷》(Pitfalls of graph neural network evaluation),,O. Shchur 等人,2018 年,。關(guān)系表征學習研討會(Workshop on Relational Representation Learning),。論文闡述了簡單的 GNN 模型與復雜的 GNN 模型的性能相當。

作者介紹:

Michael Bronstein,,倫敦帝國理工學院教授,,Twitter 圖機器學習研究負責人,CETI 項目機器學習主管,、研究員,、教師,、企業(yè)家和投資者。

原文鏈接:

https:///do-we-need-deep-graph-neural-networks-be62d3ec5c59

你也「在看」嗎,???

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,,謹防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多