久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

圖神經(jīng)常微分方程,,如何讓 GNN 在連續(xù)深度域上大顯身手,?

 taotao_2016 2020-01-05
瑞利-貝納德對(duì)流(Rayleigh–Bénard Convection)。利用有限元方法將空間上連續(xù)的問題離散化,,將復(fù)雜的關(guān)系歸納偏差顯示為實(shí)體集合,。
圖源:https://www./watch?v=OM0l2YPVMf8&t=74s.

作者 | Michael Poli
編譯 | JocelynWang
編輯 | 叢末
多智能體系統(tǒng)被廣泛應(yīng)用于各種不同的科學(xué)領(lǐng)域:從物理學(xué)到機(jī)器人學(xué)、博弈論,、金融學(xué)和分子生物學(xué)等等,。通常來說,預(yù)測(cè)或決策任務(wù)依賴于具有噪聲且無規(guī)則采樣的的觀測(cè),,因此封閉形式的分析公式對(duì)此是無效的,。
這類系統(tǒng)對(duì)關(guān)系歸納偏差提供了生動(dòng)形象的樣例。在樣本統(tǒng)計(jì)或機(jī)器學(xué)習(xí)過程中引入歸納誤差,,是一種普遍用于提高樣本有效性和泛化性的方式,。從目標(biāo)函數(shù)的選擇到適合某項(xiàng)具體問題的自組織深度學(xué)習(xí)的框架設(shè)計(jì),設(shè)定偏差也是非常常見且有效的方式,。
關(guān)系歸納偏差[1]代表一類特殊的偏差,涉及實(shí)體之間的關(guān)系,。無論是圖形模型,、概率模型還是其他模型,都是一類專門對(duì)實(shí)體施加先驗(yàn)結(jié)構(gòu)形式的關(guān)系偏差的傳統(tǒng)模型,。這些圖形結(jié)構(gòu)能夠在不同領(lǐng)域中發(fā)揮作用,,它可以通過引入條件獨(dú)立性假設(shè)來降低計(jì)算復(fù)雜度,也可以通過將先驗(yàn)知識(shí)編碼為圖的形式來增強(qiáng)樣本的有效性,。
圖神經(jīng)網(wǎng)絡(luò)(GNN)是圖模型對(duì)應(yīng)的深度學(xué)習(xí)網(wǎng)絡(luò),。GNN 通常會(huì)在這兩種情況中使用:一是當(dāng)目標(biāo)問題結(jié)構(gòu)可以編碼為圖的形式;二是輸入實(shí)體間關(guān)系的先驗(yàn)知識(shí)本身可以被描述為一張圖,。
GNN 在許多應(yīng)用領(lǐng)域都展示了顯著的效果,,例如:節(jié)點(diǎn)分類[2]、圖分類,、預(yù)測(cè)[3][4]以及生成任務(wù)[5],。

一、深度學(xué)習(xí)中的常微分方程

一種類型不同但重要性相等的歸納偏差與收集到數(shù)據(jù)所使用系統(tǒng)的類別相關(guān),。盡管從傳統(tǒng)上看,,深度學(xué)習(xí)一直由離散模型主導(dǎo),,但在最近的研究提出了一種將神經(jīng)網(wǎng)絡(luò)視為具有連續(xù)層的模型[6]的處理方法。
這一觀點(diǎn)將前向傳播過程,,重定義為常微分方程(ODE)中初值求解的問題,。在這個(gè)假設(shè)下,可以直接對(duì)常微分方程進(jìn)行建模,,并可以提高神經(jīng)網(wǎng)絡(luò)在涉及連續(xù)時(shí)間序列任務(wù)上的性能,。
《Graph Neural Ordinary Differential Equations》這項(xiàng)工作旨在縮小幾何深度學(xué)習(xí)和連續(xù)模型之間的差距。圖神經(jīng)常微分方程(Graph Neural Ordinary Differential Equations ,,GDE)將圖結(jié)構(gòu)數(shù)據(jù)上的一般性任務(wù)映射到一個(gè)系統(tǒng)理論框架中,。我們將常見的圖結(jié)構(gòu)數(shù)據(jù)放入系統(tǒng)理論框架中,比如將數(shù)據(jù)結(jié)構(gòu)化到系統(tǒng)中:
無論 GDE 模型的結(jié)構(gòu)是固定還是隨時(shí)間變化的,,它都可以通過為模型配備連續(xù)的 GNN 圖層來對(duì)定義在圖上的向量場(chǎng)建模,。
GDE 模型由于結(jié)構(gòu)由連續(xù)的 GNN 層定義,具備良好的靈活性,,可以適應(yīng)不規(guī)則序列樣本數(shù)據(jù),。
GDE 模型的主要目的是,提供一種數(shù)據(jù)驅(qū)動(dòng)的方法為結(jié)構(gòu)化系統(tǒng)建模,,特別是當(dāng)這個(gè)動(dòng)態(tài)過程是非線性時(shí),,更是難以用經(jīng)典的分析方法進(jìn)行建模。
下面是對(duì)GDE的介紹,。關(guān)于更多細(xì)節(jié)和推導(dǎo),,請(qǐng)參閱原論文,論文相關(guān)鏈接如下:
  •  https:///abs/1911.07532
目前我們正在開發(fā)一個(gè)用于介紹GDE模型的 Github Repository(倉(cāng)庫(kù)),,其中包含使用 Jupyter notebook 且?guī)в凶⑨尩南嚓P(guān)示例,,Github 相關(guān)地址如下:
  • https://github.com/Zymrael/gde
據(jù)悉,我們正計(jì)劃將它最終部署成具有不同功能的設(shè)置(包括預(yù)測(cè),、控制…),,其中包括所有主要圖形神經(jīng)網(wǎng)絡(luò)(GNN)架構(gòu)下不同 GDE 變體的工作示例。

二,、GDE 要了解的兩點(diǎn)基本知識(shí)

GDE 和 GNN 一樣,,都是在圖上進(jìn)行操作。關(guān)于符號(hào)和基本定義更詳細(xì)的介紹,,我們參閱了關(guān)于 GNN 的優(yōu)秀的相關(guān)綜合研究(相關(guān)研究鏈接為:https:///abs/1901.00596)以及原論文中的背景部分,。
下面,我們將對(duì) GDE 進(jìn)行簡(jiǎn)要的介紹,,不過實(shí)際上,,只有下面兩點(diǎn)關(guān)于圖的基本知識(shí)是我們即將需要了解到的:
  • 1、圖是由邊連接的互連節(jié)點(diǎn)(實(shí)體)的集合,。深度學(xué)習(xí)模型通常處理用一組特征(通常以一組向量或張量)描述節(jié)點(diǎn)的屬性圖,。對(duì)于 n 個(gè)節(jié)點(diǎn)的圖,,每個(gè)節(jié)點(diǎn)都可以用 d 個(gè)特征描述,最后我們將這 n x d 個(gè)節(jié)點(diǎn)嵌入矩陣表示為 H,。
  • 2,、圖的結(jié)構(gòu)由其鄰接矩陣 A 捕獲。節(jié)點(diǎn)之間的連通結(jié)構(gòu)表現(xiàn)出標(biāo)準(zhǔn)深度學(xué)習(xí)模型和GNN模型之間的主要區(qū)別[1],,因?yàn)镚NN直接以各種方式利用它對(duì)節(jié)點(diǎn)嵌入進(jìn)行操作,。

三、圖神經(jīng)常微分方程

圖神經(jīng)常微分方程(GDE)定義如下:
GDE的一般公式
其中,,H 是節(jié)點(diǎn)特征矩陣,。上式中定義了函數(shù) F 參數(shù)化的 H 的向量場(chǎng),其中函數(shù) F 可以是任意已知的圖神經(jīng)網(wǎng)絡(luò)(GNN)層,。
換句話說,,F(xiàn) 利用圖 G 節(jié)點(diǎn)的連接信息及其節(jié)點(diǎn)特征來描述 H 在 S 中的變化過程。其中,,S 是模型的深度域,;不同于 GNN 由自然數(shù)的子集來指定的深度域,S 是連續(xù)的,,它表示由函數(shù) F 定義的常微分方程的積分域,。
GDE 可以通過多種方式進(jìn)行訓(xùn)練,這一點(diǎn)很像標(biāo)準(zhǔn)的神經(jīng)常微分方程[6],。原論文中也對(duì)系統(tǒng)的適定性進(jìn)行了詳細(xì)闡釋和討論,。
一般的 GDE 公式帶有幾種含義。在一般神經(jīng)常微分方程中,,觀察到選擇離散化方案可以對(duì) ResNets(殘差網(wǎng)絡(luò))已知的先前離散多步驟變量進(jìn)行描述[7],。因此,深度學(xué)習(xí)中連續(xù)動(dòng)態(tài)系統(tǒng)的觀點(diǎn)不僅局限于微分方程的建模,,而且可以利用豐富的數(shù)值方法相關(guān)文獻(xiàn)來指導(dǎo)發(fā)現(xiàn)新的通用模型。
與 ResNets 相比,,GNN 作為一個(gè)模型類別來說算是相對(duì)年輕的,。因此,關(guān)于多步驟的復(fù)雜變體以及類似分形殘差連接的相關(guān)文獻(xiàn)發(fā)展得并沒有那么完善,;而我們可以發(fā)現(xiàn)一些新的 GNN 變體是通過應(yīng)用GDE的各種離散化方案來指導(dǎo)的,,而不是完全從頭開始。
靜態(tài)圖結(jié)果:節(jié)點(diǎn)分類
通過在 Cora,、Pubmed 和 Citeseer 上進(jìn)行一系列半監(jiān)督節(jié)點(diǎn)分類實(shí)驗(yàn),,證明 GDE 可以作為高性能的通用模型。這些數(shù)據(jù)集包含靜態(tài)圖,,其中鄰接矩陣 A 保持不變,,從而使其遠(yuǎn)離運(yùn)用GDE的動(dòng)態(tài)系統(tǒng)設(shè)置,。我們?cè)u(píng)估圖卷積常微分方程(GCDE)的性能,定義為:
GCDE模型,。在我們的論文中包含了一個(gè)更加詳細(xì)的版本,,以及一些GNN流行的GDE變體版本。
它們的完全離散的形式對(duì)應(yīng)圖卷積網(wǎng)絡(luò)(GCN)[8],。我們參考了包括著名的圖注意力網(wǎng)絡(luò)(GAT)[9]在內(nèi)的文獻(xiàn)作為參考:
節(jié)點(diǎn)分類任務(wù)的準(zhǔn)確性,。上表取值為100次運(yùn)行的平均值和標(biāo)準(zhǔn)偏差。
GCDE 被證明可以媲美最先進(jìn)的模型,,并且優(yōu)于它們的離散模型,。我們?cè)u(píng)估了如下兩種 GCDE的版本:
  • 一種是離散的固定步長(zhǎng)的方案,采用 Runge-Kutta4(GCDE-rk4),;
  • 另一種是自適應(yīng)步長(zhǎng)方案,,采用 Dormand-Prince(GDDE-dpr5)。
固定步長(zhǎng)的離散方案并不能保證 ODE 近似仍然接近解析解,;在這種情況下,,求解一個(gè)適當(dāng)?shù)?ODE 是不必要的,GCDE—rk4能夠提供一個(gè)計(jì)算效率高的類子結(jié)構(gòu)的FractalNet(比如GCN模型的結(jié)構(gòu))來提高準(zhǔn)確率,。         
如圖為Cora的訓(xùn)練損失和準(zhǔn)確率,,其中陰影區(qū)域是95%置信區(qū)間
另一方面,使用自適應(yīng)步長(zhǎng)解算器訓(xùn)練 GCDE 自然會(huì)比使用 vanilla GCN 模型的深度更深,,后者網(wǎng)絡(luò)層的深度使該網(wǎng)絡(luò)性能大大降低,。
實(shí)驗(yàn)中我們成功地訓(xùn)練了GCDE-dpr5,它有多達(dá)200個(gè)ODE函數(shù)評(píng)估(NFE),,這使得它對(duì)圖中的計(jì)算量明顯高于vanilla GCN(由于層數(shù)太深使得性能大幅度降低),。應(yīng)該注意的是,由于GDE在求解函數(shù)中會(huì)對(duì)參數(shù)重利用,,它比對(duì)應(yīng)的離散項(xiàng)需要更少的參數(shù),。
有趣的是,自適應(yīng)步長(zhǎng)GDE似乎不受節(jié)點(diǎn)特征過度平滑的影響,。過度平滑問題[10]阻礙了深層GNN在各個(gè)領(lǐng)域的有效使用,,特別是在多智能體強(qiáng)化學(xué)習(xí)(MARL)中,我們目前正在積極探索GDE這一特性,,并能夠很快進(jìn)行更為詳細(xì)的分析,。

四、時(shí)空 GDE

GDE 中一項(xiàng)關(guān)鍵的設(shè)定涉及到時(shí)空?qǐng)D數(shù)據(jù)信息,。在處理圖的序列信息時(shí),,需要用到 GNN 的遞歸版本 [11][12]。
然而, 與常規(guī)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)及其變體一樣,,在固定的離散度的情況下不允許其對(duì)不規(guī)則的樣本數(shù)據(jù)進(jìn)行操作,。這一事實(shí)進(jìn)一步推動(dòng)了基于到達(dá)次數(shù)之間的變動(dòng)的先驗(yàn)假設(shè)下 RNN 形式的發(fā)展,比如 RNN 的 ODE 版本 [14] ,。
在涉及時(shí)間分量的場(chǎng)景中,,GDE 中 S 的深度域與時(shí)間域一致,并且可以根據(jù)需求進(jìn)行調(diào)整,。例如,,給定時(shí)間窗口 Δt,使用 GDE 進(jìn)行預(yù)測(cè)的公式形式如下:
盡管擁有特殊的結(jié)構(gòu),,GDE 代表了一類圖序列的自回歸模型,,以混合動(dòng)態(tài)系統(tǒng)的形式自然地通往擴(kuò)展的經(jīng)典時(shí)空結(jié)構(gòu),比如:以時(shí)間連續(xù)和時(shí)間離散的動(dòng)力學(xué)相互作用為特征的系統(tǒng),。
它的核心思想是,,讓一個(gè) GDE 在兩種時(shí)間點(diǎn)之間平滑地控制潛在的節(jié)點(diǎn)特征,然后應(yīng)用一些離散算子,,讓節(jié)點(diǎn)特征 H 快速移動(dòng),,接著由輸出層來處理這些節(jié)點(diǎn)特征 H 。
給定一系列的時(shí)間常數(shù)以及一種數(shù)據(jù)的狀態(tài)——圖數(shù)據(jù)信息流,,自回歸 GDE 的一般公式為:
如圖為自回歸GDE,。擁有已知連續(xù)變量的時(shí)空GNN模型可以通過從這個(gè)系統(tǒng)中通過選擇合適的F,G,,K參數(shù)來獲得,。
其中,參數(shù) F,,G,,K 是類似于 GNN 的操作或者一般的神經(jīng)網(wǎng)絡(luò)層,H+表示經(jīng)過離散變換后的 H 值,。該系統(tǒng)的轉(zhuǎn)變過程可以通過混合自動(dòng)機(jī)進(jìn)行可視化處理:
自回歸 GDE的混合自動(dòng)機(jī)原理圖
與只具有離散跳躍的標(biāo)準(zhǔn)遞歸模型相比,,自回歸 GDE 在跳躍間包含了一個(gè)潛在特征節(jié)點(diǎn)的連續(xù)流 H。自回歸 GDE 的這一特性使它們能夠從不規(guī)則的觀測(cè)結(jié)果中來跟蹤動(dòng)態(tài)系統(tǒng),。
F,,G,K 的不同組合可以產(chǎn)生最常見的時(shí)空 GNN 模型的連續(xù)變量,。
為了評(píng)估自回歸 GDE 模型對(duì)預(yù)測(cè)任務(wù)的有效性,,我們?cè)诮⒌?PeMS 流量數(shù)據(jù)集上進(jìn)行了一系列實(shí)驗(yàn),。我們遵循文獻(xiàn)[15]的實(shí)驗(yàn)預(yù)設(shè)參數(shù),,并且附加了一個(gè)預(yù)處理步驟:對(duì)時(shí)間序列進(jìn)行欠采樣,為了模擬在具有不規(guī)則時(shí)間戳或有缺失值等具有挑戰(zhàn)性的環(huán)境,這里將每個(gè)輸入以 0.7 的概率進(jìn)行刪除,。
為了在由連續(xù)時(shí)間系統(tǒng)生成的數(shù)據(jù)設(shè)置中測(cè)量 GDE 獲得的性能提升,,我們使用 GCDE-GRU 及其對(duì)應(yīng)的離散 GCGRU[12],并將結(jié)果置于 vanilla GRU 度量標(biāo)準(zhǔn)中進(jìn)行測(cè)量,。
對(duì)于所考慮的每個(gè)模型,,我們收集了標(biāo)準(zhǔn)化 RMSE(NRMSE)和平均絕對(duì)百分比誤差(MAPE)結(jié)果。關(guān)于所選指標(biāo)和數(shù)據(jù)的更多細(xì)節(jié)請(qǐng)參見原論文,。
由于在訓(xùn)練和測(cè)試過程中平均的預(yù)測(cè)時(shí)間范圍會(huì)發(fā)生急劇變化,,這種時(shí)間戳之間的非恒定差異導(dǎo)致單個(gè)模型的預(yù)測(cè)任務(wù)更加具有挑戰(zhàn)性。為更加公平的對(duì)模型進(jìn)行比較,,我們將增量時(shí)間戳信息作為 GCGN 和 GRU 的附加節(jié)點(diǎn)特征,。
不規(guī)則數(shù)據(jù)預(yù)測(cè)任務(wù)的結(jié)果。此處取5次訓(xùn)練的平均值和標(biāo)準(zhǔn)差,。
由于 GCDE-GRU 和 GCGRU 的設(shè)計(jì)在結(jié)構(gòu)和參數(shù)數(shù)量上是匹配的,,我們可以在 NRSME 中測(cè)量到 3% 的性能增長(zhǎng),在MAPE中測(cè)量到7%的性能增長(zhǎng),。
對(duì)具有連續(xù)動(dòng)態(tài)和不規(guī)則數(shù)據(jù)集的其他應(yīng)用領(lǐng)域采用 GDE 作為建模工具,,也將同樣使其擁有優(yōu)勢(shì),例如在醫(yī)學(xué),、金融或分布式控制系統(tǒng)等領(lǐng)域,。我們正在這些領(lǐng)域進(jìn)行另外的一些相關(guān)實(shí)驗(yàn),歡迎提出任何要求,、想法或合作意見,。

五、結(jié)論

如上所述,,我們目前正在開發(fā)一個(gè)Github 庫(kù),,其中包含一系列針對(duì) GDE 模型不同類型的示例和應(yīng)用程序。
我們鼓勵(lì)大家對(duì)GDE的其他應(yīng)用程序在Github中進(jìn)行請(qǐng)求/建議操作:我們計(jì)劃它最終可以包括所有主流圖神經(jīng)網(wǎng)絡(luò)(GNN)架構(gòu)的GDE變體的相關(guān)工作示例,,部署在各種設(shè)置(預(yù)測(cè),、控制…)之中。
我們的論文可以在arXiv上作為預(yù)印本:如果您覺得我們的工作有用,,請(qǐng)考慮引用我們的論文,。

參考文獻(xiàn)

[1] P. W. Battaglia et al. Relational inductive biases, deep learning, and graph networks. arXiv preprint arXiv:1806.01261, 2018.
[2] J. Atwood and D. Towsley. Diffusion-convolutional neural networks. In Advances in Neural Information Processing Systems, pages 1993–2001, 2016.
[3] Z. Cui, K. Henrickson, R. Ke, and Y. Wang. Traffic graph convolutional recurrent neural network: A deep learning framework for network-scale traffic learning and forecasting. arXiv preprint arXiv:1802.07007, 2018
[4] J. Park and J. Park. Physics-induced graph neural network: An application to wind-farm power estimation.Energy, 187:115883, 2019.
[5] Li, O. Vinyals, C. Dyer, R. Pascanu, and P. Battaglia. Learning deep generative models of graphs. arXiv preprint arXiv:1803.03324, 2018.
[6] T. Q. Chen, Y. Rubanova, J. Bettencourt, and D. K. Duvenaud. Neural ordinary differential equations. In Advances in neural information processing systems, pages 6571–6583, 2018.
[7] Y. Lu, A. Zhong, Q. Li, and B. Dong. Beyond finite layer neural networks: Bridging deep architectures and numerical differential equations. arXiv preprint arXiv:1710.10121, 2017.
[8] T. N. Kipf and M. Welling. Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907, 2016.
[9] P. Velickovic, G. Cucurull, A. Casanova, A. Romero, P. Lio, and Y. Bengio. Graph attention networks. arXiv preprint arXiv:1710.10903, 2017.
[10] Chen, Deli, et al. “Measuring and Relieving the Over-smoothing Problem for Graph Neural Networks from the Topological View.” arXiv preprint arXiv:1909.03211 (2019).
[11] Y. Li, R. Yu, C. Shahabi, and Y. Liu. Diffusion convolutional recurrent neural network: Data-driven traffic forecasting. arXiv preprint arXiv:1707.01926, 2017
[12] X. Zhao, F. Chen, and J.-H. Cho. Deep learning for predicting dynamic uncertain opinions in network data. In 2018 IEEE International Conference on Big Data (Big Data), pages 1150–1155. IEEE, 2018.
[13] Z. Che, S. Purushotham, K. Cho, D. Sontag, and Y. Liu. Recurrent neural networks for multi-variate time series with missing values.Scientific reports, 8(1):6085, 2018.
[14] Rubanova, R. T. Chen, and D. Duvenaud. Latent odes for irregularly-sampled time series. arXiv preprint arXiv:1907.03907, 2019.
[15] B. Yu, H. Yin, and Z. Zhu. Spatio-temporal graph convolutional networks: A deep learning framework for traffic forecasting. In Proceedings of the 27th International Joint Conference on Artificial Intelligence (IJCAI), 2018.
via https:///graph-neural-ordinary-differential-equations-a5e44ac2b6ec

    

招 聘

AI 科技評(píng)論希望能夠招聘 科技編輯/記者 一名

辦公地點(diǎn):北京

職務(wù):以參與學(xué)術(shù)頂會(huì)報(bào)道、人物專訪為主

工作內(nèi)容:

1,、參加各種人工智能學(xué)術(shù)會(huì)議,,并做會(huì)議內(nèi)容報(bào)道;

2,、采訪人工智能領(lǐng)域?qū)W者或研發(fā)人員,;

3、關(guān)注學(xué)術(shù)領(lǐng)域熱點(diǎn)事件,并及時(shí)跟蹤報(bào)道,。

要求:

1,、熱愛人工智能學(xué)術(shù)研究?jī)?nèi)容,擅長(zhǎng)與學(xué)者或企業(yè)工程人員打交道,;

2,、有一定的理工科背景,對(duì)人工智能技術(shù)有所了解者更佳,;

3,、英語(yǔ)能力強(qiáng)(工作內(nèi)容涉及大量英文資料);

4,、學(xué)習(xí)能力強(qiáng),,對(duì)人工智能前沿技術(shù)有一定的了解,并能夠逐漸形成自己的觀點(diǎn),。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多