久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

WSDM2021 | 雙向圖卷積:一種新的圖卷積框架用于富文本網(wǎng)絡(luò)

 taotao_2016 2021-01-04

點(diǎn)擊上方 關(guān)注我們

題目:BiTe-GCN: A New GCN Architecture via Bidirectional Convolution of Topology and Features on Text-Rich Networks

作者:金弟(天津大學(xué)), 宋祥辰(伊利諾伊大學(xué)香檳分校), 于智郅(天津大學(xué)),,劉子揚(yáng) (京東), 張鶴齡(伊利諾伊大學(xué)香檳分校), 成照萌(京東), 韓家煒(伊利諾伊大學(xué)香檳分校)

會(huì)議:The 14th International Conference on Web Search and Data Mining (WSDM 2021)

文章鏈接: https:///abs/2010.12157 (manuscript)

1. 內(nèi)容簡(jiǎn)介

圖卷積神經(jīng)網(wǎng)絡(luò)(Graph convolutional networks GCNs)是一種通過(guò)堆疊圖卷積層來(lái)集成節(jié)點(diǎn)高階鄰域信息的神經(jīng)網(wǎng)絡(luò),被廣泛應(yīng)用于許多網(wǎng)絡(luò)分析任務(wù)(節(jié)點(diǎn)分類(lèi),、鏈路預(yù)測(cè)等),。然而,GCNs存在著不可避免的局限性:拓?fù)渚窒扌裕ㄟ^(guò)度平滑,,局部同質(zhì)性),,這些嚴(yán)重限制了其表示網(wǎng)絡(luò)的能力。現(xiàn)有的工作(如拓?fù)鋬?yōu)化,、自監(jiān)督等)主要通過(guò)將特征在拓?fù)渖线M(jìn)行卷積來(lái)緩解GCNs的拓?fù)湎拗?,這使得卷積結(jié)果嚴(yán)重依賴(lài)于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。與此同時(shí),,在真實(shí)世界中,,網(wǎng)絡(luò)很多是富文本網(wǎng)絡(luò)(即text-rich networks),多數(shù)現(xiàn)有方法在卷積時(shí)僅考慮了全局(文檔)級(jí)別的特征信息,,而忽略了局部(單詞)級(jí)別的文本序列信息,。為了解決這些問(wèn)題,我們提出了一種新的GCN架構(gòu)(BiTe-GCN),,對(duì)拓?fù)浣Y(jié)構(gòu)和特征的進(jìn)行聯(lián)合卷積進(jìn)而學(xué)習(xí)更好的節(jié)點(diǎn)特征,。具體來(lái)說(shuō),我們首先將原始的富文本網(wǎng)絡(luò)增廣為一個(gè)雙類(lèi)型(bi-typed)異構(gòu)網(wǎng)絡(luò),,進(jìn)而獲取全局(文檔)級(jí)別信息和局部文本序列信息,。其次,,我們?cè)O(shè)計(jì)了一種有辨別力的卷積機(jī)制,在同一系統(tǒng)中實(shí)現(xiàn)拓?fù)浣Y(jié)構(gòu)和特征的聯(lián)合卷積,,并針對(duì)不同目標(biāo)任務(wù)自動(dòng)學(xué)習(xí)拓?fù)浣Y(jié)構(gòu)與特征分別對(duì)目標(biāo)任務(wù)的貢獻(xiàn),。

2.方法

本文提出的框架主要由三部分構(gòu)成(如下圖所示)。首先,,我們將原始的富文本網(wǎng)絡(luò)增廣為一個(gè)雙類(lèi)型(bi-typed)異構(gòu)網(wǎng)絡(luò),,使得增廣后的網(wǎng)絡(luò)既能包含全局(文檔)級(jí)別信息,又能包含局部(單詞)級(jí)別文本序列信息,。其次,,基于元路徑(meta-path)的概念,利用一種有辨別力的多層次卷積機(jī)制對(duì)不同類(lèi)型網(wǎng)絡(luò)傳遞的節(jié)點(diǎn)信息進(jìn)行融合,,實(shí)現(xiàn)拓?fù)洳糠趾吞卣鞑糠值穆?lián)合卷積,。最后,利用一些常用技巧,,如注意力(attention)機(jī)制,,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)和模型的進(jìn)一步修正。

2.1 雙類(lèi)型(Bi-typed)網(wǎng)絡(luò)構(gòu)建

   雙類(lèi)型(Bi-typed)網(wǎng)絡(luò)構(gòu)建可以分為兩部分:詞網(wǎng)絡(luò)構(gòu)建和全網(wǎng)絡(luò)的補(bǔ)全,。

I. 詞網(wǎng)絡(luò)構(gòu)建

在富文本網(wǎng)絡(luò)中,,每個(gè)文檔節(jié)點(diǎn)vi 都和一個(gè)特征語(yǔ)料庫(kù)中的文檔di 相關(guān)聯(lián)(用于描述該節(jié)點(diǎn)的文檔)。為了充分利用語(yǔ)料庫(kù)中的信息,,我們首先將語(yǔ)料庫(kù)中的所有文檔轉(zhuǎn)換為詞子網(wǎng)絡(luò)GW =(VW ,EW),,VW 是從語(yǔ)料庫(kù)中提取的具有代表性的單詞或短語(yǔ)的集合,EW 是根據(jù)不同短語(yǔ)之間部分詞共享構(gòu)建的鏈接(如“text_mining”和“data_mining”共享“mining”一詞,,則構(gòu)建一條鏈接),。

lI. 全網(wǎng)絡(luò)補(bǔ)全

我們利用文檔和詞之間的包含關(guān)系,構(gòu)建文檔節(jié)點(diǎn)和詞節(jié)點(diǎn)之間的邊,。具體的,,文檔-詞子網(wǎng)絡(luò)表示為:

 III. 最后,整個(gè)網(wǎng)絡(luò)可以表示為:

2.2 聯(lián)合卷積

   不同于現(xiàn)有工作在雙類(lèi)型(Bi-typed)網(wǎng)絡(luò)中以交替的方式進(jìn)行信息傳遞,,我們采用聯(lián)合卷積的方式學(xué)習(xí)文檔節(jié)點(diǎn)和單詞節(jié)點(diǎn)的特征表示,。BiTe-GCN由兩級(jí)信息傳遞操作組成:相同類(lèi)型子網(wǎng)絡(luò)的信息傳遞和不同類(lèi)型子網(wǎng)絡(luò)的信息聚合。

l. 相同類(lèi)型子網(wǎng)絡(luò)的信息傳遞

針對(duì)相同類(lèi)型子網(wǎng)絡(luò),,我們利用原始的GCN層實(shí)現(xiàn)信息傳遞:

lI. 不同類(lèi)型子網(wǎng)絡(luò)的信息聚合

針對(duì)不同類(lèi)型子網(wǎng)絡(luò),,我們利用聚合函數(shù)AGG實(shí)現(xiàn)信息聚合:

因此,兩層的BiTe-GCN模型可以表示為:

III. 最后,,我們采用交叉熵定義損失函數(shù),,表示為:

2.3 數(shù)據(jù)修正

為了進(jìn)一步增強(qiáng)網(wǎng)絡(luò)中邊的語(yǔ)義信息,我們分別在文檔子網(wǎng)絡(luò)和單詞子網(wǎng)絡(luò)上進(jìn)行邊的修正。

l. 文檔網(wǎng)絡(luò)修正

文檔網(wǎng)絡(luò)中的邊一般是通過(guò)文檔之間的引用關(guān)系構(gòu)建的,。然而,,由于文檔作者自身知識(shí)的局限性,可能會(huì)引入不相關(guān)的引用,,或缺失真正重要文獻(xiàn)的引用,。為了解決這個(gè)問(wèn)題,我們利用文檔的特征表示,,通過(guò)余弦相似度來(lái)分析文檔間的語(yǔ)義相似性,,刪除語(yǔ)義相似度較低的文檔間的邊,,增加語(yǔ)義相似度較高的文檔間的邊,。

lI.詞網(wǎng)絡(luò)修正

我們采用兩種不同的嵌入(embedding)方法空間,歐式空間(Word2vec)和球面空間(JoSE),,通過(guò)捕捉詞之間的語(yǔ)義相似性,,進(jìn)一步對(duì)詞子網(wǎng)絡(luò)進(jìn)行修正。

2.4 模型修正

我們采用多頭注意力(multi-head attention)機(jī)制來(lái)學(xué)習(xí)來(lái)自文檔子網(wǎng)絡(luò)和詞子網(wǎng)絡(luò)之間的信息傳遞,。對(duì)于單頭注意力機(jī)制,,其表示為:

于是文檔節(jié)點(diǎn)在單頭注意力機(jī)制下的特征表示為:

   而文檔節(jié)點(diǎn)最終的節(jié)點(diǎn)表示是對(duì)所有注意力頭(attention head)的輸出進(jìn)行拼接,即:

3.實(shí)驗(yàn)

本文在四個(gè)真實(shí)富文本圖數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),。數(shù)據(jù)集的統(tǒng)計(jì)信息如下:

l節(jié)點(diǎn)分類(lèi)結(jié)果

4.在電子商務(wù)搜索中的應(yīng)用

我們的新框架同樣適用于一些電子商務(wù)平臺(tái)的搜索推薦場(chǎng)景(如下圖所示),。

5.總結(jié)

針對(duì)富文本網(wǎng)絡(luò),我們提出了一個(gè)新的GCN架構(gòu)(BiTe-GCN),,來(lái)克服GCNs的拓?fù)湎拗?過(guò)度平滑和拓?fù)涞木植客|(zhì)性),。我們的工作是第一個(gè)在同一系統(tǒng)中通過(guò)聯(lián)合卷積網(wǎng)絡(luò)和文本的方式來(lái)緩解GCN的拓?fù)湎拗啤Ec此同時(shí),,基于元路徑的概念,,利用有辨別力的層次卷積機(jī)制,我們能針對(duì)不同目標(biāo)任務(wù)(如節(jié)點(diǎn)分類(lèi))自動(dòng)學(xué)習(xí)網(wǎng)絡(luò)拓?fù)洳糠趾臀谋静糠值呢暙I(xiàn),。此外,,我們還從文本中整合了更多的語(yǔ)義和知識(shí)信息:全局文檔級(jí)別信息和局部文本序列信息。在四個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)與消融研究表明,,我們的新架構(gòu)比現(xiàn)有工作有較大的改進(jìn),。同時(shí),我們的新架構(gòu)也能很好地應(yīng)用于電子商務(wù)搜索場(chǎng)景(如JD搜索),。最后但同樣重要的是,,這種新架構(gòu)正交于許多現(xiàn)有的GCN方法,可以很容易地整合到現(xiàn)有方法中以進(jìn)一步改善其性能,。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀(guān)點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多