久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

清華大學崔鵬團隊:萬字長文梳理「穩(wěn)定學習」全景圖

 昵稱45199333 2022-06-24 發(fā)布于北京

圖片

圖片

導語

盡管基于相關(guān)性的機器學習在很多領(lǐng)域都取得了成功,,但是虛假相關(guān)帶來的潛在風險還是限制了這些模型在不少風險敏感領(lǐng)域的應(yīng)用。穩(wěn)定學習被提出來應(yīng)對這個挑戰(zhàn),,它試圖在不影響模型性能的情況下構(gòu)建更加可信的機器學習模型,。在今年的2月23日,清華大學計算機系崔鵬副教授與斯坦福大學Susan Athey(美國科學院院士,,因果領(lǐng)域國際權(quán)威)合作,,在全球頂級期刊Nature Machine Intelligence(影響因子IF=15.51,,2020)上發(fā)表了題為“Stable Learning Establishes Some Common Ground Between Causal Inference and Machine Learning”(穩(wěn)定學習:建立因果推斷和機器學習的共識)的觀點論文,深入探討和總結(jié)了因果推理在機器學習和人工智能領(lǐng)域取得的關(guān)注,,提出機器學習和因果推理之間應(yīng)該形成共識,,而穩(wěn)定學習正在向?qū)崿F(xiàn)這一目標的方向邁進。這篇推文基于上述學術(shù)觀點,,綜述了穩(wěn)定學習的一系列進展,,試圖為讀者提供一幅關(guān)于這一研究方向的全景圖。

集智俱樂部聯(lián)合零犀科技推出因果派品牌并策劃系列活動,。在7月2日14:00-17:00因果派論壇第一期「因果革命——下一代可信AI」上,,我們邀請到崔鵬老師以「推薦系統(tǒng)的分布外泛化」做報告,詳情見文末,,歡迎大家報名參與~

研究領(lǐng)域:機器學習,,穩(wěn)定學習

圖片

丁善一、陳天豪,、葛春江 | 作者

鄧一雪 | 編輯

目錄
導言 
〇,、機器學習面臨的挑戰(zhàn)
一、穩(wěn)定學習的提出
二,、穩(wěn)定學習的主要方法
三,、穩(wěn)定學習的應(yīng)用
四、小結(jié) 



〇,、機器學習面臨的挑戰(zhàn)



機器學習模型已經(jīng)在許多面向互聯(lián)網(wǎng)的場景取得成功,。在諸如預測點擊量或?qū)D像進行分類等應(yīng)用場景中,模型做出錯誤決策的代價似乎并不高,,因此從業(yè)者采用“性能驅(qū)動”的模式優(yōu)化人工智能技術(shù),,即只關(guān)注該模型在完成目標任務(wù)時體現(xiàn)出的性能而不太關(guān)注技術(shù)發(fā)生錯誤時的風險。當任務(wù)環(huán)境發(fā)生變化,,預測出現(xiàn)錯誤的時候,,人們通過頻繁地更新黑盒模型以保證預測的性能。然而,,在諸如醫(yī)療保健,、工業(yè)制造、金融和司法等與社會生活息息相關(guān)的領(lǐng)域,,機器學習模型做出的錯誤預測的后果往往是難以接受的,,這些場景也因此被稱為風險敏感的場景。由于數(shù)據(jù)獲取困難以及倫理問題,,在風險敏感的場景中因為環(huán)境變化而重新訓練機器學習模型的代價會比較昂貴,,因此模型的短期預測性能之外的特性也十分重要。為了促進機器學習模型在更多風險敏感場景的應(yīng)用,,我們需要仔細分析機器學習模型面臨的技術(shù)性風險,,并采取辦法克服這些風險,。

清華大學崔鵬副教授和斯坦福大學的Susan Athey在一篇今年發(fā)表于Nature Machine Intelligence的觀點論文中深入分析了機器學習發(fā)風險來源,他們提出缺乏穩(wěn)定性,、可解釋性和公平性是當今機器學習中必須解決的最關(guān)鍵和最緊迫的三個風險因素,,并指出可以利用因果關(guān)系的觀點來改善機器學習和預測建模。

缺乏穩(wěn)定性指的是模型在未知環(huán)境下預測性能不穩(wěn)定,。由于目前大多數(shù)機器學習模型依賴于I.I.D.假設(shè)(Independent and identically distributed),,即訓練數(shù)據(jù)集和測試數(shù)據(jù)集的數(shù)據(jù)分布是相似的。在實踐中,,模型的應(yīng)用環(huán)境常常是未知的,,即可能出現(xiàn)的(測試數(shù)據(jù)集)分布是無法完全預見的,I.I.D.假設(shè)在這時會被破壞,,模型的性能無法保證,。缺乏可解釋性是由于目前大多數(shù)現(xiàn)成的機器學習模型都是黑盒模型:算法過程和預測結(jié)果都不容易向人類解釋。在風險敏感領(lǐng)域,,由于錯誤決策會導致嚴重的后果,,往往需要讓人類留在決策循環(huán)中成為決策的最終的看門人。此時,,通用的語言來讓算法和人類理解和合作是必要的,。最后,主流的機器學習模型可能會放大數(shù)據(jù)中存在的偏差,,從而導致不公平的結(jié)果,,因此是缺乏公平性的。

因為常見的機器學習算法是基于輸入變量和輸出變量的相關(guān)性做預測,,當它遇到變量之間的虛假相關(guān)時,,便無法避免上述三個風險因素。數(shù)據(jù)中的相關(guān)性能歸類成三種模式:因果導致的相關(guān),,混淆導致的相關(guān)和選擇性偏差導致的相關(guān),,如圖1所示。

圖片

圖1:相關(guān)性的三種模式,,(a)因果相關(guān),;(b)混淆導致的相關(guān);(c)數(shù)據(jù)選擇性偏差導致的相關(guān),。

在這三種產(chǎn)生相關(guān)性的模式中,只有因果關(guān)系產(chǎn)生的相關(guān)性反映了變量之間的內(nèi)在依賴關(guān)系,;另外兩種類型是對特征的聯(lián)合分布和數(shù)據(jù)收集過程敏感的虛假相關(guān),。由于黑盒模型甚至沒有嘗試區(qū)分產(chǎn)生這些相關(guān)性的三種不同模式,它們的預測性能在很大程度上取決于測試分布與訓練分布的偏離程度,,從而導致在不同的測試分布下性能不穩(wěn)定,。同時,,基于虛假相關(guān)性的預測模型也可能是不公平的,因為它還放大了選擇性偏差,。

崔鵬老師在這篇發(fā)表在Nature Machine Intelligence的觀點論文中提出,,為了從根本上解決穩(wěn)定性、可解釋性和公平性的風險,,人們需要在機器學習框架中接受并強調(diào)因果關(guān)系,。因果關(guān)系實際上刻畫了數(shù)據(jù)生成機制,如果能夠識別和估計數(shù)據(jù)的因果結(jié)構(gòu),,預測建模自然可以作為副產(chǎn)品來解決,。遵循著強調(diào)因果關(guān)系的技術(shù)路徑,研究者必須解決因果推斷的所有挑戰(zhàn),。至此,,機器學習和因果推斷之間形成了共識。崔鵬老師團隊和國內(nèi)外其他團隊在這個問題上進行了諸多探索,,并形成了“穩(wěn)定學習”的方向,,朝著溝通機器學習和因果推斷的目標前進。

在本篇推送中,,我們首先給出了穩(wěn)定學習任務(wù)的動機和定義,,并總結(jié)了穩(wěn)定學習的主要方法,這些方法包括基于樣本加權(quán)的變量去相關(guān),、對抗穩(wěn)定學習,、異質(zhì)性風險最小化和穩(wěn)定學習的理論解釋等。隨后,,我們展示了穩(wěn)定學習在圖學習,,深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用,并討論了它是如何促進算法的公平性,,和處理領(lǐng)域自適應(yīng)問題的,。



一、穩(wěn)定學習的提出



穩(wěn)定學習的概念是在2018年的KDD會議上由崔鵬老師團隊提出的,。它旨在解決這樣一個問題,,當我們用機器學習進行預測建模的時候,如果對測試數(shù)據(jù)集沒有任何先驗知識,,如何保證模型在未知分布上做出穩(wěn)定預測,,即在保證預測性能的同時,盡量減小它在未知測試集的方差,。圖2展示了穩(wěn)定學習和傳統(tǒng)機器學習(獨立同分布學習, I.I.D.)與遷移學習的關(guān)系,,后兩者的優(yōu)化目標是在具有測試集分布先驗知識的情況下,最大化模型的預測性能(準確率)。同時,,穩(wěn)定學習假設(shè)在測試數(shù)據(jù)中存在多個環(huán)境,,因此對模型的泛化能力提出了更高的要求。

圖片

圖2:穩(wěn)定學習,,傳統(tǒng)機器學習(I.I.D.學習)和遷移學習的比較

在2018年發(fā)表在KDD會議的論文中,,崔鵬老師團隊受到因果推斷中利用協(xié)變量平衡估計因果效應(yīng)的思想的啟發(fā),提出了一種新的深度全局平衡回歸(Deep Global Balancing Regression, DGBR)算法,,聯(lián)合優(yōu)化一個用于特征選擇(降維)的深度自動編碼器模型,,和一個用于未知環(huán)境下穩(wěn)定預測的全局平衡模型。這個全局平衡模型評估了任意一個特征在被隔離(isolated)的情況下,,該個特征對響應(yīng)的因果效應(yīng),,并以此構(gòu)建了一組使得變量被平衡(variable balancing)的樣本權(quán)重,讓加權(quán)后的樣本的所有特征都盡可能相互獨立,。這個算法在高維度的數(shù)據(jù)中也適用,。



二、穩(wěn)定學習的主要方法



DGBR算法首次解決了二元預測變量(特征)和二元離散響應(yīng)變量設(shè)定下的穩(wěn)定預測問題,。此后,,一系列穩(wěn)定學習方法來被提出來,用于解決更多不同設(shè)定下的穩(wěn)定預測問題,。而后續(xù)設(shè)計的穩(wěn)定學習方法不僅僅再局限于因果推斷的角度,,還包括了統(tǒng)計學習、優(yōu)化過程等不同視角,,它們將在本節(jié)被逐一介紹,。

2.1 基于樣本加權(quán)的變量去相關(guān)

崔鵬老師團隊針對具有模型錯估(model misspecification,即模型與數(shù)據(jù)生成機制不一致)穩(wěn)定預測問題進行了進一步探索,。Zheyan Shen等人研究了在線性模型中,,變量間的共線性是如何影響預測穩(wěn)定性的,并提出了一種一般的數(shù)據(jù)預處理方法,,通過訓練集樣本重加權(quán)來去除預測變量(特征)間的相關(guān)性,,以減小共線性效應(yīng)。況琨等人的工作則進一步改進了DGBR算法,,提出了去相關(guān)加權(quán)回歸算法(Decorrelated Weighting Regression, DWR),,結(jié)合了變量去相關(guān)正則化與加權(quán)回歸模型,解決了在連續(xù)的預測變量(特征)的設(shè)定下,,模型的穩(wěn)定預測問題,。

圖片

圖3:DWR模型和基線模型在不同測試環(huán)境下性能的比較;左圖:橫軸代表不同的環(huán)境,,縱軸代表預測誤差,,不同顏色代表不同的模型,;右圖:橫軸代表不同的模型,縱軸代表在不同環(huán)境下的平均錯誤,,性能的方差在條柱頂端用黑實線標出。

去除所有變量之間的相關(guān)性固然是找到因果相關(guān),,平衡協(xié)變量并實現(xiàn)穩(wěn)定預測的好主意,,它的代價是大大降低了有效樣本量(efficient sample size),而這在機器學習訓練中是災(zāi)難性的,。Zheyan Shen等人通過使用來自不同環(huán)境的未標注數(shù)據(jù),,提出了一種基于變量聚類的變量分解的算法,稱為區(qū)分性變量去相關(guān)(Differentiated Variable Decorrelation, DVD),。這個方法是注意到保留因果性變量之間的相關(guān)性未必會導致模型在未知環(huán)境中的性能不穩(wěn)定,。以特征間相關(guān)性的在訓練集數(shù)據(jù)和未標注之間的數(shù)據(jù)穩(wěn)定性作為聚類的指標,可以將預測變量(特征)進行聚類并為不同的聚類簇,,其中一些聚類簇代表了對相應(yīng)變量具有因果效應(yīng)的特征集合,。在平衡混淆變量時只需要隔離這些聚類簇即可。由于聚類簇的數(shù)量遠低于特征的維度,,因此DVD與樣本加權(quán)方法DWR相比,,保持了更高的有效樣本量。

圖片

圖4:與不加區(qū)分地去除所有變量的相關(guān)性的方法(DWR)相比,,區(qū)分性變量去相關(guān)方法(DVD)在相同設(shè)定下具有更大的有效樣本量,。

2.2 對抗穩(wěn)定學習

由于人們總是想最大化地利用訓練數(shù)據(jù)中發(fā)現(xiàn)的所有相關(guān)性,具有經(jīng)驗風險最小化的機器學習算法在分布變化下很容易受到攻擊,。崔鵬老師團隊提出了穩(wěn)定對抗學習 (Stable Adversarial Learning, SAL) 算法,,以一種更有原則和統(tǒng)一的方式來解決這個問題,該算法利用異構(gòu)數(shù)據(jù)源構(gòu)建更實用的不確定性集并進行差異化魯棒性優(yōu)化,,其中協(xié)變量根據(jù)其與目標相關(guān)性的穩(wěn)定性進行區(qū)分,。

具體來說,該方法就是采用了Wasserstein分布式魯棒學習(Wasserstein distributionally robust learning, WDRL)的框架,。根據(jù)協(xié)變量在多個環(huán)境中的穩(wěn)定性,,進一步將不確定性集表征為各向異性,這會給不穩(wěn)定協(xié)變量帶來比穩(wěn)定協(xié)變量更強的對抗性擾動,。并且設(shè)計了一種協(xié)同算法來聯(lián)合優(yōu)化協(xié)變量的微分過程以及模型參數(shù)的對抗訓練過程,。

在實驗中,將SAL算法與經(jīng)驗風險最小化 (Empirical Risk Minimization, ERM) 框架,、Wasserstein分布式魯棒學習 (Wasserstein distributionally robust learning, WDRL) 框架,、不變風險最小化 (Invariant Risk Minimization, IRM) 框架進行比較:

圖片

圖5:實驗結(jié)果。(a)各環(huán)境下的測試性能,。(b) 關(guān)于半徑的測試性能,。(c) S和V相對于半徑的學習系數(shù)值,。

實驗結(jié)果表明,SAL算法各向異性地考慮每個協(xié)變量以實現(xiàn)更真實的魯棒性,。并且構(gòu)建了一個更好的不確定性集,,在不同分布的數(shù)據(jù)上取得了一致更好的表現(xiàn),驗證了算法的有效性,。

2.3 異質(zhì)性風險最小化

同樣地,,如果想完全利用訓練數(shù)據(jù)中發(fā)現(xiàn)的所有相關(guān)性,具有經(jīng)驗風險最小化的機器學習算法通常還會具有較差的泛化性能,,這些相關(guān)性在分布變化下不穩(wěn)定,。崔鵬老師團隊提出了異質(zhì)性風險最小化 (Heterogeneous Risk Minimization, HRM) 框架,以實現(xiàn)對數(shù)據(jù)之間潛在異質(zhì)性和不變關(guān)系的聯(lián)合學習,,從而在分布變化的情況下實現(xiàn)穩(wěn)定的預測,。

圖片

圖6:HRM框架

總體框架如圖6所示,該框架包含兩個模塊,,用于異質(zhì)性識別的前端和用于不變預測的后端Mp,。給定異質(zhì)性數(shù)據(jù),它從異質(zhì)性識別模塊Mc開始,,利用學習的變體Ψ(X)表示生成異質(zhì)性環(huán)境εlearn,。然后分布外泛化預測模塊Mp使用學習到的環(huán)境來學習MIPΦ(X)以及不變預測模型f(Φ(X))。之后,,我們推導出變體Ψ(X)以進一步提升模塊Mc,。至于“轉(zhuǎn)換”步驟,基于我們的設(shè)定,,我們在這項工作中采用了特征選擇,,通過它可以在學習更多不變的特征時獲得更多的變異特征。

HRM是一種優(yōu)化框架,,可實現(xiàn)數(shù)據(jù)和不變預測器之間潛在異質(zhì)性的聯(lián)合學習,。盡管分布發(fā)生變化,在該框架下仍具有更好的泛化能力,。

為了驗證該框架的有效性,,崔鵬老師團隊將HRM框架與經(jīng)驗風險最小化 (Empirical Risk Minimization, ERM) 框架、分布魯棒優(yōu)化 (Distributionally Robust Optimization, DRO) 框架,、不變學習的環(huán)境推理 (Environment Inference for Invariant Learning, EIIL) 框架,、具有環(huán)境εtr標簽的不變風險最小化 (IRM) 框架進行比較。

實驗表明,,與基線方法相比,,HRM在平均性能和穩(wěn)定性方面取得了近乎完美的表現(xiàn),尤其是跨環(huán)境損失的方差接近于0,。此外,,HRM不需要環(huán)境標簽,,這驗證了我們的聚類算法可以挖掘數(shù)據(jù)內(nèi)部潛在的異質(zhì)性。

繼續(xù)進行了三個真實場景的預測,,包括汽車保險預測,、人們收入預測和房價預測。

圖片

圖7:真實場景的預測結(jié)果,。

(a) 汽車保險預測的訓練和測試準確性,。左子圖顯示了5種設(shè)置的訓練結(jié)果,右子圖顯示了它們對應(yīng)的測試結(jié)果,。(b) 收入預測的誤分類率。(c) 房價預測的預測誤差,。

從實驗結(jié)果可以看出,,在所有任務(wù)和幾乎所有測試環(huán)境中,HRM始終保持最佳性能,。HRM可以有效地揭示和充分利用訓練數(shù)據(jù)的內(nèi)在異質(zhì)性進行不變學習,。HRM放寬了對環(huán)境標簽的要求,為不變學習開辟了新的方向,。它能夠涵蓋廣泛的應(yīng)用,,例如醫(yī)療保健、金融,、營銷等,。

2.4 穩(wěn)定學習的理論解釋

協(xié)變量偏移泛化是分布外泛化 (out-of-distribution, OOD) 中的典型案例,它要求在未知測試分布上具有良好的性能,,并且該測試分布與訓練分布差距體現(xiàn)在協(xié)變量遷移上,。在涉及回歸算法和深度神經(jīng)網(wǎng)絡(luò)的幾種學習模型上,穩(wěn)定的學習算法在處理協(xié)變量移位泛化方面已經(jīng)顯示出一定的有效性,。崔鵬老師團隊通過將穩(wěn)定學習算法解釋為特征選擇的過程,,向理論分析邁進了一步。

具體是這樣的,,首先定義一組變量,,稱為最小穩(wěn)定變量集(minimal stable variable set),它是處理常見損失函數(shù)(包括均方損失和二元交叉熵損失)下的協(xié)變量遷移泛化的最小且最優(yōu)的變量集合,。然后證明了在理想條件下,,穩(wěn)定的學習算法可以識別出這個集合中的變量。這些理論闡明了為什么穩(wěn)定學習適用于協(xié)變量遷移泛化,。

圖片

典型穩(wěn)定學習算法的框架如算法1所示,。該算法通常包括兩個步驟,分別是重要性采樣和加權(quán)最小二乘,。在理想條件下,,穩(wěn)定學習算法可以識別最小穩(wěn)定變量集,,這是可以在協(xié)變量偏移下提供良好預測的最小變量集。

最小穩(wěn)定變量集與馬爾可夫邊界密切相關(guān),,穩(wěn)定學習在一定程度上有助于識別馬爾可夫邊界,。此外,如果以協(xié)變量移位泛化為目標,,馬爾可夫邊界不是必需的,,而最小穩(wěn)定變量集是充分且最優(yōu)的。

與馬爾可夫邊界相比,,最小穩(wěn)定變量集可以帶來兩個優(yōu)勢,。

① 條件獨立性檢驗是精確發(fā)現(xiàn)馬爾可夫邊界的關(guān)鍵。

② 在幾個常見的機器學習任務(wù)中,,包括回歸和二元分類,,并不是所有的變量都在馬爾可夫邊界。最小穩(wěn)定變量集被證明是馬爾可夫邊界的子集,,它排除了馬爾可夫邊界中無用的變量,,用于協(xié)變量移位泛化。



三,、穩(wěn)定學習的應(yīng)用



3.1 圖上的穩(wěn)定學習

3.1.1 具有選擇性偏差的多個環(huán)境中學習穩(wěn)定圖

如今,,圖已成為一種通用且強大的表示,通過其結(jié)構(gòu)中編碼的底層模式來描述不同類型實體之間的豐富關(guān)系,。然而,,圖生成的數(shù)據(jù)收集過程充滿了已知或未知的樣本選擇性偏差,尤其是在非平穩(wěn)和異構(gòu)的環(huán)境中,,實體之間會存在虛假關(guān)聯(lián),。針對從具有選擇性偏差的多個環(huán)境中學習穩(wěn)定圖的問題,崔鵬老師團隊設(shè)計了一個無監(jiān)督的穩(wěn)定圖學習 (Stable Graph Learning, SGL) 框架,,用于從集合數(shù)據(jù)中學習穩(wěn)定圖,,該框架由GCN (Graph Convolutional Networks) 模塊和針對高維稀疏集合數(shù)據(jù)的E-VAE (element-wise VAE) 模塊組成。

穩(wěn)定圖學習的任務(wù)是學習一個表示無偏連接結(jié)構(gòu)的圖Gs,,因為環(huán)境中的圖是從數(shù)據(jù)生成的,,如果數(shù)據(jù)的收集過程來自具有選擇性偏差的環(huán)境,則元素之間的虛假相關(guān)性會導致圖在其他環(huán)境中表現(xiàn)不佳,。SGL框架能很好地解決這個問題,,SGL框架可以分解為兩個步驟,包括基于圖的集合生成和穩(wěn)定圖學習,?;趫D的集合生成的詳細框架如圖8所示。

圖片

圖8:基于圖的集合生成的詳細框架,。

穩(wěn)定圖學習過程圖解如圖9所示,。

圖片

圖9:穩(wěn)定圖學習的過程圖解,。

在模擬實驗中,如圖10所示,,在幾乎所有的實驗中,,SGL框架的性能要穩(wěn)定得多,特別是當兩個環(huán)境之間的差異更顯著時,,它比所有基線方法都達到更高的平均準確度,。

圖片

圖10:模擬實驗結(jié)果。每個子圖對應(yīng)一個實驗,,紫色曲線表示SGL框架生成的圖Gs的實驗表現(xiàn),。

而相應(yīng)地,在真實實驗里,,崔鵬老師團隊研究了商品推薦的常見實際應(yīng)用中的穩(wěn)定圖結(jié)構(gòu)問題,。

從表1可以看出,SGL框架生成的圖Gs可以平衡兩種環(huán)境下的相關(guān)性,,更穩(wěn)定地達到最高平均預測率。

圖片

表1:使用從商品網(wǎng)絡(luò)中學習的項目嵌入進行帶有曝光偏差的購買行為預測,。

如表2所示,。SGL框架可以很好地彌補單一環(huán)境下的信息損失,通過學習商品之間的本質(zhì)關(guān)系,,生成整體性能最佳的圖Gs,。

圖片

表2:使用從商品網(wǎng)絡(luò)中學習到的項目嵌入來預測不同性別群體的購買行為。

圖生成的數(shù)據(jù)選擇性偏差可能導致有偏差的圖結(jié)構(gòu)在Non-I.I.D.場景中性能不佳,。針對該問題提出的SGL框架可以提高學習圖的泛化能力,,并能很好地適應(yīng)不同類型的圖表和收集的數(shù)據(jù)。

3.1.2 具有不可知分布偏移的圖的穩(wěn)定預測

圖神經(jīng)網(wǎng)絡(luò) (Graph Neural Networks, GNNs) 已被證明在具有隨機分離的訓練和測試數(shù)據(jù)的各種圖任務(wù)上是有效的,。然而,,在實際應(yīng)用中,訓練圖的分布可能與測試圖的分布不同,。此外,,在訓練GNNs時,測試數(shù)據(jù)的分布始終是不可知的,。因此,,大家面臨著圖學習訓練和測試之間的不可知分布轉(zhuǎn)變,這將導致傳統(tǒng)GNNs在不同測試環(huán)境中的推理不穩(wěn)定,。

為了解決這個問題,,浙江大學況琨老師團隊提出了一種新的GNNs穩(wěn)定預測框架,它允許在圖上進行局部和全局穩(wěn)定的學習和預測,可以減少異構(gòu)環(huán)境中的訓練損失,,從而使GNNs能夠很好地泛化,。換句話說,,是為GNNs設(shè)計了一種新的穩(wěn)定預測框架,該框架能捕獲每個節(jié)點的穩(wěn)定屬性,,在此基礎(chǔ)上學習節(jié)點表示并進行預測(局部穩(wěn)定),,并規(guī)范GNNs在異構(gòu)環(huán)境中的訓練(全局穩(wěn)定)。該方法的本質(zhì)如圖11所示,。

圖片

圖11:整體架構(gòu),。由兩個基本組成部分組成,即在每個目標節(jié)點的表示學習中捕獲跨環(huán)境穩(wěn)定的屬性的局部穩(wěn)定學習,,以及顯式平衡不同訓練的全局穩(wěn)定學習環(huán)境,。

在圖基準實驗中,浙江大學況琨老師團隊使用OGB數(shù)據(jù)集和傳統(tǒng)基準Citeseer數(shù)據(jù)集,,構(gòu)建兩層GCN和GAT,。所有其他方法(包括我們的方法)也包含兩個圖形層以進行公平比較。OGBarxiv的所有方法的隱藏層神經(jīng)節(jié)點個數(shù)為250,,Citeseer的隱藏層神經(jīng)節(jié)點個數(shù)為64,,學習率為0.002。

測試結(jié)果如圖12和圖13所示,。穩(wěn)定預測框架有著更穩(wěn)定的實驗結(jié)果,。當測試分布與訓練分布的差異更大時,大多數(shù)GNNs會遭受分布變化并且產(chǎn)生較差的性能(例如,,圖12a的右側(cè)),。盡管穩(wěn)定預測框架在分布更接近訓練的測試環(huán)境中犧牲了一些性能(例如,圖12a的左側(cè)),,但獲得了顯著更高的 Average_Score 和更低的 Stability_Error,。

圖片

圖12:在OGB-Arxiv數(shù)據(jù)集上的測試結(jié)果。

圖片

圖13:在Citeseer數(shù)據(jù)集上的測試結(jié)果

為了證明穩(wěn)定預測框架在實際應(yīng)用中的有效性,,浙江大學況琨老師團隊收集真實世界的嘈雜數(shù)據(jù)集,,對推薦系統(tǒng)的用戶-項目二分圖進行了實驗。如圖14,、15的實驗結(jié)果表明,,穩(wěn)定預測框架比其他基線方法取得了明顯更穩(wěn)定的結(jié)果。

圖片

圖14:具有由節(jié)點屬性引起的分布偏移的真實世界推薦數(shù)據(jù)集的結(jié)果,。

圖片圖15:具有真實世界環(huán)境的推薦數(shù)據(jù)集的結(jié)果(每天作為一個單獨的環(huán)境),。

3.2 深度神經(jīng)網(wǎng)絡(luò)中的穩(wěn)定學習

基于深度神經(jīng)網(wǎng)絡(luò)的方法在測試數(shù)據(jù)和訓練數(shù)據(jù)共享相似分布時取得了驚人的性能,但有時可能會失敗,。因此,,消除訓練和測試數(shù)據(jù)之間分布變化的影響對于構(gòu)建性能有希望的深度模型至關(guān)重要。崔鵬老師團隊建議通過學習訓練樣本的權(quán)重來消除特征之間的依賴關(guān)系來解決這個問題,這有助于深度模型擺脫虛假關(guān)聯(lián),,進而更多地關(guān)注判別特征和標簽之間的真正聯(lián)系,。

崔鵬老師團隊提出了一種稱為StableNet的方法。該方法通過全局加權(quán)樣本來解決分布偏移問題,,以直接對每個輸入樣本的所有特征進行去相關(guān),,從而消除相關(guān)和不相關(guān)特征之間的統(tǒng)計相關(guān)性。這是一種基于隨機傅立葉特征 (Random Fourier Features, RFF) 的新型非線性特征去相關(guān)方法,,具有線性計算復雜度,。同時,它也是有效的優(yōu)化機制,,通過迭代保存和重新加載模型的特征和權(quán)重來全局感知和消除相關(guān)性,,還能在訓練數(shù)據(jù)量大時減少存儲的使用和計算成本。此外,,如圖16所示,,StableNet可以有效地剔除不相關(guān)的特征(例如,水)并利用真正相關(guān)的特征進行預測,,從而在野外非平穩(wěn)環(huán)境中獲得更穩(wěn)定的性能,。

圖片

圖16:當識別狗的訓練圖像包含很多水時,StableNet模型主要關(guān)注于狗,。

圖片

圖17:StableNet的整體架構(gòu),。

為了涵蓋更普遍和更具挑戰(zhàn)性的分布變化案例,崔鵬老師團隊在實驗中采用如下四種設(shè)置:非平衡,、靈活、對抗,、經(jīng)典,。在不同的實驗設(shè)置下,StableNet都能不同程度得優(yōu)于其他方法,。

在消融研究中,,通過隨機選擇用于計算具有不同比率的依賴關(guān)系的特征來進一步降低特征維度。圖18顯示了具有不同維度隨機傅里葉特征的實驗結(jié)果,。

圖片

圖18:消融研究的結(jié)果,。

圖像分類模型的一種直觀解釋是識別對最終決策有很大影響的像素。所以,,在顯著性圖像上,,為了演示模型在進行預測時是關(guān)注對象還是上下文(域),對類別得分函數(shù)相對于輸入像素的梯度進行了可視化,??梢暬Y(jié)果如圖19所示。

圖片

圖19:StableNet的顯著性圖像,。像素越亮,,它對預測的貢獻就越大,。

各種實驗結(jié)果表明,StableNet方法可以通過樣本加權(quán)消除相關(guān)和不相關(guān)特征之間的統(tǒng)計相關(guān)性,,進而有效剔除不相關(guān)的特征并利用真正相關(guān)的特征進行預測,。

3.3 穩(wěn)定學習與公平性

如今,公平問題已經(jīng)成為了決策系統(tǒng)中的重要問題,。已經(jīng)有很多學者提出了各種公平的概念來衡量算法的不公平程度。珀爾研究了伯克利大學研究生入學性別偏見的案例,。數(shù)據(jù)顯示,總體而言,,男性申請人的入學率較高,,但在研究院系選擇時,結(jié)果有所不同,。由院系選擇引起的偏差應(yīng)該被認為是公平的,,但傳統(tǒng)的群體公平觀念由于沒有考慮院系選擇而無法判斷公平。受此啟發(fā),,基于因果關(guān)系的公平理念應(yīng)運而生,。在這些論文中,作者首先假設(shè)了特征之間的因果圖,,然后,,他們可以將敏感屬性對結(jié)果的不公平因果效應(yīng)定義為一個度量。然而,,這些公平性概念需要非常有力的假設(shè),,而且它們不可擴展。在實踐中,,經(jīng)常存在一組我們稱之為公平變量的變量,,它們是決策前的協(xié)變量,例如用戶的選擇,。

公平變量并不會影響評估決策支持算法的公平性,。因此,崔鵬老師團隊通過設(shè)置公平變量將條件公平定義為更合理的公平度量,。通過選取不同的公平變量,,崔鵬老師團隊證明了傳統(tǒng)的公平概念,例如統(tǒng)計公平和機會均等,,是條件公平符號的特例,。并且提出了一種可求導的條件公平正則化器(Derivable Conditional Fairness Regularizer, DCFR),它可以集成到任何決策模型中,以跟蹤算法決策的精度和公平性之間的權(quán)衡,。

圖片

圖20:DCFR的框架,。

為了公平比較,在實驗中,,選擇也使用對抗性表示學習的方法來解決問題的公平優(yōu)化算法作對照,。有UNFAIR,、ALFR,、CFAIR和LAFTR,以及它的變體LAFTR-DP和LAFTR-EO,。

圖片

圖21:各種數(shù)據(jù)集(從上到下依次為收入數(shù)據(jù)集,、荷蘭人口普查數(shù)據(jù)集,、COMPAS數(shù)據(jù)集)上不同公平性指標(從左到右依次為Δ????,、Δ????、Δ????)的準確性-公平性權(quán)衡曲線,。DCFR以粗線顯示。

很明顯,,在實驗中DCFR更有優(yōu)勢,在準確性和公平性上達到更好的權(quán)衡效果,。對于統(tǒng)計公平和機會均等任務(wù),DCFR的退化變體能有與專為這些任務(wù)設(shè)計的最先進基線方法相當?shù)男阅?,有時甚至還能有更好的結(jié)果。綜上所述,DCFR在真實數(shù)據(jù)集上非常有效,,并在條件公平目標上取得了良好的性能,。并且隨著公平變量的數(shù)量增加,其表現(xiàn)會更好,。

3.4 穩(wěn)定學習與領(lǐng)域自適應(yīng)

穩(wěn)定學習最初的定義是不需要目標域信息的,,這里的領(lǐng)域自適應(yīng)是一種利用了目標域信息的做法,可以理解為拓展了最初的穩(wěn)定學習的含義,。

研究表明,,深度神經(jīng)網(wǎng)絡(luò)學習到的表征可以轉(zhuǎn)移到我們沒有充足標記數(shù)據(jù)的其他領(lǐng)域中,并進行類似的預測任務(wù),。然而,,當我們過渡到模型中的更高神經(jīng)層時,表征變得更加適用于特定任務(wù)而不通用,。關(guān)于這個問題,,深度域適應(yīng)的研究提出通過強制深度模型學習更多跨域可遷移的表征來緩解。這其實是通過將域適應(yīng)方法整合到深度學習管道中來實現(xiàn)的,。然而,,相關(guān)性并不總是可轉(zhuǎn)移的。亞利桑那州立大學(Arizona State University,,ASU)劉歡老師團隊提出了一個用于無監(jiān)督域適應(yīng) (Deep Causal Representation learning framework for unsupervised Domain Adaptation, DCDAN) 的深度因果表示學習框架,,以學習用于目標域預測的可遷移特征表示,如圖22所示,。其實就是使用來自源域的重新加權(quán)樣本來模擬虛擬目標域,,并估計特征對結(jié)果的因果影響。

圖片

圖22:DCDAN概述,。

DCDAN由一個正則化項組成,,該正則化項通過平衡從數(shù)據(jù)中學習到的特征表示的分布來學習源數(shù)據(jù)的平衡權(quán)重。這些權(quán)重的設(shè)計有助于模型捕捉特征對目標變量的因果影響,,而不是它們的相關(guān)性,。此外,我們的模型包括深度神經(jīng)網(wǎng)絡(luò)的加權(quán)損失函數(shù),,其中每個樣本的權(quán)重來自正則化項,,損失函數(shù)負責學習預測域不變特征,以及將學習到的表征映射到輸出的分類器或因果機制,。將學習組件的樣本權(quán)重嵌入到模型的管道中,并將這些權(quán)重與表征聯(lián)合學習,,這樣不僅可以從深度模型中受益,,還能學習對目標具有可轉(zhuǎn)移性和良好預測效果的因果特征,。

圖片

圖23:DCDAN生成的數(shù)據(jù)集中樣本示例(EQ2)和熱圖。圖23(a)顯示了來自數(shù)據(jù)的示例圖像,,圖23(b)顯示了從VQA-X數(shù)據(jù)集中提取的圖23(a)的因果特征的基本事實,圖23(c) 顯示了DCDAN為因果表征生成的熱圖

為了驗證該框架的有效性,,亞利桑那州立大學(Arizona State University,,ASU)劉歡老師團隊將ResNet-50、DDC,、DAN,、Deep CORAL、DANN,、HAFN設(shè)置為對照方法來進行實驗,。

圖片

圖24:DCDAN和Resnet-50 在VQA-X數(shù)據(jù)子集上生成的熱圖,。

圖片

圖25:在任務(wù)上具有不同超參數(shù)、和的DCDAN的準確性,。

在實驗中,,DCDAN在許多情況下優(yōu)于基線方法,結(jié)果表明DCDAN可以執(zhí)行無監(jiān)督的域自適應(yīng),,顯示了它在學習因果表示方面的有效性,。而且這還驗證了因果特征表示有助于學習跨域的可遷移特征,進一步證實了因果損失和分類損失之間的良好權(quán)衡可以導致學習更多可轉(zhuǎn)移的特征,。



四,、小結(jié)



本篇推送總結(jié)了穩(wěn)定學習的研究進展,為這個研究方向給出了一個大圖景,??偟膩碚f,穩(wěn)定學習受到因果推斷的啟發(fā),,試圖識別出在不同環(huán)境下都具有穩(wěn)定性的預測變量,,從而克服虛假相關(guān)帶來的影響,使得機器學習模型在不同環(huán)境下的表現(xiàn)在理論上具有穩(wěn)定性,。最開始的穩(wěn)定學習方法改進自因果推斷中的協(xié)變量平衡,,而隨后發(fā)展的方法還包括了統(tǒng)計學習、優(yōu)化過程等不同視角,,因此進一步豐富了穩(wěn)定學習的含義,。穩(wěn)定學習為當下機器學習和預測建模提供了一個新的學習范式,,來彌補相關(guān)性學習和因果關(guān)系之間的鴻溝,,從而一定程度上克服機器學習模型在穩(wěn)定性,、可解釋性和公平性等方面所面臨的風險。在未來,,穩(wěn)定學習將繼續(xù)致力于在不犧牲預測能力的情況下構(gòu)建更加可信的預測模型,,并合理地放松關(guān)于因果推斷的嚴格假設(shè),以匹配更多現(xiàn)實的應(yīng)用場景,。

參考文獻

[1]. Peng, C. and A. Susan, Stable learning establishes some common ground between causal inference and machine learning. Nature machine intelligence, 2022. 4(2): p. 110-115.

[2]. Kuang, K., et al. Stable Prediction across Unknown Environments. in ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.

[3]. Shen, Z., et al. Stable Learning via Differentiated Variable Decorrelation. in 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: ACM.

[4]. Shen, Z., et al., Stable Learning via Sample Reweighting. AAAI2020, 2019.

[5]. Kuang, K., et al. Stable Prediction with Model Misspecification and Agnostic Distribution Shift. in Association for the Advancement of Artificial Intelligence. 2020.

[6]. Liu, J., et al. Stable Adversarial Learning under Distributional Shifts. in Association for the Advancement of Artificial Intelligence, 2021. 2020.

[7]. Liu, J., et al. Heterogeneous Risk Minimization. in International Conference on Machine Learning. 2021.

[8]. Liu, J., et al. Kernelized Heterogeneous Risk Minimization. in 35th Conference on Neural Information Processing Systems (NeurIPS 2021). 2021.

[9]. Xu, R., et al. Algorithmic Decision Making with Conditional Fairness. in ACM Conferences. 2020: ACM.

[10]. Zhang, X., et al. Deep Stable Learning for Out-Of-Distribution Generalization. in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021.

[11]. He, Y., et al. Learning Stable Graphs from Multiple Environments with Selection Bias. in ACM Conferences. 2020: ACM.

[12]. Zhang, S., et al., Stable Prediction on Graphs with Agnostic Distribution Shift. 2021.

[13]. Xu, R., et al., Why Stable Learning Works? A Theory of Covariate Shift Generalization. 2021.

[14]. Moraffah, R., et al., Deep causal representation learning for unsupervised domain adaptation. 2019.

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導購買等信息,謹防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多