今天為大家介紹的是來自Jie Ding和Jia Liu團隊的一篇關于多模態(tài)生物數(shù)據(jù)分析的論文。目前生物技術可以同時從同一組細胞中測量多個高維度的模態(tài)(例如RNA,、DNA可及性和蛋白質),。需要結合不同的分析任務來全面理解這些數(shù)據(jù),推斷基因調控如何驅動生物多樣性和功能,。然而,,當前的分析方法只能執(zhí)行單一任務,僅提供多模態(tài)數(shù)據(jù)的部分信息,。為此,,作者提出了UnitedNet,一個可解釋的多任務深度神經網絡,,能夠整合不同的任務來分析單細胞多模態(tài)數(shù)據(jù)。應用于各種多模態(tài)數(shù)據(jù)集后(例如Patch-seq,、multiome ATAC +基因表達和空間轉錄組學),,UnitedNet在多模態(tài)集成和跨模態(tài)預測方面展示出與最先進方法類似或更好的準確性。此外,,通過用可解釋的機器學習算法解析訓練后的UnitedNet,,我們可以直接量化基因表達與其他模態(tài)之間的關系,并具有細胞類型特異性,。UnitedNet是一個全面的端到端框架,,可廣泛應用于單細胞多模態(tài)生物學。該框架有潛力促進跨轉錄組和其他模態(tài)的細胞類型特異性調控動力學的發(fā)現(xiàn),。 最近單細胞生物技術的進展使得同時測量同一細胞的基因表達和其他高維數(shù)據(jù)成為可能,。這樣的多模態(tài)組學數(shù)據(jù)可以直接全面了解細胞轉錄和功能過程。然而,,針對單模態(tài)生物數(shù)據(jù)開發(fā)的分析方法不能直接應用于多模態(tài)數(shù)據(jù),。與單模態(tài)分析相比,最近的研究已經確定了更多的多模態(tài)分析任務,,例如:(i)從不同模態(tài)中識別具有生物意義的細胞組,,從而深入理解不同生物系統(tǒng)的細胞身份和功能;和(ii)在不同模態(tài)之間進行交叉預測,,推斷不能輕易或同時測量的細胞信息,。此外,為同一類型的細胞生成的多模態(tài)數(shù)據(jù)提供發(fā)現(xiàn)基因表達與其他模態(tài)之間細胞類型特異性關系的機會,,這有助于揭示有關生物狀態(tài)的調節(jié)機制,。需要一種方法來同時處理這些不同的任務并自動量化交叉模態(tài)相關性,,以充分利用多模態(tài)數(shù)據(jù)集的潛力。 目前已經開發(fā)了多種多模態(tài)分析方法,,以分別解決每個任務或識別跨模態(tài)特征之間的相關關系,。對于聯(lián)合群組識別任務,已經開發(fā)了多種多模態(tài)數(shù)據(jù)集成方法,,將不同模態(tài)的測量結果融合成聯(lián)合表示,,然后用于無監(jiān)督或有監(jiān)督分類以識別細胞類型和狀態(tài)或組織區(qū)域。對于跨模態(tài)預測任務,,已經開發(fā)了基于自編碼器的神經網絡,,用于在不同模態(tài)之間進行預測。對于跨模態(tài)相關性發(fā)現(xiàn),,Schema代表了最先進的多模態(tài)集成方法,,可以識別用戶定義的主模態(tài)中對其他模態(tài)重要的特征。與上述方法相比,,一種能夠在一個統(tǒng)一框架中解決所有任務,、量化細胞類型特定的跨模態(tài)相關性,且在沒有先驗知識的情況下完成的方法可以簡化數(shù)據(jù)分析,,潛在地提高每個任務的性能,,并有助于從單細胞多模態(tài)數(shù)據(jù)中獲得生物學見解。然而,,將多個任務合并到一個框架中可能存在以下兩個挑戰(zhàn),。首先,每種模態(tài)測量具有獨特的統(tǒng)計特征(如異質性分布和噪聲水平),,需要不同的統(tǒng)計假設,。雖然已經為不同模態(tài)開發(fā)了幾種統(tǒng)計模型(如基因表達測量),但仍缺乏一種可以適應同時測量多種模態(tài)的未知分布的方法,。其次,,聯(lián)合組識別和跨模態(tài)預測通常代表著不同的目標。具體來說,,聯(lián)合組識別的目標是懲罰錯誤的細胞分組,,而跨模態(tài)預測的目標是最小化預測重建與實測之間的差距。因此,,需要設計一種整合不同目標的策略,,以避免性能下降。此外,,當沒有先驗知識時,,在某些細胞類型中找到基因表達和其他模態(tài)之間的相關關系仍然是一個主要挑戰(zhàn)。如果簡單地迭代所有可能的特征組合,,則識別和量化共變特征集將對高維數(shù)據(jù)來說是計算上不可行的,。需要一種有效的方法,,首先確定來自多種模態(tài)的一組特征對于特定的感興趣的生物學狀態(tài)(例如,細胞類型)很重要,,然后量化這些特征之間的關系,。為此,文章介紹了一種可解釋的多任務深度神經網絡,,用于解決多模態(tài)數(shù)據(jù)分析中的挑戰(zhàn),。該網絡具有編碼器-解碼器-鑒別器結構,通過交替執(zhí)行兩個任務來進行訓練:聯(lián)合組識別和跨模態(tài)預測,。此外,,作者應用可解釋的機器學習來刨析訓練好的網絡,并量化基于細胞類型的跨模態(tài)特征關聯(lián)性,。結果表明,,與其他最先進的方法相比,該方法在兩個任務中均實現(xiàn)了更高的性能,,實現(xiàn)了類似或更好的無監(jiān)督和監(jiān)督聯(lián)合組識別和跨模態(tài)預測,。 UnitedNet:一種可解釋的多任務學習模型,用于多模態(tài)生物數(shù)據(jù)分析 圖1 作者提出了一個可解釋的多任務學習模型 UnitedNet,,用于解決前文中提到的挑戰(zhàn),。具體來說,對于聯(lián)合組識別,,UnitedNet 使用編碼器獲取模態(tài)特定的特征(低維表示),然后使用自適應加權方案將這些特征融合成共享潛在特征,。然后,,模型通過無監(jiān)督或監(jiān)督識別網絡將組標簽(如細胞類型)分配給每個細胞(圖1b)。對于跨模態(tài)預測,,UnitedNet 使用編碼器獲取源模態(tài)特定的特征,,然后通過目標模態(tài)解碼器預測目標模態(tài)的數(shù)據(jù)(圖1b)。訓練過程中引入鑒別器網絡用以區(qū)分真實模態(tài)的數(shù)據(jù)和從預測重建的數(shù)據(jù),,以對抗編碼器和解碼器,,從而提高跨模態(tài)預測的準確性。 UnitedNet使用一個綜合損失函數(shù)進行訓練,,該損失函數(shù)由以下部分組成:(i)無監(jiān)督聚類損失或監(jiān)督分類損失,,將不同簇中數(shù)據(jù)的特征分離,并拉緊相同簇中數(shù)據(jù)的特征,,(ii) 對比學習損失,,對齊同一細胞的不同模態(tài)特征并進一步將其與來自不同簇的其他細胞的各類模態(tài)特征分開,(iii)重構損失,,將編碼器和解碼器的重構與原始數(shù)據(jù)進行比較,,使?jié)撛谔卣鞲玫乇硎炯毎?iv)預測損失,,衡量交叉模態(tài)預測的性能,(v)鑒別器損失,,區(qū)分目標模態(tài)的原始和重構數(shù)據(jù),,以及(vi)生成器損失,將解碼的數(shù)據(jù)推向類似原始數(shù)據(jù)的方向(圖1c),。在訓練過程中,,作者通過交替訓練聯(lián)合組識別和交叉模態(tài)預測任務來優(yōu)化網絡參數(shù),這些任務在共享潛在空間中相互聯(lián)系(圖1d,,e),。 此外,經過訓練的UnitedNet結合了多模態(tài)群組識別和跨模態(tài)預測的信息,,使用事后可解釋的機器學習方法進行分析可以揭示細胞類型特異性的跨模態(tài)特征相關性,,有助于從多模態(tài)生物數(shù)據(jù)中識別生物學知識。為了實現(xiàn)這一目標,,作者應用了SHapley Additive exPlanations算法(SHAP),,該算法常用于解釋深度學習模型,來對經過訓練的UnitedNet進行解剖,。在可解釋學習過程中,,我們可以確定與特定群組相關性更高的特征(圖1f),然后量化這些群組內的跨模態(tài)特征相關性(圖1g),。 UnitedNet在多任務學習中展現(xiàn)出穩(wěn)健且卓越的性能 圖2 為了評估UnitedNet的性能,,作者使用了一個包含四種模態(tài)(DNA、premRNA,、mRNA和蛋白質)以及它們的真實標簽的模擬數(shù)據(jù)集,,該數(shù)據(jù)集來自于多組學生物過程模擬器Dyngen(圖2a)。作者首先將UnitedNet的無監(jiān)督聯(lián)合群組識別性能與幾種最先進的多模態(tài)整合方法進行了基準測試,,包括Schema,、MOFA、totalVI和WNN,。作者應用Leiden聚類方法對這些方法生成的集成聯(lián)合表示進行聚類,,并使用單模態(tài)Leiden聚類作為性能基準。結果表明,,與單模態(tài)Leiden聚類和其他最先進的方法相比,,UnitedNet始終展現(xiàn)出類似或更好的無監(jiān)督聯(lián)合群組識別準確性(圖2b)。接著,,作者通過去除UnitedNet中的跨模態(tài)預測任務進行了消融分析,,可以發(fā)現(xiàn)在沒有多任務學習的情況下,無監(jiān)督群組識別準確性下降(圖2b),。消融分析評估了UnitedNet的跨模態(tài)預測性,,,。結果顯示,去除多任務學習或判別器會降低網絡的平均預測準確性(圖2c),。綜上所述,,這些基準研究和消融分析證明了實施編碼器-解碼器-判別器網絡結構和多任務學習方案在多模態(tài)數(shù)據(jù)分析中的有效性。 接下來,,作者研究了為什么多任務學習可以提高兩個任務的性能,。基于之前在多模態(tài)和多任務學習中共享潛空間的設定(圖1b),,作者假設聯(lián)合群組識別和跨模態(tài)預測任務的聯(lián)合訓練將通過共享的潛空間相互增強(圖2a),。為了驗證這一點,模擬的四種模態(tài)Dyngen數(shù)據(jù)集比較了單任務訓練和UnitedNet的多任務訓練所學習的共享潛在特征,。結果顯示,,與單任務學習相比(圖2e、f),,多任務學習更好地對齊了模態(tài)特定的特征,,并更好地在潛空間中分離了共享特征的聚類(圖2d)。這些改進提高了在單任務學習模型上進行的群組識別效率和跨模態(tài)預測準確性,。作者進一步量化了聯(lián)合群組識別和跨模態(tài)預測任務在訓練過程中的關系,。結果顯示,隨著模態(tài)特定特征之間的距離減小,,兩個任務的性能都得到了提升(圖2g,、h)??傮w而言,,群組識別和跨模態(tài)預測任務的性能呈現(xiàn)出正相關關系(圖2i)。 UnitedNet為多模態(tài)感知數(shù)據(jù)提供準確的三模態(tài)神經元類型識別和跨模態(tài)預測 圖3 為了展示UnitedNet分析真實多模態(tài)生物數(shù)據(jù)的能力,,作者將其應用于Patch-seq GABAergic神經元數(shù)據(jù)集,該數(shù)據(jù)集在相同的神經元中測量了形態(tài)學(M),、電生理學(E)和轉錄組學(T)信息,。UnitedNet允許同時進行無監(jiān)督的聯(lián)合群組識別和跨模態(tài)預測,分別用于識別細胞類型和預測特定于模態(tài)的特征(圖3a),。 作者對形態(tài)學-電生理學-轉錄組學(MET)數(shù)據(jù)集進行了同時的無監(jiān)督聯(lián)合群組識別分析和跨模態(tài)預測,。通過直接融合這三種模態(tài)并為每個細胞分配標簽,UnitedNet在識別cellMET類型方面表現(xiàn)出高度一致性(ARI = 0.82)和并且主要的MET類型和細微的MET類型之間存在大致對角的對應關系(ARI = 0.41)(圖3b-d),。在跨模態(tài)預測任務中,,先前的方法(如耦合自編碼器)在兩種模態(tài)之間的預測方面存在局限性,因為它們使用了設計用于兩種模態(tài)之間的對齊損失函數(shù),,無法直接應用于這個三模態(tài)數(shù)據(jù)集,。相比之下,,UnitedNet不需要顯式的模態(tài)對齊損失函數(shù),因此可以接受多個模態(tài)作為輸入,。UnitedNet能夠以高保真度預測三種模態(tài)之間的各個測量結果(圖3e),。作者進一步檢查了UnitedNet學習到的三種模態(tài)的特征空間,并發(fā)現(xiàn)轉錄組學和電生理學模態(tài)之間存在很強的對齊,,這與先前的研究結果一致,。此外,還可以發(fā)現(xiàn)形態(tài)學模態(tài)與轉錄組學和電生理學模態(tài)也存在對齊,,但對于Pvalb神經元來說,,對齊程度相對較低。這種相對較低的對齊程度進一步支持了先前的研究發(fā)現(xiàn),,即盡管Pvalb神經元具有相似的基因表達譜,,但它們在電生理上具有一致性而在形態(tài)學上具有多樣性。 UnitedNet揭示了特定于神經元類型的跨模態(tài)特征之間的相關性關系 圖4 然后,,作者使用可解釋學習方法SHAP來解剖經過訓練的UnitedNet,,以指示在Patch-seq GABAergic神經元數(shù)據(jù)集中特征的相關性。具體而言,,使用SHAP為每個輸入特征分配重要性指標,,也稱為Shapley值,用以評價其相對于某個給定的模型輸出的相關性,,如特定識別的細胞群組或某個特征的跨模態(tài)預測,。根據(jù)定義,具有較高Shapley值的特征具有較大的影響力,。因此,,作者選擇基于Shapley值排名的特征。接下來,,作者對Shapley值和這些SHAP選定的特征的有效性進行了定量評估,。考慮到先前研究鑒定的神經元類型特定特征預計與生物相關性更高,,作者假設這些特征的Shapley值會高于隨機選擇的特征,。實驗結果支持了這個假設,因為可以發(fā)現(xiàn)在Patch-seq GABAergic神經元數(shù)據(jù)集中,,與隨機選擇的特征相比,,標記基因的Shapley值更高。 此外,,作者使用Shapley值作為標記基因的預測因子,。結果顯示,在Patch-seq GABAergic神經元數(shù)據(jù)集中,與隨機選擇的特征相比,,標記特征具有更高的可預測性(標記特征準確性=0.72±0.07,,平均值±標準差;隨機選擇的特征準確性=0.51±0.03,,平均值±標準差,,對于5個細胞類型* 3個模態(tài))。這些結果證明了Shapley值在預測多模態(tài)生物學中的特定群組特征方面的有效性,。然后,,作者以Pvalb神經元類型為例,定性驗證了SHAP選定的相關性(圖4),。對于群組到特征的相關性,,SHAP成功地選擇了一組基因、電生理特征和形態(tài)學特征,,這些特征在Pvalb神經元中具有差異表達(圖4a,、d-f)。 結論 作者證明了UnitedNet可以有效地整合多個任務,,如聯(lián)合群組識別和跨模態(tài)預測任務,,并通過可解釋的多任務學習實現(xiàn)跨模態(tài)相關性發(fā)現(xiàn),用于多模態(tài)數(shù)據(jù)分析,。研究通過廣泛的消融和基準測試研究,,驗證了多任務學習在無監(jiān)督和監(jiān)督設置下可以實現(xiàn)與單任務學習、單模態(tài)分析和其他最先進方法相似甚至更好的性能,。UnitedNet適用于各種單細胞多模態(tài)生物學數(shù)據(jù)集,,包括但不限于多模態(tài)模擬數(shù)據(jù)、多感知數(shù)據(jù),、多組學數(shù)據(jù)和空間組學數(shù)據(jù),。此外,經過訓練的UnitedNet將多模態(tài)群組識別和跨模態(tài)預測信息整合在一起,,可以通過可解釋的學習方法進行解剖,,從多模態(tài)生物學數(shù)據(jù)中潛在地發(fā)現(xiàn)細胞類型特定的跨模態(tài)特征之間的相關性等生物學見解。 參考資料 Tang, X., Zhang, J., He, Y. et al. Explainable multi-task learning for multi-modality biological data analysis. Nat Commun 14, 2546 (2023). https:///10.1038/s41467-023-37477-x |
|