今天給大家介紹由中國(guó)科學(xué)院大學(xué)Lifei Wang等人在《nature machine intelligence》上發(fā)表了一篇名為“An interpretable deep-learning architecture of capsule networks for identifying cell-type gene expression programs from single-cell RNA sequencing data”的文章,。文中提出了一個(gè)使用膠囊網(wǎng)絡(luò)(稱(chēng)為scCapsNet)的可解釋的深度學(xué)習(xí)體系結(jié)構(gòu)。膠囊結(jié)構(gòu)(代表一組特定對(duì)象屬性的神經(jīng)元向量)捕捉層次關(guān)系,。通過(guò)利用競(jìng)爭(zhēng)性單細(xì)胞類(lèi)型識(shí)別,scCapsNet模型能夠進(jìn)行特征選擇以識(shí)別編碼不同亞細(xì)胞類(lèi)型的基因組,。將RNA表達(dá)特征有效地整合到scCapsNet的參數(shù)矩陣中,,實(shí)現(xiàn)了亞細(xì)胞類(lèi)型識(shí)別。 背景 單細(xì)胞RNA測(cè)序技術(shù)(scRNA-seq)可對(duì)組織,,器官或生物體內(nèi)的每個(gè)異源細(xì)胞及其轉(zhuǎn)錄組譜進(jìn)行解剖,。許多研究(例如《人類(lèi)細(xì)胞圖譜》)已經(jīng)證明了scRNA-seq的功能,能前所未有地觀察細(xì)胞類(lèi)型或狀態(tài),。最近,,scRNA-seq數(shù)據(jù)的快速積累使得可以為每個(gè)單個(gè)細(xì)胞分配一個(gè)標(biāo)記,該標(biāo)記可以記錄細(xì)胞的類(lèi)型同一性,,發(fā)育階段,空間位置或該細(xì)胞的另一個(gè)生物學(xué)特征,。為了滿足細(xì)胞類(lèi)型標(biāo)記的要求,,已經(jīng)開(kāi)發(fā)了幾種用于單細(xì)胞轉(zhuǎn)錄組分析的生物信息學(xué)算法。雖然,,現(xiàn)有的基于基因表達(dá)的有監(jiān)督或無(wú)監(jiān)督學(xué)習(xí)方法上實(shí)現(xiàn)了一個(gè)穩(wěn)健的,、定量的細(xì)胞類(lèi)別定義,。但是,它們都需要進(jìn)行特征選擇以揭示分類(lèi)器如何為某個(gè)細(xì)胞分類(lèi)類(lèi)別標(biāo)簽,。差異基因表達(dá)和共表達(dá)模塊的一些初步分析已嘗試從具有相同細(xì)胞類(lèi)型的單細(xì)胞組中提取轉(zhuǎn)錄組特征,。不幸的是,獲得的基因仍然不足以解釋可以確定每個(gè)單個(gè)細(xì)胞的細(xì)胞類(lèi)型標(biāo)記的基因表達(dá)程序,。尤其是,,由于“黑匣子”機(jī)器學(xué)習(xí)模型缺乏可解釋性,因此尚不清楚為什么將單個(gè)細(xì)胞標(biāo)記為某種細(xì)胞類(lèi)型,。 深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)作為最先進(jìn)的機(jī)器學(xué)習(xí)模型,,已在許多的實(shí)踐中成功使用。這些網(wǎng)絡(luò)通常具有從生物數(shù)據(jù)和圖像數(shù)據(jù)中提取見(jiàn)解的能力,。但是,,傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)在決策過(guò)程中仍然缺乏透明度。膠囊結(jié)構(gòu)定義為代表特定對(duì)象的一組屬性的神經(jīng)元向量,。膠囊網(wǎng)絡(luò)的靈活模塊化架構(gòu)由相互連接的模塊中的膠囊組成,,提供了打開(kāi)深度學(xué)習(xí)黑匣子的可能性,并使我們能夠解釋復(fù)雜的生物網(wǎng)絡(luò),。 在這里,,作者設(shè)計(jì)了一個(gè)可解釋的膠囊網(wǎng)絡(luò)深度學(xué)習(xí)架構(gòu)(scCapsNet),,通過(guò)分析膠囊結(jié)構(gòu)的內(nèi)部權(quán)重參數(shù)使決策黑匣子變得透明。并在多個(gè)scRNA-seq數(shù)據(jù)集,,如小鼠視網(wǎng)膜雙極細(xì)胞(mRBC)數(shù)據(jù)和人外周血單核細(xì)胞(hPBMC)數(shù)據(jù),評(píng)估了scCapsNet為單細(xì)胞轉(zhuǎn)錄組分析指定的值,。在特征提取層的內(nèi)部權(quán)重參數(shù)上使用了二維主成分分析(PCA),,以正確定義一組核心基因。這些核心基因可以識(shí)別具有相同細(xì)胞類(lèi)型的單個(gè)細(xì)胞的組,。此外,,模型中的內(nèi)部權(quán)重參數(shù)有效地將單細(xì)胞表達(dá)譜嵌入每個(gè)基因的低維載體。該載體既包含信息基因表達(dá)特征,,又包含由該基因知識(shí)貢獻(xiàn)的細(xì)胞類(lèi)型標(biāo)記特性,。因此,可以以嵌入載體的微小緊密簇的形式識(shí)別其中基因在功能上密切相關(guān)但呈現(xiàn)獨(dú)特的轉(zhuǎn)錄表達(dá)模式的核心基因調(diào)控模塊,。 2 模型 scCapsNet模型如下圖所示, 在深度學(xué)習(xí)模型scCapsNet中,為了實(shí)現(xiàn)單細(xì)胞類(lèi)型識(shí)別,,設(shè)計(jì)了由特征提取模塊和膠囊網(wǎng)絡(luò)模塊組成的體系結(jié)構(gòu)(圖1)。與傳統(tǒng)膠囊網(wǎng)絡(luò)中的卷積核不同,,多個(gè)并行的全連接神經(jīng)網(wǎng)絡(luò)在特征提取模塊中扮演特征提取器的角色(圖1)。這些神經(jīng)網(wǎng)絡(luò)通過(guò)權(quán)值矩陣和校正的線性單位(ReLU)激活函數(shù)將單細(xì)胞RNA表達(dá)譜的輸入轉(zhuǎn)化為“初級(jí)膠囊”載體,。然后,,在膠囊網(wǎng)絡(luò)中,,通過(guò)迭代動(dòng)態(tài)路又將特征從主要膠囊傳遞到下一個(gè)“類(lèi)型膠囊”向量以用于細(xì)胞類(lèi)型識(shí)別(圖1)。隱藏層中的耦合系數(shù)矩陣表示初級(jí)膠囊對(duì)類(lèi)型膠囊的數(shù)學(xué)貢獻(xiàn),。 Fig 1.scCapsNet的兩層體系結(jié)構(gòu) 3 結(jié)果 scCapsNet對(duì)單細(xì)胞類(lèi)型識(shí)別 首先,,作者利用10x基因組學(xué)和Drop-seq平臺(tái)的hpbmc和mrbc的scRNA-seq數(shù)據(jù),,評(píng)價(jià)scCapsNet模型在單細(xì)胞類(lèi)型識(shí)別中的性能。隨機(jī)拆分交叉驗(yàn)證和預(yù)測(cè)結(jié)果表明:該模型對(duì)兩個(gè)scRNA序列數(shù)據(jù)集具有很強(qiáng)的識(shí)別能力,,準(zhǔn)確率分別高達(dá)99%和97%,。并且使用相同的scRNA-seq數(shù)據(jù)將scCapsNet模型與其他算法(如黑盒神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和隨機(jī)森林)進(jìn)行比較,,進(jìn)一步證明了scCapsNet模型的有效性(圖2a),。結(jié)果表明,,scCapsNet方法適用于單細(xì)胞類(lèi)型識(shí)別,,具有競(jìng)爭(zhēng)性的識(shí)別精度。除了原始的hPBMC數(shù)據(jù)集外,,作者還從10x基因組學(xué)平臺(tái)選擇了一個(gè)不同的hPBMC數(shù)據(jù)集,。模型使用一個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練,,然后使用另一個(gè)數(shù)據(jù)集進(jìn)行評(píng)估。擴(kuò)展數(shù)據(jù)圖1a中的結(jié)果顯示,,scCapsNet是該任務(wù)的最佳執(zhí)行分類(lèi)器,。我們還測(cè)試了來(lái)自不同單細(xì)胞RNA-seq協(xié)議的四個(gè)人類(lèi)胰腺細(xì)胞數(shù)據(jù)集的不同模型之間的分類(lèi)性能。這四個(gè)數(shù)據(jù)集是Abdelaal等人使用的數(shù)據(jù)集,。擴(kuò)展數(shù)據(jù)圖1b中的識(shí)別精度對(duì)應(yīng)于四個(gè)子任務(wù),,其中四個(gè)數(shù)據(jù)集中的一個(gè)用作測(cè)試集,其他三個(gè)數(shù)據(jù)集用作訓(xùn)練集,。結(jié)果表明,,scCapsNet在新的scRNA序列數(shù)據(jù)集中具有穩(wěn)定的單細(xì)胞類(lèi)型識(shí)別性能。 Fig 2. scCapsNet模型中單細(xì)胞類(lèi)型識(shí)別的性能,。 Extended Data Fig.1. scCapsNet在不同數(shù)據(jù)集上的分類(lèi)性能. 不同亞細(xì)胞類(lèi)型的核心基因組在生物學(xué)功能中至關(guān)重要 其次,,hpbmc中典型的細(xì)胞標(biāo)記和一些先前報(bào)道的細(xì)胞類(lèi)型相關(guān)基因在連接輸入基因與初級(jí)膠囊的權(quán)重矩陣上的PCA圖中用彩色星星標(biāo)記(圖3),。結(jié)果表明,,scCapsNet模型一級(jí)膠囊正確提取了與不同亞細(xì)胞類(lèi)型相關(guān)的已知標(biāo)記基因,如B細(xì)胞的CD19和CD79A,,CD14+單核細(xì)胞的CD14和S100A9,CD4+T細(xì)胞的CCR10和ID3,CD8+T細(xì)胞的CD8A和NKG7,,樹(shù)突狀細(xì)胞的FCER1A,,巨核細(xì)胞的PF4,NKG7NK細(xì)胞,。 最后,,作者進(jìn)一步分析了scCapsNet模型定義的亞細(xì)胞型核心基因群的GO富集和反應(yīng)途徑。結(jié)果表明,,每一組核心基因都在與相應(yīng)細(xì)胞類(lèi)型密切相關(guān)的特殊途徑中富集(圖3),。例如,與B細(xì)胞功能密切相關(guān)的GO術(shù)語(yǔ)和途徑,,如“B細(xì)胞分化”,、“B細(xì)胞受體信號(hào)傳導(dǎo)途徑”、“免疫球蛋白生成”和“抗體成熟相關(guān)DNA錯(cuò)配修復(fù)(MMR)”等,,在負(fù)責(zé)識(shí)別B細(xì)胞的基因中得到了豐富,。同樣,CD14+單核細(xì)胞基因中豐富的“Toll樣受體信號(hào)通路”,、“細(xì)菌防御反應(yīng)”,、“脂多糖(LPS)檢測(cè)”和“巨噬細(xì)胞激活”等術(shù)語(yǔ)描述了CD14+單核細(xì)胞的特性。綜上所述,,scCapsNet中負(fù)責(zé)亞細(xì)胞類(lèi)型識(shí)別的核心基因組對(duì)于不同亞細(xì)胞類(lèi)型的生物學(xué)功能是必不可少的,。 Fig.3 識(shí)別不同亞細(xì)胞類(lèi)型的生物學(xué)功能必不可少的核心基因 4 總結(jié) 總之,scRNA-seq技術(shù)的廣泛應(yīng)用提高了數(shù)據(jù)質(zhì)量,。由于,膠囊網(wǎng)絡(luò)的實(shí)現(xiàn)關(guān)鍵取決于大型,,高質(zhì)量數(shù)據(jù)集的可用性。因此,,膠囊網(wǎng)絡(luò)模型特別適合于scRNA-seq數(shù)據(jù)分析,。本研究設(shè)計(jì)了一種可解釋的膠囊網(wǎng)絡(luò)架構(gòu),用于單細(xì)胞類(lèi)型標(biāo)記和亞細(xì)胞類(lèi)型基因表達(dá)程序識(shí)別,。實(shí)驗(yàn)結(jié)果表明,,scCapsNet比其他方法具有更好的性能。 代碼 https://github.com/wanglf19/ scCaps 參考資料 Wang, L., Nie, R., Yu, Z. et al. An interpretable deep-learning architecture of capsule networks for identifying cell-type gene expression programs from single-cell RNA-sequencing data. Nat Mach Intell 2, 693–703 (2020). https:///10.1038/s42256-020-00244-4 |
|
來(lái)自: DrugAI > 《待分類(lèi)》