展望
文獻詳解欄目 每個人的時間精力有限,必須優(yōu)先閱讀相關(guān)文獻,,開設(shè)這個欄目也是希望為大家推薦高質(zhì)量的單細胞相關(guān)文獻,。如果大家對單細胞轉(zhuǎn)錄組感興趣可以關(guān)注一下,哪怕每天只學一點點,,積土成山,,積水成淵。 當然一個人的力量終歸是小的,,我也希望匯聚一群人,,形成一個場,這里頭最重要的生產(chǎn)力不是單個人多聰明,,多厲害,,而是每個人相互作用,形成的那個氛圍,。 希望大家能有所收獲,! 文章 文章發(fā)表于nature review genetics:Integrative single- cell analysis,,作者是Tim Stuart與Rahul Satija。做過單細胞分析的對他們應該都不陌生,。 scRNA-seq技術(shù)的發(fā)展契合了研究個體細胞表觀遺傳,、空間研究、蛋白質(zhì)組與譜系信息的方法需要,,這為研究多類型數(shù)據(jù)的綜合方法提出了獨特的機遇與挑戰(zhàn),。綜合分析可以發(fā)現(xiàn)細胞之間的模式關(guān)系,獲取細胞的整體狀態(tài)信息,,產(chǎn)生涵蓋不同樣本與不同研究手段的數(shù)據(jù)集,。該文重點討論了單細胞基因表達數(shù)據(jù)與其他類型的單細胞分析方法的整合。 一些 · 概念 多模態(tài)(Multimodal)數(shù)據(jù):多種類型數(shù)據(jù)的組合,,如RNA與蛋白質(zhì)數(shù)據(jù)組合,,是一種多維度數(shù)據(jù),類似多組學,。 單模態(tài):單個類型數(shù)據(jù) Pseudotime:擬時分析
概述 隨著分子生物學,、微流控與納米技術(shù)的發(fā)展,催生了許多類型的單細胞測序技術(shù),。過去的方法集中在單模態(tài)測量上,,如DNA序列、RNA表達量和染色質(zhì)可及性上,。雖然這些技術(shù)促進了我們對細胞多樣性與發(fā)育景觀的理解,,但是它們并不能很好地解析單細胞內(nèi)分子間互作關(guān)系。而這些互作關(guān)系是深入探索細胞狀態(tài)的關(guān)鍵,。此外,,隨著可用數(shù)據(jù)集規(guī)模的快速增長,迫切需要用于標準化與聯(lián)合分析且考量到批次效應與個體差異的計算方法,。
單細胞多模態(tài)綜合分析方法示意 Multimodal and integrative methods for single- cell analyses
單模態(tài)與多模態(tài)分析方法匯總 CEL-seq:線性擴增測序法 理想的實驗流程應當全面洞悉細胞的所有方面,,包括分子狀態(tài)、空間構(gòu)象,、胞外環(huán)境互作的全部過程,。盡管當下技術(shù)手段無法做到,但多模態(tài)技術(shù)與綜合計算方法可以是我們離該目標越來越近,。文章希望提出整合單細胞轉(zhuǎn)錄組學,、基因組學、表觀組學與蛋白組學的數(shù)據(jù)統(tǒng)一分析方法,,重點在結(jié)合其他數(shù)據(jù)類型分析scRNA-seq數(shù)據(jù),,尤其是整合來自于同一細胞的不同類型數(shù)據(jù)。 文章分為四大塊,,首先探討了多模態(tài)單細胞分析方法,,其次研究了不同實驗不同數(shù)據(jù)整合分析,然后討論了單細胞空間測序數(shù)據(jù)整合分析方法,,最后給出了整合分析方法的前景與必要性,。(本文中我把第二和第三塊的內(nèi)容合在了一起) 單細胞多模態(tài)測序方法 最初的單細胞分析方法主要關(guān)注細胞某狀態(tài)下的某類分子水平。而現(xiàn)在更引人矚目的是同時分析單細胞內(nèi)多種分子以建立更全面的單細胞分子視圖,。通常這些方法是將scRNA-seq數(shù)據(jù)與其它分析手段的結(jié)合,,目前主要有四種策略從單細胞中得到多模態(tài)數(shù)據(jù): 嚴格來說這種方法算單模態(tài)。
針對熒光無法分選的部分,,F(xiàn)ACS顯然是不合適的,,尤其是需要同時測得單細胞基因組與胞內(nèi)蛋白的scRNA-seq實驗。此時需要物理分離或通過不同tag篩選出不同組分,。 G&T-seq通過加入oligo(dT)特異性分離mRNA同時保留基因組DNA從而實現(xiàn)了基因組轉(zhuǎn)錄組平行測序(Macaulay, I. C. et al., 2015)DR-seq通過則通過加入barcode特異擴增cDNA序列實現(xiàn)基因組轉(zhuǎn)錄組平行測序(Dey, S. S. et al., 2015),。這使得單細胞基因表達水平與其對應基因型聯(lián)系起來,深度揭示單細胞間DNA拷貝數(shù)變異與染色體重排對下游mRNA豐度的具體關(guān)聯(lián),。這些方法適用于研究體細胞基因高度變異的腫瘤組織,。 DNA甲基化與轉(zhuǎn)錄組水平結(jié)合研究是基于Macaulay, I. C. et al., 2015的G&T-seq和 Smallwood, S. A. et al., 2014的scBS- seq技術(shù)發(fā)展的,同普通BSP一樣,,用亞硫酸氫鈉處理DNA片段隨后進行擴增,,結(jié)合G&T-seq,可以分析同一細胞內(nèi)的DNA甲基化模式和基因表達數(shù)據(jù)(Angermueller, C. et al., 2016),。由于DNA甲基化存在不穩(wěn)定性和異質(zhì)性,,因此若要研究DNA甲基化與基因表達間的關(guān)系,則必須將表觀基因組變異與細胞間的異質(zhì)性區(qū)別開來,。 關(guān)于胞內(nèi)蛋白與mRNA關(guān)聯(lián)研究,有兩種思路可供借鑒,。其一(Darmanis, S. et al., 2016)是將FACS sort到的細胞裂解后分離裂解液,,分別進行蛋白質(zhì)與RNA定量。作者采用PEA (鄰近探針延伸分析) 檢測蛋白并用RT-qPCR定量,,采用qRT-PCR定量mRNA,。該法可以同時檢測82個mRNA/75個蛋白;其二(Genshaft, A. S. et al.)是將FACS sort到的細胞在微流控芯片中同時進行逆轉(zhuǎn)錄和PEA而不分離裂解液,。該法可以同時檢測96個mRNA/38個蛋白,。這兩種方法檢測的蛋白與mRNA數(shù)量與質(zhì)量均有限。
這些技術(shù)的出現(xiàn)表明若將可以細胞信息轉(zhuǎn)化為有序的barcode,,我們就可以在分析單細胞轉(zhuǎn)錄組時將這些信息同時獲取,。這種策略不僅適用于分析細胞的自然狀態(tài),也適用于大規(guī)?;驍_動研究。目前有Perturb-Seq(Dixit, A. et al., 2016)和CRISPR-Seq(Adamson, B. et al., 2016; Datlinger, P. et al., 2017; Jaitin, D. A. et al., 2016),,他們將scRNA-seq與CRISPR-cas9結(jié)合進行遺傳篩選,,使得研究正向遺傳學的大規(guī)模基因擾動試驗成為可能,。具體原理是給單個基因擾動和受到影響的細胞添加barcode,,通過scRNA-seq能夠鑒定出這兩者,從而推斷CRISPR靶向基因和由此產(chǎn)生的單個細胞的轉(zhuǎn)錄譜間的關(guān)系,。目前應用在基因調(diào)控網(wǎng)絡(luò)(Dixit, A. et al., 2016),、未折疊蛋白反應(Adamson, B. et al., 2016)、免疫細胞分化發(fā)育(Datlinger, P. et al., 2017)和T細胞受體激活(Jaitin, D. A. et al., 2016),,非編碼區(qū)調(diào)控元件(Klann, T. S. et al., 2017),。此外,還可以結(jié)合CRISPR-dcas9系統(tǒng),,擴展到轉(zhuǎn)錄調(diào)控,、表觀遺傳調(diào)控領(lǐng)域中(Thakore, P. I. et al., 2016; Liu, X. S. et al., 2016; Hilton, I. B. et al., 2015; Konermann, S. et al., 2015; Gilbert, L. A. et al., 2017),18年發(fā)展了同時靶向和敲除基因的技術(shù)(Boettcher, M. et al., 2018)。 另一個應用是結(jié)合CRISPR-cas9的譜系追蹤技術(shù),。單細胞譜系追蹤是去年的大熱方向之一,,此處提到三種mRNA+lineage方法:scGESTALT、ScarTrace,、LINNAEUS,。這三種方法各有不同,但大體是利用CRISPR-cas9連續(xù)切割結(jié)合到基因組上的barcode,細胞會用NHEJ來應對這種損傷,。但NHEJ容易出錯,,從而在DNA序列中產(chǎn)生隨機突變,這些突變通過細胞分裂進行遺傳,,結(jié)合scRNAseq利用這些突變作為復合barcode來構(gòu)建組織或器官發(fā)育譜系,。 另一種略有不同的方法是MEMOIR,它結(jié)合smFISH與CRISPR-cas9系統(tǒng),,可以同時檢測細胞譜系與空間位置,。 普通的scRNA-seq流程除了可以做轉(zhuǎn)錄本豐度外,還可以進行諸如體細胞突變,、遺傳變異,、RNA isoform等分析。 關(guān)于體細胞突變目前已有研究(Lodato, M. A. et al., 2015),該文通過對人大腦的少量單細胞全基因組測序,,分析了發(fā)生的細胞突變,,構(gòu)建了人大腦神經(jīng)細胞譜系。作者發(fā)現(xiàn)突變大多發(fā)生在高轉(zhuǎn)錄活性相關(guān)位置,,這表明可能可以通過scRNA-seq數(shù)據(jù)來分析神經(jīng)細胞突變情況,,根據(jù)轉(zhuǎn)錄狀態(tài)重構(gòu)神經(jīng)細胞譜系。此外,,分析scRNA-seq數(shù)據(jù)中的拷貝數(shù)變異,,可以研究癌癥非整倍體與異質(zhì)性等情況(Tirosh, I. et al., 2016; Fan, J. et al., 2018)。 多模態(tài)測序策略正在催生與之相匹配的數(shù)據(jù)分析方法,。多模數(shù)據(jù)集可以檢測到細胞間的細微差異,,而單模數(shù)據(jù)很可能無法做到這一點。由于scRNAseq數(shù)據(jù)存在dropout,,故而它更容易忽略細胞間的細微差別,;但與來自同一細胞的其他數(shù)據(jù)互補分析可以改善這一問題。例如,,很難通過scRNA-seq數(shù)據(jù)區(qū)分不同的T細胞亞群,,但聯(lián)合膜蛋白分析則可以顯著提高亞群分辨率(Stoeckius, M. et al., 2017),同樣,,RNA+chromatin,、RNA+methylation聯(lián)合可能揭示單個細胞間的調(diào)控異質(zhì)性,不再贅述,。 單細胞多模態(tài)分析思路很可能受到bulk-seq多組學聯(lián)合分析的啟發(fā)(Meng, C. et al., 2016),,Argelaguet開發(fā)了一種名為MOFA( multi- omics factor analysis)的方法,,該方法在多組學bulk-seq數(shù)據(jù)中效果良好,同時測試了單細胞DNA甲基化數(shù)據(jù)與RNA數(shù)據(jù)聯(lián)合處理情況,,效果也可以,。這暗示適用于bulk-seq的多組學數(shù)據(jù)處理方式可能也適用于單細胞多模態(tài)數(shù)據(jù)。鑒于單細胞數(shù)據(jù)規(guī)模遠超bulk-seq,,多視圖機器學習不失為一種重要的補充手段(Colomé- Tatché, M. & Theis, F. J., 2018),。 不同來源測序數(shù)據(jù)整合 前面主要講了在同一測序?qū)嶒炌慌毎M行的多模態(tài)數(shù)據(jù)整合,,而不同測序?qū)嶒灁?shù)據(jù)整合分析才是亟需解決的關(guān)鍵問題,。同bulk seq 數(shù)據(jù)一樣,處理批次效應是綜合分析不同實驗室,、不同workflow產(chǎn)出數(shù)據(jù)的首要問題(SVA包(Leek, J. T. 2014))。然而目前bulk seq水平的處理方法無法處理單細胞數(shù)據(jù)((Haghverdi, L, et al., 2018,,作者用MNN處理數(shù)據(jù),,該法在mnnpy中得到改進); Butler, A, et al,. 2018)。目前最新方法利用CCA/MNN可以識別出兩個數(shù)據(jù)集間共有的部分,,判定細胞間共有的生物學狀態(tài),然后以這些相同狀態(tài)的細胞為基準消除批次效應,。 此處作者介紹了他自己在Seurat V2中開發(fā)的方法(Satija, R, et al., 2015;),該法用CCA鑒別出不同數(shù)據(jù)集間相同的細胞類型且可以避免出現(xiàn)由批次效應或常規(guī)PCA造成的假陽性細胞類型,;接下來采用動態(tài)時間規(guī)整算法校正數(shù)據(jù)集間細胞密度差異,。這兩步驟可以將細胞投影到一個低維空間,具有相同生物學狀態(tài)的細胞相互接近且消除了不同數(shù)據(jù)集帶來的影響,。 另一種方法即mnnCorrect,,最早用于計算機領(lǐng)域圖形識別。該法尋找不同數(shù)據(jù)集間最接近的細胞,,將之判定為潛在的狀態(tài)相同細胞,,隨后利用成對MNNs距離計算一個批次參數(shù)(batch vector),用以校正原始表達矩陣(Haghverdi, L., 2018)。 CCA/mnnCorrect在整合處理不同來源的scRNA-seq數(shù)據(jù)時表現(xiàn)良好,。這將極大提升發(fā)現(xiàn)稀有細胞,、微弱轉(zhuǎn)錄差異細胞及與之對應maker的能力(Haghverdi, L, et al,.2018;Butler, A,et al,. 2018) ,。這為建立一個統(tǒng)一的單細胞參考數(shù)據(jù)集提供了依據(jù),。在此基礎(chǔ)上,scRNA-seq數(shù)據(jù)整合分析得到了快速發(fā)展(Hie, B. L, et al., 2018; Barkas, N. et al., 2018; Park, J.-E., 2018; Korsunsky, I. et al., 2018; Stuart, T. et al., 2018; Welch, J. et al., 2018),。這種多數(shù)據(jù)集整合分析的應用遠不止用于校正批次效應這么單一,。它可以在單細胞尺度上深入比較細胞間的狀態(tài),發(fā)現(xiàn)細胞對環(huán)境及基因擾動的特異性響應,,對不同疾病及不同治療下的患者的測序數(shù)據(jù)進行標準化,。 以細胞分類信息的形式串聯(lián)不同的scRNA-seq數(shù)據(jù)集,,或者借鑒到自己實驗中,,是優(yōu)于合并數(shù)據(jù)集然后de novo聚類這種方法的。且隨著有參細胞圖譜的開發(fā),,這種方式將更加尋常,。目前已開發(fā)對應方法:scmap- cell & scmap- cluster,其中scmap-cell 用乘積量化(product quantization)算法進行比對,,而scmap-cluster則用于識別未知數(shù)據(jù)集中的cluster,。 利用已有的注釋數(shù)據(jù)集,目前開發(fā)的新方法采用奇異值分解,、線性判別分析和支持向量機算法來對細胞進行分類,。此外,,隨著引用數(shù)據(jù)集的大小、范圍與深度越來越高,,監(jiān)督聚類在解析細胞類型方面要比無監(jiān)督聚類強得多,。通過以上這些方法,可以更精確地識別并解析細胞亞群,。 satija已有相關(guān)文章研究:Comprehensive Integration of Single-Cell Data
MATCHER是一種在一維水平上比較不同類型測序數(shù)據(jù)擬時軌跡的方法。簡單來說就是比對不同類型測序數(shù)據(jù)的擬時軌跡,,以確定這些數(shù)據(jù)集間的對應關(guān)系,。這種方法可以識別不同數(shù)據(jù)集間的“等效細胞”而不需預先知道彼此間的對應關(guān)系。開發(fā)者用scM&T- seq(Angermueller, C. et al., 2016)和scRNA-seq數(shù)據(jù)做了驗證,,準確預測了DNA甲基化與基因表達之間的關(guān)系,。
組織中細胞的空間結(jié)構(gòu)常反映出細胞間的功能差異與細胞命運和譜系的差異。不同基因表達引導細胞向不同方向分化,,不同細胞精確排列形成不同組織,。關(guān)鍵是單細胞實驗通常在分析前細胞已被解離,組織原位信息無法保留,,scRNA-seq得到的表達譜不能完全反應細胞空間信息,。具有相似基因表達譜的細胞可能存在于不同的空間位置中,故而細胞分離過程中空間信息的缺失是很多單細胞實驗的主要缺點,。結(jié)合高分辨率基因表達譜與空間表達圖譜 (spatial expression maps) 將細胞空間坐標與基因表達譜聯(lián)系起來,,可以解決這一問題。有兩類方法:計算模型或者RNA原位定量,,可以同時收集到細胞空間坐標與基因表達值,。
展望 隨著單細胞技術(shù)日趨成熟,,每個細胞所檢測的測量量與檢測到的細胞和分子數(shù)量都在逐漸增加。因此整合不同實驗得到的不同模態(tài)數(shù)據(jù)成為必然,。目前正在進行的人類細胞圖譜和關(guān)鍵模式生物圖譜是當下最大規(guī)模的多模態(tài)數(shù)據(jù)整合工作,。整合單細胞一系列多模態(tài)數(shù)據(jù),我們可以獲取轉(zhuǎn)錄組之上的細胞圖譜,,洞悉細胞的整體狀態(tài),。分析單細胞多模態(tài)數(shù)據(jù)之間的關(guān)系,可以揭示細胞功能的潛在基礎(chǔ),,推斷各模態(tài)間的因果關(guān)系,。 生物學中有一個主要問題:什么是細胞類型? 解決方案正如那個 老問題:“什么是基因,?” 的答案一般,,該問題是通過跨物種DNA序列比較與多種模式下的生化分析來解答的。故而本問題的答案必是在多種模式與條件下,,對單細胞進行細致分析來回答。 |
|