前文回顧單細(xì)胞RNA-seq分析介紹 前言根據(jù)所用文庫制備方法的不同,獲得的RNA序列(也稱reads或tags)有3'(或5')端起始的轉(zhuǎn)錄本(10X Genomics, CEL-seq2, Drop-seq, inDrops)和全長轉(zhuǎn)錄本(Smart-seq)之分。 感興趣的問題關(guān)乎方法的選擇,下面列出了這些方法的優(yōu)點(diǎn)
對于3'端測序和全長測序有許多相同的分析步驟,但是3'方案越來越流行,,并且在分析中還包含一些其他步驟,。因此,我們的材料將著重于基于液滴的方法(inDrops,,Drop-seq,,10X Genomics),詳細(xì)介紹這3'方案的數(shù)據(jù)分析,。 3'末端讀?。òㄋ谢谝旱蔚姆椒ǎ?/span>了解每個(gè)reads中都包含哪些信息,以及我們?nèi)绾卧谡麄€(gè)分析過程中使用它,,對于scRNA-seq數(shù)據(jù)的分析是很有幫助的,。 對于3'端測序方法,來自同一轉(zhuǎn)錄本的不同分子的reads將僅來自轉(zhuǎn)錄本的3’端,,因此具有相同序列的可能性很高,。然而,文庫準(zhǔn)備過程中的PCR步驟也可能產(chǎn)生讀取副本,。為了確定讀數(shù)是生物學(xué)上的還是技術(shù)上的復(fù)制,,這些方法使用唯一的分子標(biāo)識符,即UMIs
因此,我們知道需要跟蹤UMIs,,但是還需要什么其他信息來正確量化我們樣本中每個(gè)細(xì)胞中每個(gè)基因的表達(dá)呢,?無論采用哪種液滴方法,在細(xì)胞水平上進(jìn)行適當(dāng)?shù)亩慷夹枰韵聴l件:
例如,,使用inDrops v3的文庫制備方法時(shí),,下面表示如何在四次讀取中獲取所有信息:
對于不同的基于液滴的scRNA-seq方法,scRNA-seq的分析工作流程類似,,但它們之間對UMIs,、細(xì)胞ID和樣本索引的解析將有所不同。例如,,下面是10x 序列讀取的示意圖,,其中索引、UMIs和條形碼的放置方式不同: 單細(xì)胞RNA-seq工作流程scRNA-seq方法將確定如何從測序reads中解析barcodes和UMIs,。因此,,盡管有幾個(gè)具體步驟會略有不同,但無論采用何種方法,,整個(gè)工作流程通常都遵循相同的步驟,。常規(guī)工作流程如下所示: 常規(guī)工作流程步驟是:
無論進(jìn)行何種分析,基于每種條件的單個(gè)樣本得出的關(guān)于總體的結(jié)論都不太可靠,。仍然需要生物重復(fù),!也就是說,如果您要得出與總體相對應(yīng)的結(jié)論,,就不能僅僅是單個(gè)樣本,。 計(jì)數(shù)矩陣的生成我們將首先討論此工作流的第一部分,即從原始測序數(shù)據(jù)生成計(jì)數(shù)矩陣,。我們將重點(diǎn)介紹基于液滴的方法所使用的3'端測序,,如inDrops、10X Genomics和Drop-Seq,。 測序后,測序工具將以BCL或FASTQ格式輸出原始測序數(shù)據(jù),,或生成計(jì)數(shù)矩陣,。如果讀取的是BCL格式,則我們將需要轉(zhuǎn)換為FASTQ格式,。有一個(gè)有用的命令行工具
對于許多scRNA-seq方法,,從原始測序數(shù)據(jù)到生成計(jì)數(shù)矩陣都將經(jīng)歷相似的步驟。 umis(https://github.com/vals/umis)和zUMIs(https://github.com/sdparekh/zUMIs)是估算轉(zhuǎn)錄本3'端測序的scRNA-seq數(shù)據(jù)表達(dá)的命令行工具。這兩種工具都具有UMIs的去重功能,,以校正偏差,。此過程中的步驟包括:
如果使用10X Genomics庫制備方法,則上述所有步驟都將使用Cell Ranger管道(https://support./single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger),。 1. 格式化reads并過濾嘈雜的細(xì)胞條形碼FASTQ文件可用于解析cell barcodes, UMIs, and sample barcodes,。對于基于液滴的方法,由于以下原因,,許多cellular barcodes將匹配較低的reads次數(shù)(<1000 reads):
在讀取比對之前,,需要從序列數(shù)據(jù)中過濾出這些多余的條形碼。為了進(jìn)行此過濾,,提取并保存每個(gè)細(xì)胞的“細(xì)胞條形碼”和“分子條形碼”,。例如,如果使用'UMIS’工具,,信息將添加到每次讀取的標(biāo)題行,,格式如下: 1@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT
2. 分離樣本reads如果對多個(gè)樣本進(jìn)行測序,則該過程的下一步是對樣本進(jìn)行分離,。這是這個(gè)過程中的一個(gè)步驟,,不是由“UMIS”工具處理的,而是由“zUMI”完成的,。我們需要解析reads以確定與每個(gè)細(xì)胞相關(guān)聯(lián)的樣本條形碼,。 3.Mapping/pseudo-mapping to cDNAs為了確定read來自哪個(gè)基因,使用傳統(tǒng)的(STAR)或輕量級方法(Kallisto/RapMap)對reads進(jìn)行比對,。 4. 去重UMIs并量化reads重復(fù)的UMI被剔除,,并且使用Kallisto或featureCounts之類的工具僅量化唯一的UMI。結(jié)果輸出是一個(gè)按基因計(jì)數(shù)的細(xì)胞矩陣: 矩陣中的每個(gè)值代表細(xì)胞中源自相應(yīng)基因的讀取次數(shù),。使用計(jì)數(shù)矩陣,,我們可以瀏覽和篩選數(shù)據(jù),只保留質(zhì)量較高的細(xì)胞,。 注:以上內(nèi)容來自哈佛大學(xué)生物信息中心(HBC)的教學(xué)團(tuán)隊(duì)的生物信息學(xué)培訓(xùn)課程,。原文鏈接:https://hbctraining./scRNA-seq/schedule/ |
|