久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

從原始數(shù)據(jù)到計(jì)數(shù)矩陣

 健明 2021-07-15





前文回顧

單細(xì)胞RNA-seq分析介紹
單細(xì)胞RNA-seq的設(shè)計(jì)和方法

前言

根據(jù)所用文庫制備方法的不同,獲得的RNA序列(也稱reads或tags)有3'(或5')端起始的轉(zhuǎn)錄本(10X Genomics, CEL-seq2, Drop-seq, inDrops)和全長轉(zhuǎn)錄本(Smart-seq)之分。

圖片來源:Papalexi E和Satija R.探索免疫細(xì)胞異質(zhì)性的單細(xì)胞RNA測序,,《自然評論免疫學(xué)》 2018年(https:///10.1038/nri.2017.76)

感興趣的問題關(guān)乎方法的選擇,下面列出了這些方法的優(yōu)點(diǎn)

  • 3'(或5')端測序:

    • 通過使用獨(dú)特的分子標(biāo)識符進(jìn)行更準(zhǔn)確的定量,,從而將生物學(xué)拷貝與擴(kuò)增復(fù)制(PCR)進(jìn)行區(qū)分

    • 測序的細(xì)胞數(shù)量更多,,可以更好地鑒定細(xì)胞類型群體

    • 每個(gè)細(xì)胞成本便宜

    • 超過10,000個(gè)細(xì)胞可獲得最佳結(jié)果

  • 全長測序

    • 異構(gòu)體水平表達(dá)差異的檢測

    • 等位基因表達(dá)差異的鑒定

    • 少量細(xì)胞的深層測序

    • 適合細(xì)胞數(shù)較少的樣本

對于3'端測序和全長測序有許多相同的分析步驟,但是3'方案越來越流行,,并且在分析中還包含一些其他步驟,。因此,我們的材料將著重于基于液滴的方法(inDrops,,Drop-seq,,10X Genomics),詳細(xì)介紹這3'方案的數(shù)據(jù)分析,。

3'末端讀?。òㄋ谢谝旱蔚姆椒ǎ?/span>

了解每個(gè)reads中都包含哪些信息,以及我們?nèi)绾卧谡麄€(gè)分析過程中使用它,,對于scRNA-seq數(shù)據(jù)的分析是很有幫助的,。

對于3'端測序方法,來自同一轉(zhuǎn)錄本的不同分子的reads將僅來自轉(zhuǎn)錄本的3’端,,因此具有相同序列的可能性很高,。然而,文庫準(zhǔn)備過程中的PCR步驟也可能產(chǎn)生讀取副本,。為了確定讀數(shù)是生物學(xué)上的還是技術(shù)上的復(fù)制,,這些方法使用唯一的分子標(biāo)識符,即UMIs

  • 不同UMI映射到同一轉(zhuǎn)錄本的read來自不同的分子,,是生物學(xué)上的重復(fù)-每個(gè)read都應(yīng)該計(jì)算在內(nèi)

  • 具有相同UMI的read源自相同的分子,,在技術(shù)上是重復(fù)的-UMIs應(yīng)折疊以計(jì)入單個(gè)read

  • 在下圖中,ACTB的read應(yīng)折疊并計(jì)入單個(gè)read,,而ARL1的read應(yīng)分別計(jì)數(shù)

    圖片來源:由Macosko EZ等人修改,。使用納升微滴對細(xì)胞進(jìn)行高度平行的全基因組表達(dá)譜分析,,Cell 2015(https:///10.1016/j.cell.2015.05.002)

因此,我們知道需要跟蹤UMIs,,但是還需要什么其他信息來正確量化我們樣本中每個(gè)細(xì)胞中每個(gè)基因的表達(dá)呢,?無論采用哪種液滴方法,在細(xì)胞水平上進(jìn)行適當(dāng)?shù)亩慷夹枰韵聴l件:

  • Sample index(樣本索引):確定read來自哪個(gè)樣本(在庫準(zhǔn)備過程中添加—需要記錄)

  • Cellular barcode:確定read來自哪個(gè)細(xì)胞(每種庫制備方法都有在庫制備過程中使用的細(xì)胞條形碼的庫)

  • UMI(唯一分子標(biāo)識符):確定read來自哪個(gè)轉(zhuǎn)錄分子

  • Sequencing read1:Read1序列

  • Sequencing read2:Read2序列

例如,,使用inDrops v3的文庫制備方法時(shí),,下面表示如何在四次讀取中獲取所有信息:

  • R1 (61 bp Read 1):序列讀取(上邊的紅色箭頭)

  • R2 (8 bp Index Read 1 (i7)): 細(xì)胞條形碼 — 讀取細(xì)胞的來源(上邊的紫色箭頭)

  • R3 (8 bp Index Read 2 (i5)): 樣本/庫索引 — 讀取樣本的來源(下邊紅色箭頭)

  • R4 (14 bp Read 2): read 2和剩余的細(xì)胞條形碼和UMI — 讀取轉(zhuǎn)錄本來源(下邊紫色箭頭)

對于不同的基于液滴的scRNA-seq方法,scRNA-seq的分析工作流程類似,,但它們之間對UMIs,、細(xì)胞ID和樣本索引的解析將有所不同。例如,,下面是10x 序列讀取的示意圖,,其中索引、UMIs和條形碼的放置方式不同:

圖片來源:Sarah Boswell, Director of the Single Cell Sequencing Core at HMS

單細(xì)胞RNA-seq工作流程

scRNA-seq方法將確定如何從測序reads中解析barcodes和UMIs,。因此,,盡管有幾個(gè)具體步驟會略有不同,但無論采用何種方法,,整個(gè)工作流程通常都遵循相同的步驟,。常規(guī)工作流程如下所示:

圖片來源:Luecken, MD and Theis, FJ. Current best practices in single‐cell RNA‐seq analysis: a tutorial, Mol Syst Biol 2019 (doi: https:///10.15252/msb.20188746

常規(guī)工作流程步驟是:

  • 計(jì)數(shù)矩陣的生成(特定于方法的步驟,依方法的不同而有變化):格式化讀取,,分離樣本,,映射和量化

  • 原始計(jì)數(shù)的質(zhì)量控制:過濾質(zhì)量差的細(xì)胞

  • 過濾計(jì)數(shù)后的聚類:基于轉(zhuǎn)錄活性的相似性將細(xì)胞聚類(細(xì)胞類型=不同聚類)

  • 標(biāo)記鑒定:識別每個(gè)聚類的基因標(biāo)記

  • 可選的下游步驟

無論進(jìn)行何種分析,基于每種條件的單個(gè)樣本得出的關(guān)于總體的結(jié)論都不太可靠,。仍然需要生物重復(fù),!也就是說,如果您要得出與總體相對應(yīng)的結(jié)論,,就不能僅僅是單個(gè)樣本,。

計(jì)數(shù)矩陣的生成

我們將首先討論此工作流的第一部分,即從原始測序數(shù)據(jù)生成計(jì)數(shù)矩陣,。我們將重點(diǎn)介紹基于液滴的方法所使用的3'端測序,,如inDrops、10X Genomics和Drop-Seq,。

測序后,測序工具將以BCL或FASTQ格式輸出原始測序數(shù)據(jù),,或生成計(jì)數(shù)矩陣,。如果讀取的是BCL格式,則我們將需要轉(zhuǎn)換為FASTQ格式,。有一個(gè)有用的命令行工具bcl2fastq,,可以輕松地執(zhí)行此轉(zhuǎn)換。

注意:在工作流的此步驟,,我們不進(jìn)行樣本分離,。您可能已對6個(gè)樣本進(jìn)行了測序,但所有樣本的讀數(shù)可能全部存在于同一BCL或FASTQ文件中,。

對于許多scRNA-seq方法,,從原始測序數(shù)據(jù)到生成計(jì)數(shù)矩陣都將經(jīng)歷相似的步驟。

image.png

umis(https://github.com/vals/umis)和zUMIs(https://github.com/sdparekh/zUMIs)是估算轉(zhuǎn)錄本3'端測序的scRNA-seq數(shù)據(jù)表達(dá)的命令行工具。這兩種工具都具有UMIs的去重功能,,以校正偏差,。此過程中的步驟包括:

  1. 格式化reads并過濾嘈雜的細(xì)胞條形碼

  2. 分離樣本

  3. Mapping/pseudo-mapping到轉(zhuǎn)錄組

  4. 去重UMIs并量化reads

如果使用10X Genomics庫制備方法,則上述所有步驟都將使用Cell Ranger管道(https://support./single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger),。

1. 格式化reads并過濾嘈雜的細(xì)胞條形碼

FASTQ文件可用于解析cell barcodes, UMIs, and sample barcodes,。對于基于液滴的方法,由于以下原因,,許多cellular barcodes將匹配較低的reads次數(shù)(<1000 reads):

  • 死亡細(xì)胞中游離RNA的包埋

  • 表達(dá)很少基因的簡單細(xì)胞(紅細(xì)胞等)

  • 由于某種原因而失敗的細(xì)胞

在讀取比對之前,,需要從序列數(shù)據(jù)中過濾出這些多余的條形碼。為了進(jìn)行此過濾,,提取并保存每個(gè)細(xì)胞的“細(xì)胞條形碼”和“分子條形碼”,。例如,如果使用'UMIS’工具,,信息將添加到每次讀取的標(biāo)題行,,格式如下:

1@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT
2AGGAAGATGGAGGAGAGAAGGCGGTGAAAGAGACCTGTAAAAAGCCACCGN
3+
4@@@DDBD>=AFCF+<CAFHDECII:DGGGHGIGGIIIEHGIIIGIIDHII#


文庫制備方法中使用的已知細(xì)胞條形碼應(yīng)該是已知的,未知的條形碼將被丟棄,,同時(shí)允許與已知細(xì)胞條形碼有可接受數(shù)量的不匹配,。

2. 分離樣本reads

如果對多個(gè)樣本進(jìn)行測序,則該過程的下一步是對樣本進(jìn)行分離,。這是這個(gè)過程中的一個(gè)步驟,,不是由“UMIS”工具處理的,而是由“zUMI”完成的,。我們需要解析reads以確定與每個(gè)細(xì)胞相關(guān)聯(lián)的樣本條形碼,。

3.Mapping/pseudo-mapping to cDNAs

為了確定read來自哪個(gè)基因,使用傳統(tǒng)的(STAR)或輕量級方法(Kallisto/RapMap)對reads進(jìn)行比對,。

4. 去重UMIs并量化reads

重復(fù)的UMI被剔除,,并且使用Kallisto或featureCounts之類的工具僅量化唯一的UMI。結(jié)果輸出是一個(gè)按基因計(jì)數(shù)的細(xì)胞矩陣:

圖片來源:extracted from Lafzi et al. Tutorial: guidelines for the experimental design of single-cell RNA sequencing studies, Nature Protocols 2018 (https:///10.1038/s41596-018-0073-y)

矩陣中的每個(gè)值代表細(xì)胞中源自相應(yīng)基因的讀取次數(shù),。使用計(jì)數(shù)矩陣,,我們可以瀏覽和篩選數(shù)據(jù),只保留質(zhì)量較高的細(xì)胞,。

注:以上內(nèi)容來自哈佛大學(xué)生物信息中心(HBC)的教學(xué)團(tuán)隊(duì)的生物信息學(xué)培訓(xùn)課程,。原文鏈接:https://hbctraining./scRNA-seq/schedule/

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多