【原】有手就會(huì)的單細(xì)胞轉(zhuǎn)錄組 | 第1期.數(shù)據(jù)導(dǎo)入

新用戶(hù)4064dVjo 2025-01-24 發(fā)布于北京

展開(kāi)全文

單細(xì)胞系列如約進(jìn)行,！前面幾期我們分享了關(guān)于單細(xì)胞轉(zhuǎn)錄組相關(guān)研究思路系列，了解到單細(xì)胞大致常使用的系列類(lèi)型,。接下來(lái)我們將會(huì)一起從提供的數(shù)據(jù)開(kāi)始一步步完成單細(xì)胞常用的分析內(nèi)容,，數(shù)據(jù)代碼都已經(jīng)準(zhǔn)備好，有問(wèn)題大家可以加入文末群聊討論提問(wèn),！

往期回顧：

組學(xué)系列：

（一) 單細(xì)胞轉(zhuǎn)錄組

1. 單細(xì)胞思路 | 第1期必學(xué)習(xí)的最常規(guī)的單細(xì)胞思路,！

2. 單細(xì)胞思路 | 第2期單細(xì)胞中的資源庫(kù)

3. 單細(xì)胞思路 | 第3期找到靶點(diǎn)分子后可以直接測(cè)序！

4. 單細(xì)胞思路 | 第4期預(yù)測(cè)標(biāo)志物,，單細(xì)胞和疾病穩(wěn)穩(wěn)聯(lián)系,！

（二) 代謝組學(xué)

1. 代謝組思路 | 第1期. 代謝組學(xué)基本思路——描繪圖譜&尋找新藥治療靶點(diǎn)

2. 代謝組思路 | 第2期. 代謝組學(xué)思路從基礎(chǔ)到進(jìn)階——識(shí)別高危患者+預(yù)測(cè)預(yù)后

3. 代謝組思路 | 第3期. 代謝組學(xué)思路進(jìn)階——預(yù)測(cè)預(yù)后

4. 代謝組思路 | 第4期. 代謝組學(xué)聯(lián)合轉(zhuǎn)錄組學(xué),，助力代謝重編程

（三) Bulk組學(xué)

1. 小白也能看懂的Bulk RNA-seq思路 | 第1期. 運(yùn)用轉(zhuǎn)錄組測(cè)序繪制疾病圖譜

2. 小白也能看懂的Bulk RNA-seq思路 | 第2期. 不知道研究哪個(gè)分子哪條通路,？轉(zhuǎn)錄組測(cè)序來(lái)幫你,！

3. 小白也能看懂的Bulk RNA-seq思路 | 第3期. 還是太全面了！轉(zhuǎn)錄組測(cè)序?qū)ふ翌A(yù)后相關(guān)細(xì)胞類(lèi)型和靶基因+揭示下游分子通路

數(shù)據(jù)導(dǎo)入是什么

數(shù)據(jù)導(dǎo)入是將單細(xì)胞RNA測(cè)序（scRNA-seq）下機(jī)數(shù)據(jù)經(jīng)過(guò)Cell Ranger 流程處理后,，將結(jié)果文件加載到 R 環(huán)境中,，以便進(jìn)行后續(xù)的數(shù)據(jù)分析和可視化。Cell Ranger 是 10X Genomics 提供的標(biāo)準(zhǔn)分析流程,，其輸出文件通常包括：

matrix.mtx：基因表達(dá)矩陣（稀疏格式）,。
features.tsv（或 genes.tsv）：基因信息文件。
barcodes.tsv：細(xì)胞條形碼文件,。

數(shù)據(jù)導(dǎo)入的目標(biāo)是將這些文件加載到 R 中,，并轉(zhuǎn)換為適合分析的格式（如 Seurat 對(duì)象）。

為什么使用R進(jìn)行數(shù)據(jù)導(dǎo)入

簡(jiǎn)潔高效：

R 語(yǔ)言提供了豐富的生物信息學(xué)工具包（如 Seurat,、SingleCellExperiment）,，可以快速完成數(shù)據(jù)導(dǎo)入和預(yù)處理。

通過(guò)幾行代碼即可完成數(shù)據(jù)加載,、過(guò)濾和標(biāo)準(zhǔn)化,。

廣泛的應(yīng)用和支持：

R 是生物信息學(xué)和單細(xì)胞數(shù)據(jù)分析的主流工具之一，擁有龐大的用戶(hù)社區(qū)和豐富的文檔支持,。且R 支持自定義函數(shù)和腳本,，用戶(hù)可以根據(jù)需求靈活調(diào)整數(shù)據(jù)導(dǎo)入和分析流程。

可視化能力強(qiáng)：

R 提供了強(qiáng)大的可視化工具（如 ggplot2,、ComplexHeatmap）,，便于在數(shù)據(jù)導(dǎo)入后直接進(jìn)行探索性分析。

與其他工具的兼容性：

R 可以與其他編程語(yǔ)言（如 Python）和工具（如 Scanpy）無(wú)縫集成,，方便多工具協(xié)作分析,。

怎么數(shù)據(jù)導(dǎo)入

一、理論

①barcodes.tsv.gz,、features.tsv.gz,、matrix.mtx.gz三個(gè)文件的內(nèi)容以及正常的格式：

1）我們打開(kāi)barcodes.tsv.gz，一般只有一列,，可以看到是由“16個(gè)字母-1”組成的一串字符,，在測(cè)序的時(shí)候每個(gè)細(xì)胞和凝膠珠以及水相和油構(gòu)成了單細(xì)胞乳液微滴（GEM），而每個(gè)凝膠珠上都有唯一的Barcode片段,，由此來(lái)區(qū)分不同的細(xì)胞,。

2）我們打開(kāi)features.tsv.gz，可以看到基因唯一的基因名,?！癊NSMUSG + 11位數(shù)字”是Ensembl 數(shù)據(jù)庫(kù)分配的小鼠基因ID，而“Gm + 數(shù)字”是小鼠的基因名稱(chēng),。

3）我們打開(kāi)matrix.mtx.gz可以看到每個(gè)基因的表達(dá)量的原始值,。如果在R里面讀入matrix可以看到是稀疏矩陣（一般是為了減少文件大?。D(zhuǎn)化為dense matrix或者直接打開(kāi)可以看到cellranger的版本,，以及對(duì)應(yīng)一共有的基因數(shù)（55357行）,、細(xì)胞數(shù)（8229列）和非零值（20154188）。而下方的數(shù)字例如第一個(gè)代表：第165行和第一列的值為2,。導(dǎo)入是將單細(xì)胞RNA測(cè)序（scRNA-seq）下機(jī)數(shù)據(jù)經(jīng)過(guò) Cell Ranger 流程處理后,，將結(jié)果文件加載到 R 環(huán)境中,，以便進(jìn)行后續(xù)的數(shù)據(jù)分析和可視化,。Cell Ranger 是 10X Genomics 提供的標(biāo)準(zhǔn)分析流程，其輸出文件通常包括：

②相關(guān)R包工作原理

1）Read10X：目的就是讀入10X的cellranger后的三個(gè)文件,，形成count矩陣,。

Read10X(
  data.dir,
  gene.column = 2,
  cell.column = 1,
  unique.features = TRUE,
  strip.suffix = FALSE
)

data.dir就是上述三個(gè)文件的路徑；

“gene.column = 2”就是會(huì)對(duì)應(yīng)feature文件的第二列作為基因名字,；

“cell.column = 1”會(huì)對(duì)應(yīng)barcode文件的第一列為細(xì)胞名字,；

“unique.features = TRUE”是使基因名唯一，如果有重復(fù)的會(huì)自動(dòng)添加后綴以區(qū)分,，

“strip.suffix = FALSE” 是否移除barcodes中的“-1”后綴,。

當(dāng)整理好對(duì)應(yīng)文件為上述三個(gè)文件的gz壓縮格式時(shí)，只用給對(duì)應(yīng)的data.dir就可,。

2）CreateSeuratObject：目的就是最終在R中形成Seruat對(duì)象

CreateSeuratObject(
  counts,
  assay = "RNA",
  names.field = 1,
  names.delim = "_",
  meta.data = NULL,
  project = "CreateSeuratObject",
  min.cells = 0,
  min.features = 0
)

counts：矩陣就是Read10X得到的數(shù)據(jù),；

assay：指定初始的 assay 名稱(chēng)，默認(rèn)為 "RNA"

meta.data：這個(gè)指額外的細(xì)胞元數(shù)據(jù),，通常是一個(gè)數(shù)據(jù)框,，注意元數(shù)據(jù)的行名需要與 counts 矩陣的列名（細(xì)胞名稱(chēng)）匹配。

min.cells：僅保留在至少在多少個(gè)細(xì)胞中表達(dá)的基因,。

例如min.cells = 3會(huì)過(guò)濾掉在少于3個(gè)細(xì)胞中表達(dá)的基因,。

min.features：僅保留檢測(cè)到至少多少個(gè)基因的細(xì)胞。

例如min.features = 200會(huì)過(guò)濾掉檢測(cè)到少于200個(gè)基因的細(xì)胞,。

③其他讀入方式

如果上述文件格式不標(biāo)準(zhǔn)可以對(duì)應(yīng)去修改,，對(duì)于txt/csv/tsv 文件、HDF5文件的讀入未來(lái)我們將會(huì)繼續(xù)分享,。

二,、實(shí)踐

數(shù)據(jù)來(lái)源：

我們接下來(lái)要使用的所有單細(xì)胞轉(zhuǎn)錄組分析均用以下自行構(gòu)建的示例數(shù)據(jù)：

鏈接: https://pan.baidu.com/s/1q3dQXmmFmaOeTLLJ_Gjm6Q 提取碼: 8yhh

可以看到一共有17個(gè)樣本（4個(gè)case和13個(gè)control），已經(jīng)整理好對(duì)應(yīng)樣本的filtered_feature_bc_matrix,。里面均整理好了三個(gè)文件,。

①R包環(huán)境

library(Seurat)
library(tidyverse)

②文件位置

# 設(shè)置基礎(chǔ)路徑
base_path <- " ../outputs"
# 獲取所有子文件夾
folders <- list.dirs(base_path, full.names = FALSE, recursive = FALSE)

③讀入數(shù)據(jù)

# 創(chuàng)建一個(gè)列表來(lái)存儲(chǔ)所有的Seurat對(duì)象seurat_list <- list()
# 循環(huán)讀取每個(gè)文件夾
for(folder in folders) {
  # 構(gòu)建完整的路徑
  full_path <- file.path(base_path, folder, "filtered_feature_bc_matrix")
  # 使用文件夾名稱(chēng)作為樣本名
  sample_name <- folder
  # 讀取數(shù)據(jù)并創(chuàng)建Seurat對(duì)象
  tryCatch({
    data <- Read10X(data.dir = full_path)
    seurat_obj <- CreateSeuratObject(counts = data, project = sample_name, min.cells = 3, min.features = 200)
    # 將對(duì)象存儲(chǔ)在列表中    
    seurat_list[[sample_name]] <- seurat_obj
    # 打印進(jìn)度信息
    cat(sprintf("Successfully processed %s\n", folder))
  }, error = function(e) {
    cat(sprintf("Error processing %s: %s\n", folder, e$message))
  })
}

最終我們可以看到17個(gè)樣本已經(jīng)成功讀入R中了！

Summary：

總結(jié)一下：

單細(xì)胞轉(zhuǎn)錄組就是將單細(xì)胞RNA測(cè)序（scRNA-seq）下機(jī)數(shù)據(jù)經(jīng)過(guò)Cell Ranger 流程處理后,，將結(jié)果文件加載到 R 環(huán)境中,，以便進(jìn)行后續(xù)的數(shù)據(jù)分析和可視化,。

我們使用R的原因包括其簡(jiǎn)潔高效、有廣泛的應(yīng)用和支持,、可視化能力強(qiáng)并可與其他程序兼容,。

我們介紹了在實(shí)操過(guò)程中的Read10X和CreatSeuratObject兩個(gè)函數(shù)，并用示例數(shù)據(jù)進(jìn)行了演示

后期我們將繼續(xù)帶著大家一起從淺入深地接觸,、理解,、掌握單細(xì)胞轉(zhuǎn)錄學(xué)！