久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

有手就會(huì)的單細(xì)胞轉(zhuǎn)錄組 | 第1期.數(shù)據(jù)導(dǎo)入

 新用戶(hù)4064dVjo 2025-01-24 發(fā)布于北京

單細(xì)胞系列如約進(jìn)行,!前面幾期我們分享了關(guān)于單細(xì)胞轉(zhuǎn)錄組相關(guān)研究思路系列,了解到單細(xì)胞大致常使用的系列類(lèi)型,。接下來(lái)我們將會(huì)一起從提供的數(shù)據(jù)開(kāi)始一步步完成單細(xì)胞常用的分析內(nèi)容,,數(shù)據(jù)代碼都已經(jīng)準(zhǔn)備好,有問(wèn)題大家可以加入文末群聊討論提問(wèn),!



往期回顧:

組學(xué)系列:


(一) 單細(xì)胞轉(zhuǎn)錄組
1. 單細(xì)胞思路 | 第1期 必學(xué)習(xí)的最常規(guī)的單細(xì)胞思路,!
2. 單細(xì)胞思路 | 第2期 單細(xì)胞中的資源庫(kù)
3. 細(xì)胞思路 | 第3期 找到靶點(diǎn)分子后可以直接測(cè)序!
4單細(xì)胞思路 | 第4期 預(yù)測(cè)標(biāo)志物,,單細(xì)胞和疾病穩(wěn)穩(wěn)聯(lián)系,!

(二) 代謝組學(xué)
1. 代謝組思路 | 第1期. 代謝組學(xué)基本思路——描繪圖譜&尋找新藥治療靶點(diǎn)
2. 代謝組思路 | 第2期. 代謝組學(xué)思路從基礎(chǔ)到進(jìn)階——識(shí)別高危患者+預(yù)測(cè)預(yù)后
3. 代謝組思路 | 第3期. 代謝組學(xué)思路進(jìn)階——預(yù)測(cè)預(yù)后
4. 代謝組思路 | 第4期. 代謝組學(xué)聯(lián)合轉(zhuǎn)錄組學(xué),,助力代謝重編程

(三) Bulk組學(xué)

1. 小白也能看懂的Bulk RNA-seq思路 | 第1期. 運(yùn)用轉(zhuǎn)錄組測(cè)序繪制疾病圖譜
2. 小白也能看懂的Bulk RNA-seq思路 | 第2期. 不知道研究哪個(gè)分子哪條通路,?轉(zhuǎn)錄組測(cè)序來(lái)幫你,!
3. 小白也能看懂的Bulk RNA-seq思路 | 第3期. 還是太全面了!轉(zhuǎn)錄組測(cè)序?qū)ふ翌A(yù)后相關(guān)細(xì)胞類(lèi)型和靶基因+揭示下游分子通路
TS

01

 數(shù)據(jù)導(dǎo)入是什么

數(shù)據(jù)導(dǎo)入是將單細(xì)胞RNA測(cè)序(scRNA-seq)下機(jī)數(shù)據(jù)經(jīng)過(guò)Cell Ranger 流程處理后,,將結(jié)果文件加載到 R 環(huán)境中,,以便進(jìn)行后續(xù)的數(shù)據(jù)分析和可視化。Cell Ranger 是 10X Genomics 提供的標(biāo)準(zhǔn)分析流程,,其輸出文件通常包括:

  • matrix.mtx:基因表達(dá)矩陣(稀疏格式),。

  • features.tsv(或 genes.tsv):基因信息文件。

  • barcodes.tsv:細(xì)胞條形碼文件,。

數(shù)據(jù)導(dǎo)入的目標(biāo)是將這些文件加載到 R 中,,并轉(zhuǎn)換為適合分析的格式(如 Seurat 對(duì)象)。


TS

02

為什么使用R進(jìn)行數(shù)據(jù)導(dǎo)入

簡(jiǎn)潔高效

R 語(yǔ)言提供了豐富的生物信息學(xué)工具包(如 Seurat,、SingleCellExperiment),,可以快速完成數(shù)據(jù)導(dǎo)入和預(yù)處理。

通過(guò)幾行代碼即可完成數(shù)據(jù)加載,、過(guò)濾和標(biāo)準(zhǔn)化,。

廣泛的應(yīng)用和支持

R 是生物信息學(xué)和單細(xì)胞數(shù)據(jù)分析的主流工具之一,擁有龐大的用戶(hù)社區(qū)和豐富的文檔支持,。R 支持自定義函數(shù)和腳本,,用戶(hù)可以根據(jù)需求靈活調(diào)整數(shù)據(jù)導(dǎo)入和分析流程。

可視化能力強(qiáng)

R 提供了強(qiáng)大的可視化工具(如 ggplot2,、ComplexHeatmap),,便于在數(shù)據(jù)導(dǎo)入后直接進(jìn)行探索性分析。

與其他工具的兼容性

R 可以與其他編程語(yǔ)言(如 Python)和工具(如 Scanpy)無(wú)縫集成,,方便多工具協(xié)作分析,。


TS

03

 怎么數(shù)據(jù)導(dǎo)入

一、理論

①barcodes.tsv.gz,、features.tsv.gz,、matrix.mtx.gz三個(gè)文件的內(nèi)容以及正常的格式:

1)我們打開(kāi)barcodes.tsv.gz,一般只有一列,,可以看到是由“16個(gè)字母-1”組成的一串字符,,在測(cè)序的時(shí)候每個(gè)細(xì)胞和凝膠珠以及水相和油構(gòu)成了單細(xì)胞乳液微滴(GEM),而每個(gè)凝膠珠上都有唯一的Barcode片段,,由此來(lái)區(qū)分不同的細(xì)胞,。

2)我們打開(kāi)features.tsv.gz,可以看到基因唯一的基因名,?!癊NSMUSG + 11位數(shù)字”是Ensembl 數(shù)據(jù)庫(kù)分配的小鼠基因ID,而“Gm + 數(shù)字”是小鼠的基因名稱(chēng),。

3)我們打開(kāi)matrix.mtx.gz可以看到每個(gè)基因的表達(dá)量的原始值,。如果在R里面讀入matrix可以看到是稀疏矩陣(一般是為了減少文件大?。D(zhuǎn)化為dense matrix或者直接打開(kāi)可以看到cellranger的版本,,以及對(duì)應(yīng)一共有的基因數(shù)(55357行),、細(xì)胞數(shù)(8229列)和非零值(20154188)。而下方的數(shù)字例如第一個(gè)代表:第165行和第一列的值為2,。導(dǎo)入是將單細(xì)胞RNA測(cè)序(scRNA-seq)下機(jī)數(shù)據(jù)經(jīng)過(guò) Cell Ranger 流程處理后,,將結(jié)果文件加載到 R 環(huán)境中,,以便進(jìn)行后續(xù)的數(shù)據(jù)分析和可視化,。Cell Ranger 是 10X Genomics 提供的標(biāo)準(zhǔn)分析流程,其輸出文件通常包括:

②相關(guān)R包工作原理

1Read10X目的就是讀入10X的cellranger后的三個(gè)文件,,形成count矩陣,。

Read10X(
  data.dir,
  gene.column = 2,
  cell.column = 1,
  unique.features = TRUE,
  strip.suffix = FALSE
)

data.dir就是上述三個(gè)文件的路徑;

gene.column = 2”就是會(huì)對(duì)應(yīng)feature文件的第二列作為基因名字,;

cell.column = 1”會(huì)對(duì)應(yīng)barcode文件的第一列為細(xì)胞名字,;

unique.features = TRUE”是使基因名唯一,如果有重復(fù)的會(huì)自動(dòng)添加后綴以區(qū)分,,

strip.suffix = FALSE” 是否移除barcodes中的“-1”后綴,。

當(dāng)整理好對(duì)應(yīng)文件為上述三個(gè)文件的gz壓縮格式時(shí),只用給對(duì)應(yīng)的data.dir就可,。

2CreateSeuratObject目的就是最終在R中形成Seruat對(duì)象

CreateSeuratObject(
  counts,
  assay = "RNA",
  names.field = 1,
  names.delim = "_",
  meta.data = NULL,
  project = "CreateSeuratObject",
  min.cells = 0,
  min.features = 0
)

counts:矩陣就是Read10X得到的數(shù)據(jù),;

assay:指定初始的 assay 名稱(chēng),默認(rèn)為 "RNA"

meta.data:這個(gè)指額外的細(xì)胞元數(shù)據(jù),,通常是一個(gè)數(shù)據(jù)框,,注意元數(shù)據(jù)的行名需要與 counts 矩陣的列名(細(xì)胞名稱(chēng))匹配。

min.cells:僅保留在至少在多少個(gè)細(xì)胞中表達(dá)的基因,。

例如min.cells = 3會(huì)過(guò)濾掉在少于3個(gè)細(xì)胞中表達(dá)的基因,。

min.features:僅保留檢測(cè)到至少多少個(gè)基因的細(xì)胞。

例如min.features = 200會(huì)過(guò)濾掉檢測(cè)到少于200個(gè)基因的細(xì)胞,。

③其他讀入方式

如果上述文件格式不標(biāo)準(zhǔn)可以對(duì)應(yīng)去修改,,對(duì)于txt/csv/tsv 文件、HDF5文件的讀入未來(lái)我們將會(huì)繼續(xù)分享,。

二,、實(shí)踐

數(shù)據(jù)來(lái)源:

我們接下來(lái)要使用的所有單細(xì)胞轉(zhuǎn)錄組分析均用以下自行構(gòu)建的示例數(shù)據(jù):

鏈接: https://pan.baidu.com/s/1q3dQXmmFmaOeTLLJ_Gjm6Q 提取碼: 8yhh

可以看到一共有17個(gè)樣本(4個(gè)case13個(gè)control),已經(jīng)整理好對(duì)應(yīng)樣本的filtered_feature_bc_matrix,。里面均整理好了三個(gè)文件,。

R包環(huán)境

library(Seurat)
library(tidyverse)

②文件位置

# 設(shè)置基礎(chǔ)路徑
base_path <- " ../outputs"
# 獲取所有子文件夾
folders <- list.dirs(base_path, full.names = FALSE, recursive = FALSE)

③讀入數(shù)據(jù)

# 創(chuàng)建一個(gè)列表來(lái)存儲(chǔ)所有的Seurat對(duì)象seurat_list <- list()
# 循環(huán)讀取每個(gè)文件夾
for(folder in folders) {
  # 構(gòu)建完整的路徑
  full_path <- file.path(base_path, folder, "filtered_feature_bc_matrix")
  # 使用文件夾名稱(chēng)作為樣本名
  sample_name <- folder
  # 讀取數(shù)據(jù)并創(chuàng)建Seurat對(duì)象
  tryCatch({
    data <- Read10X(data.dir = full_path)
    seurat_obj <- CreateSeuratObject(counts = data, project = sample_name, min.cells = 3, min.features = 200)
    # 將對(duì)象存儲(chǔ)在列表中    
    seurat_list[[sample_name]] <- seurat_obj
    # 打印進(jìn)度信息
    cat(sprintf("Successfully processed %s\n", folder))
  }, error = function(e) {
    cat(sprintf("Error processing %s: %s\n", folder, e$message))
  })
}

最終我們可以看到17個(gè)樣本已經(jīng)成功讀入R中了!

Summary


總結(jié)一下:
單細(xì)胞轉(zhuǎn)錄組就是將單細(xì)胞RNA測(cè)序(scRNA-seq)下機(jī)數(shù)據(jù)經(jīng)過(guò)Cell Ranger 流程處理后,,將結(jié)果文件加載到 R 環(huán)境中,,以便進(jìn)行后續(xù)的數(shù)據(jù)分析和可視化,。

我們使用R的原因包括其簡(jiǎn)潔高效、有廣泛的應(yīng)用和支持,、可視化能力強(qiáng)并可與其他程序兼容,。
我們介紹了在實(shí)操過(guò)程中的Read10X和CreatSeuratObject兩個(gè)函數(shù),并用示例數(shù)據(jù)進(jìn)行了演示
后期我們將繼續(xù)帶著大家一起從淺入深地接觸,、理解,、掌握單細(xì)胞轉(zhuǎn)錄學(xué)

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章