測(cè)序數(shù)據(jù)是100 bp的單端read,,用Rsubread比對(duì)到mouse reference genome(mm10), 然后使用featureCounts統(tǒng)計(jì)每個(gè)基因的count數(shù),。然后用TMM進(jìn)行標(biāo)準(zhǔn)化,轉(zhuǎn)換成log2 counts per million.最后用limma包對(duì)每個(gè)樣本每個(gè)基因的平均表達(dá)值以觀察水平權(quán)重的線性模型進(jìn)行擬合,,并用T檢驗(yàn)找到不同群體的差異表達(dá)基因,。以FDR + log2-fold-change對(duì)基因排序。 參考文獻(xiàn):A pooled shRNA screen for regulators of primary mammary stem and progenitor cells identifies roles for Asap1 and Prox1
這篇文章中對(duì)reads count的基因表達(dá)矩陣做的是TMM轉(zhuǎn)換,,trimmed mean of M values,被包裝到了edgeR這個(gè)R包里面,,是2010年提出的方法,,理論上是優(yōu)于RPKM: reads per kilobase per million mapped 這種normalization方法的。但是目前主流其實(shí)是DESeq2包的rlog和方差齊性轉(zhuǎn)換,,統(tǒng)計(jì)學(xué)原理不一樣,。
DESeq2為count數(shù)據(jù)提供了兩類變換方法,,使得不同均值的方差趨于穩(wěn)定:regularized-logarithm transformation or rlog(Love, Huber, and Anders 2014)和variance stabilizing transformation(VST)(Anders and Huber 2010)用于處理含有色散平均趨勢(shì)負(fù)二項(xiàng)數(shù)據(jù),。