久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

再談RNA數(shù)據(jù)標(biāo)準(zhǔn)化——quantile normalization

 生物_醫(yī)藥_科研 2019-01-17

熟悉轉(zhuǎn)錄組數(shù)據(jù)(特別是RNA-Seq)分析的小伙伴肯定對(duì)RNA數(shù)據(jù)標(biāo)準(zhǔn)化流程了如指掌,,曾經(jīng)的我也天真地以為會(huì)做了RPKM和TPM就萬(wàn)事大吉了,可是前兩天處理一個(gè)流程的時(shí)候讀到了下面一段文字,,讓我瞬間惶恐萬(wàn)分:

mark

quantile normalization 是什么鬼,?為什么跟我做差異分析的時(shí)候說(shuō)的不一樣?于是趕緊維基百科一下,,這還真是專業(yè)的統(tǒng)計(jì)術(shù)語(yǔ),,主要目的是使數(shù)據(jù)分布均一。那對(duì)于轉(zhuǎn)錄組數(shù)據(jù)而言,,quantile normalization到底是一個(gè)怎樣的操作呢,?

先說(shuō)轉(zhuǎn)錄組矩陣

大伙很清楚了,轉(zhuǎn)錄組數(shù)據(jù)(這里不僅僅包括測(cè)序,,芯片也可以)可以看作是一個(gè)二維矩陣,,矩陣中每一列是表示一個(gè)樣本,每一行表示一個(gè)基因,。如下圖示例:

mark

看到這組數(shù)據(jù),,大家可能會(huì)有以下兩個(gè)直觀的感受:樣本s1整體的測(cè)序深度可能比其他樣本高一個(gè)數(shù)量級(jí);基因g1的表達(dá)水平在這三個(gè)樣本中相對(duì)較高,。如果拿著這個(gè)數(shù)據(jù)直接進(jìn)行統(tǒng)計(jì)分析的話,,或多或少會(huì)產(chǎn)生一些bias。

quantile normalization做了什么

  • 首先對(duì)數(shù)據(jù)按列排序,,并記錄真實(shí)數(shù)值的排序索引

  • 全部列按照從大到小順序排列好后以行為單位,,計(jì)算平均值

  • 根據(jù)原始數(shù)值的索引位置,將行平均值在列內(nèi)重排

具體示例我就直接照搬維基百科了:

mark

有沒(méi)有代碼實(shí)現(xiàn),?

這是大家最關(guān)心的問(wèn)題,,作為生物專業(yè)的人員,不能什么代碼都要自己去創(chuàng)造,,學(xué)會(huì)借用才是關(guān)鍵。簡(jiǎn)單搜了一下,,發(fā)現(xiàn)R里面有一個(gè)包可以用,,叫做preprocessCore,來(lái)自于強(qiáng)大的Bioconductor,。這個(gè)包的manu大家自行去網(wǎng)上學(xué)習(xí)吧,,這里直接給出實(shí)戰(zhàn)代碼,主要是矩陣格式的處理,當(dāng)然了,,這方面我也是小白,,現(xiàn)學(xué)現(xiàn)賣,大家湊合著看吧,。

library(preprocessCore)
rt = read.table('test_matrix.csv', sep = ',', header = T, check.names = F)
rt = as.matrix(rt)
rownames(rt) = rt[,1]
exp = rt[,2:ncol(rt)]
dimnames = list(rownames(exp), colnames(exp))
data = matrix(as.numeric(as.matrix(exp)), nrow = nrow(exp), dimnames = dimnames)
data_q <>
data_q = matrix(as.numeric(as.matrix(data_q)), nrow = nrow(exp), dimnames = dimnames)
write.csv(data_q, file='test_matrix.quantile.csv')

什么時(shí)候用,?

最后就是要知道什么時(shí)候?qū)D(zhuǎn)錄組數(shù)據(jù)應(yīng)用quantile normalization。這是個(gè)比較大的命題,,估計(jì)能寫一篇review了,,但其實(shí)開(kāi)篇的時(shí)候就提到了差異分析的時(shí)候基本是不用的,因?yàn)橐呀?jīng)有了RPKM和TPM,。我此處用的目的是研究表達(dá)和GWAS關(guān)聯(lián)信號(hào)的相關(guān),,因此需要對(duì)表達(dá)數(shù)據(jù)均一化,其余方面的分析我還沒(méi)做過(guò),,不敢妄言,,好在前人有了很好的總結(jié),貼出來(lái)以后再看吧,。https://www./content/biorxiv/early/2014/12/04/012203.full.pdf

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多