熟悉轉(zhuǎn)錄組數(shù)據(jù)(特別是RNA-Seq)分析的小伙伴肯定對(duì)RNA數(shù)據(jù)標(biāo)準(zhǔn)化流程了如指掌,,曾經(jīng)的我也天真地以為會(huì)做了RPKM和TPM就萬(wàn)事大吉了,可是前兩天處理一個(gè)流程的時(shí)候讀到了下面一段文字,,讓我瞬間惶恐萬(wàn)分: quantile normalization 是什么鬼,?為什么跟我做差異分析的時(shí)候說(shuō)的不一樣?于是趕緊維基百科一下,,這還真是專業(yè)的統(tǒng)計(jì)術(shù)語(yǔ),,主要目的是使數(shù)據(jù)分布均一。那對(duì)于轉(zhuǎn)錄組數(shù)據(jù)而言,,quantile normalization到底是一個(gè)怎樣的操作呢,? 先說(shuō)轉(zhuǎn)錄組矩陣大伙很清楚了,轉(zhuǎn)錄組數(shù)據(jù)(這里不僅僅包括測(cè)序,,芯片也可以)可以看作是一個(gè)二維矩陣,,矩陣中每一列是表示一個(gè)樣本,每一行表示一個(gè)基因,。如下圖示例: 看到這組數(shù)據(jù),,大家可能會(huì)有以下兩個(gè)直觀的感受:樣本s1整體的測(cè)序深度可能比其他樣本高一個(gè)數(shù)量級(jí);基因g1的表達(dá)水平在這三個(gè)樣本中相對(duì)較高,。如果拿著這個(gè)數(shù)據(jù)直接進(jìn)行統(tǒng)計(jì)分析的話,,或多或少會(huì)產(chǎn)生一些bias。 quantile normalization做了什么
具體示例我就直接照搬維基百科了: 有沒(méi)有代碼實(shí)現(xiàn),?這是大家最關(guān)心的問(wèn)題,,作為生物專業(yè)的人員,不能什么代碼都要自己去創(chuàng)造,,學(xué)會(huì)借用才是關(guān)鍵。簡(jiǎn)單搜了一下,,發(fā)現(xiàn)R里面有一個(gè)包可以用,,叫做 library(preprocessCore) 什么時(shí)候用,?最后就是要知道什么時(shí)候?qū)D(zhuǎn)錄組數(shù)據(jù)應(yīng)用quantile normalization。這是個(gè)比較大的命題,,估計(jì)能寫一篇review了,,但其實(shí)開(kāi)篇的時(shí)候就提到了差異分析的時(shí)候基本是不用的,因?yàn)橐呀?jīng)有了RPKM和TPM,。我此處用的目的是研究表達(dá)和GWAS關(guān)聯(lián)信號(hào)的相關(guān),,因此需要對(duì)表達(dá)數(shù)據(jù)均一化,其余方面的分析我還沒(méi)做過(guò),,不敢妄言,,好在前人有了很好的總結(jié),貼出來(lái)以后再看吧,。https://www./content/biorxiv/early/2014/12/04/012203.full.pdf |
|
來(lái)自: 生物_醫(yī)藥_科研 > 《待分類》