原創(chuàng) 2017-02-24 Dr.L 吉?jiǎng)P基因 關(guān)注吉?jiǎng)P基因公共賬號(hào),,了解疾病關(guān)鍵基因整體解決方案提供商,接收科研前沿資訊,,幫助您更好更快的進(jìn)行科學(xué)研究,。 最近幾年二代測(cè)序(又叫NGS)很火,而且價(jià)格越來(lái)越便宜,,原來(lái)都用芯片檢測(cè)mRNA,、miRNA、LncRNA表達(dá)量的,,好像不少都換用RNA-seq了,。那么,到底選擇哪種更好呢,?今天就來(lái)回答下這個(gè)問(wèn)題,。一句話—— 看研究目的。 常見(jiàn)誤區(qū)一: 對(duì),,但又不對(duì)。 首先,,大家需要明確,,檢測(cè)到和準(zhǔn)確分析基因表達(dá)量的概念是不同的,只有mapping到基因上的reads達(dá)到一定數(shù)量,才能得到相對(duì)準(zhǔn)確的分析結(jié)果,。因此RNA-Seq能檢測(cè)到多少可靠的信息完全取決于測(cè)序深度,,測(cè)序深度,測(cè)序深度,!不同于芯片的雜交法,,RNA-seq是通過(guò)讀數(shù)來(lái)檢測(cè),讀數(shù)多(即測(cè)序深度深)代表著RNA-seq的采樣率高,。采樣率低了準(zhǔn)確度自然就低了,。 那么有沒(méi)有一個(gè)實(shí)驗(yàn)?zāi)苷f(shuō)明芯片和RNA-seq之間數(shù)據(jù)準(zhǔn)確度的差異呢? 發(fā)表在PNAS上面的這篇文章就幫大家做了一個(gè)對(duì)比(PNAS 2011, 108(9):3707-3712.),。圖中綠色點(diǎn)/黑色線是測(cè)序得到的數(shù)據(jù),,紅色點(diǎn)/紅色線是芯片得到的數(shù)據(jù)。在~50M reads數(shù)據(jù)量的情況下,,當(dāng)基因表達(dá)豐度較高時(shí)(橫坐標(biāo)RPKM較大時(shí)),,兩者之間的數(shù)據(jù)質(zhì)量都是非常好的(縱坐標(biāo)CoV即變異系數(shù)越小,數(shù)據(jù)質(zhì)量越高),,但當(dāng)基因表達(dá)豐度變低時(shí)(橫坐標(biāo)RPKM較小時(shí)),,RNA-seq的數(shù)據(jù)質(zhì)量就急劇下降了,而芯片則仍然維持著高水準(zhǔn),。這篇文章得到的結(jié)論是:~80%以上的基因,,RNA-seq的數(shù)據(jù)質(zhì)量/可信度都低于芯片。市場(chǎng)上最流行的的6G數(shù)據(jù)量的RNA-seq,,其實(shí)就是40M reads或者20M paired reads,,對(duì)于研究高表達(dá)豐度的基因來(lái)說(shuō),差不多是夠用了,。但是對(duì)于中,、低表達(dá)豐度轉(zhuǎn)錄本就不夠用了。 常見(jiàn)誤區(qū)二: RNA-seq可以同時(shí)檢測(cè)已知和未知基因,,基因芯片只能檢測(cè)已知基因,,這是一個(gè)巨大的局限。 首先,,這個(gè)觀點(diǎn)的一個(gè)潛在假設(shè)是,,每次測(cè)序都能夠發(fā)現(xiàn)一些未知分子。但對(duì)于人,、大鼠,、小鼠以及其他一些模式生物,該發(fā)現(xiàn)的基因基本上都已經(jīng)發(fā)現(xiàn)完了,。因此基因是否已知,,在很多情況下并非重點(diǎn),,重點(diǎn)在于該基因在您研究的領(lǐng)域中功能是否已知。芯片上已知基因的功能大多都還不清楚,,只是盲目地去追求發(fā)現(xiàn)新分子并不可取,。 在探索性研究和非模式生物研究中,RNA-seq才是更合適的選擇,。 常見(jiàn)誤區(qū)三: RNA-seq現(xiàn)在已經(jīng)很便宜了,比基因芯片還便宜很多,。 測(cè)序中收費(fèi)標(biāo)準(zhǔn)之一來(lái)源于數(shù)據(jù)量(即測(cè)序深度),,剛剛說(shuō)了,市場(chǎng)上最流行的的RNA-seq服務(wù)數(shù)據(jù)量是6G/樣本,,即40M reads或者20M paired reads ,,這時(shí)候確實(shí)比很多芯片都便宜了。但是如果希望更準(zhǔn)確檢測(cè)中,、低豐度RNA,,就需要更深度的測(cè)序保證數(shù)據(jù)可靠性,這就會(huì)導(dǎo)致測(cè)序成本急劇上升,。下表幫大家總結(jié)了一些常見(jiàn)研究的測(cè)序數(shù)據(jù)要求,。Nature biotechnology有篇文章指出,如想要檢測(cè)lncRNA,、轉(zhuǎn)錄異構(gòu)體等一般表達(dá)豐度極低的轉(zhuǎn)錄本,,至少需要300M reads的測(cè)序量才能達(dá)到80%的數(shù)據(jù)準(zhǔn)確度(Nature biotechnology, 2014, 32(9): 903-914.)。 那么芯片又如何呢,?拿Affymetrix HTA系列的芯片來(lái)說(shuō),,它的數(shù)據(jù)量,可是相當(dāng)于480M reads測(cè)序深度,!哇,,好像看到了好多錢 ?? 常見(jiàn)誤區(qū)四: RNA-seq在測(cè)表達(dá)量的同時(shí)還可以發(fā)現(xiàn)突變,基因芯片不能,。 基因芯片(這里專指測(cè)RNA的表達(dá)譜芯片)確實(shí)不能發(fā)現(xiàn)突變,。RNA-seq是通過(guò)測(cè)序來(lái)檢測(cè)RNA豐度的,確實(shí)可以獲得序列信息,,但是因?yàn)闇y(cè)序本身有錯(cuò)誤率,,而RNA-seq常做的測(cè)序深度很低,得到的突變信息其實(shí)并不準(zhǔn)確,。要想準(zhǔn)確,,就需要極高的測(cè)序深度,那么又回到老問(wèn)題了,,成本基本是不可接受的,。 那么有些同學(xué)要問(wèn)啦,,市場(chǎng)上的基因芯片有好多種啊,不知從何入手,?小編下期再給大家聊聊基因芯片類型的選擇,。 |
|