久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

多樣的RNA-seq數(shù)據(jù)分析的可用方法概述

 panhoy 2014-08-20

SCIENCE CHINA Life Sciences
December 2011  Vol.54  No.12: 1121–1128 doi: 10.1007/s11427-011-4255-x 

Overview of available methods for diverse RNA-Seq data analyses
CHEN Geng , WANG Charles & SHI TieLiu

 

這是發(fā)在《中國(guó)科學(xué)*生命科學(xué)輯(英文版)》的一篇綜述文章,。摘要比較簡(jiǎn)練:

“RNA-seq技術(shù)正廣泛用于各種轉(zhuǎn)錄組研究,;然而,分析和解釋RNA-seq數(shù)據(jù)面臨著嚴(yán)峻挑戰(zhàn),。隨著高通量測(cè)序技術(shù)的發(fā)展,,測(cè)序成本隨著測(cè)序通量急劇增加而大幅度下降。但是測(cè)序reads仍然長(zhǎng)度很短并包含著各種測(cè)序錯(cuò)誤,。同時(shí),錯(cuò)綜復(fù)雜的轉(zhuǎn)錄組總是比我們預(yù)期的更復(fù)雜,。這些挑戰(zhàn)都急需有效地生物信息學(xué)算法來(lái)高效處理大量轉(zhuǎn)錄組測(cè)序數(shù)據(jù)和進(jìn)行相關(guān)研究,。本文概述了一些轉(zhuǎn)錄組測(cè)序的常規(guī)應(yīng)用及其相關(guān)分析策略,包括短reads映射,,外顯子剪接位點(diǎn)檢測(cè),,基因或亞型表達(dá)定量,差異表達(dá)分析和轉(zhuǎn)錄組重構(gòu),?!?/p>

 

開(kāi)頭是一些常見(jiàn)的背景介紹:

“RNA-seq是轉(zhuǎn)錄組研究的一種強(qiáng)有力的技術(shù)。它使我們能研究在不同組織不同階段以及不同條件下生物體的基因活性,。相比于微陣列技術(shù),,RNA-seq能捕獲理論上一個(gè)細(xì)胞的快照中幾乎所有表達(dá)的轉(zhuǎn)錄本,而微陣列依賴于先驗(yàn)信息,、不能檢測(cè)新剪接體,、新基因和新轉(zhuǎn)錄本。此外,,RNA-seq具有很低的背景噪音和很高的靈敏度,,所需RNA樣本更少,正隨著技術(shù)的快速進(jìn)步變得更劃算,。RNA-seq的這些優(yōu)點(diǎn)使我們能更全面地說(shuō)明轉(zhuǎn)錄組的復(fù)雜性并生成關(guān)于各物種的一個(gè)空前的轉(zhuǎn)錄組全景圖,。

迄今為止,RNA-seq已經(jīng)用于大量物種的各類研究,,如推斷可變剪接,、定量基因和轉(zhuǎn)錄本的表達(dá)、檢測(cè)基因融合,、揭示lncRNAs和表達(dá)的外顯子中的SNVs,。盡管RNA-seq對(duì)這些研究有很大助益,但它仍面臨很多來(lái)自測(cè)序技術(shù)自身和數(shù)據(jù)的生物信息學(xué)分析的挑戰(zhàn),。具體來(lái)說(shuō),,RNA-seq有文庫(kù)構(gòu)建的偏倚,鏈特異性文庫(kù)仍然不太容易生產(chǎn)但對(duì)決定轉(zhuǎn)錄本定向很重要。而且,,RNA-seq產(chǎn)生了大量數(shù)據(jù),,read長(zhǎng)度通常較短而且存在測(cè)序錯(cuò)誤。這些方面對(duì)有效處理大量RNA-seq數(shù)據(jù)的相應(yīng)方法和算法構(gòu)成挑戰(zhàn),。

參考基因組序列對(duì)于準(zhǔn)確地進(jìn)行各種RNA-seq研究是至關(guān)重要的,,因?yàn)樗峁┝藃eads映射的模板。參考序列上的相關(guān)注釋能夠指導(dǎo)算法來(lái)優(yōu)化對(duì)結(jié)果的分析,。由于目前的測(cè)序技術(shù)主要用于模式生物和研究中涉及的一般物種,,很多其他生物仍待測(cè)序、缺乏可用的參考基因組,。此外,,盡管一些生物的基因組被測(cè)過(guò)序,但是其參考基因組仍有空隙沒(méi)有補(bǔ)全或者其參考基因組沒(méi)有被很好地注釋,。對(duì)于這些有相對(duì)完整和高質(zhì)量基因組的生物來(lái)說(shuō),,我們能直接映射RNA-seq reads到參考序列上并進(jìn)行各種轉(zhuǎn)錄組研究。但是,,對(duì)于那些沒(méi)有參考基因組或者其參考基因組不完整的生物來(lái)說(shuō),,需要其他方法來(lái)完成相關(guān)研究。

在本綜述中,,我們提供了對(duì)目前進(jìn)行各種轉(zhuǎn)錄組研究的可用方法的一個(gè)概述,,這些方法可利用轉(zhuǎn)錄組測(cè)序數(shù)據(jù),包括短read映射,、外顯子剪接位點(diǎn)檢測(cè),、基因或亞型表達(dá)定量、差異表達(dá)分析和轉(zhuǎn)錄組重構(gòu),??紤]到一些物種有建好的參考基因組,而大多數(shù)其它物種仍沒(méi)有相應(yīng)的可用參考序列,,,,所以我們還提供了為達(dá)到相應(yīng)研究目標(biāo)的不同策略的相關(guān)建議?!?/p>

 

1,、RNA-seq的應(yīng)用

將摘要所說(shuō)的幾點(diǎn)應(yīng)用領(lǐng)域展開(kāi),依邏輯順序,,首先是短read映射:

“轉(zhuǎn)錄組測(cè)序reads通常首先映射到基因組或轉(zhuǎn)錄組序列上,,而reads比對(duì)對(duì)基于首先映射的分析方法來(lái)說(shuō)是一個(gè)基礎(chǔ)和關(guān)鍵的步驟?;蚪M序列的復(fù)雜性對(duì)于短reads的映射準(zhǔn)確度有直接影響,。原核基因組較小而且其基因組序列不像真核的那么復(fù)雜,。但是,哺乳類基因組通常很大,、包含很多重復(fù)性和同源性序列,。這些高度的序列相似是短reads映射的巨大挑戰(zhàn)。而且,,來(lái)自剪接位點(diǎn)的reads需要劈成片段以跨過(guò)內(nèi)含子然后映射到參考基因組序列上,。然而外顯子和內(nèi)含子長(zhǎng)度差別很大,這些差別造成了開(kāi)發(fā)性能優(yōu)良的跨基因組映射算法的困難,。假設(shè)內(nèi)含子過(guò)短或過(guò)長(zhǎng),,就要花更多的計(jì)算時(shí)間來(lái)搜索其真正邊界和正確地映射這些片段。如果外顯子比read長(zhǎng)度更短,,則帶有這些外顯子的read在映射時(shí)就需要劈成多個(gè)片段,,這會(huì)進(jìn)一步使過(guò)程復(fù)雜化。此外,,對(duì)于35-400bp長(zhǎng)的reads來(lái)說(shuō),其中的測(cè)序錯(cuò)誤和reads的大量性也增加了比對(duì)的困難度和含糊不清,。于是,,快速精確地映射這些短read序列對(duì)于有效處理RNA-seq數(shù)據(jù)和完成各種分析人物來(lái)說(shuō)是至關(guān)重要的。

RNA-seq的短read映射器可分成拼接型和不拼接型,。不拼接型read映射器適合于比對(duì)read到已知轉(zhuǎn)錄本數(shù)據(jù)庫(kù)來(lái)定量基因或亞型的表達(dá),。拼接型映射器通常用于比對(duì)read到參考基因組,考慮到內(nèi)含子而允許大空隙,。這些拼接型read比對(duì)器首先使用不拼接型比對(duì)器將read比對(duì)到參考基因組,,然后把未映射的read劈成更短的片段并獨(dú)立地映射它們以跨過(guò)可能的內(nèi)含子。它們通常用于推斷外顯子剪接位點(diǎn),,下一節(jié)將會(huì)介紹,。目前,兩種經(jīng)典的方法廣泛用于不拼接短短read映射器:Hash Look-up Table算法和基于Burrows-Wheeler Transform的方法,?;谏⒘械膶?shí)現(xiàn)(如Maq,ZOOM,,RMAP,,SeqMap和SOAP)可根據(jù)內(nèi)存消耗進(jìn)一步分成兩類。一類的內(nèi)存使用依賴于reads的長(zhǎng)度和數(shù)目,,另一類依賴于基因組大小和種子長(zhǎng)度,。BWT方法能顯著地減少所需內(nèi)存并顯著地加快映射速度(如Bowtie、SOAP2和BWA),?;谏⒘泻虰WT的方法都可用于處理短reads,,但由于其比對(duì)短reads的方式不同而呈現(xiàn)出性能上的差異。這些差異包括內(nèi)存消耗,、耗時(shí)(或速度),、read讀長(zhǎng)支持、映射reads數(shù)目以及比對(duì)準(zhǔn)確度,。實(shí)踐中,,使用BWT方法來(lái)索引參考基因組能減少內(nèi)存使用并獲得更高的映射速度,而基于散列的方法能達(dá)到更好的映射靈敏度和準(zhǔn)確度,。

當(dāng)映射短reads到參考序列時(shí),,要考慮很多因素。由于測(cè)序錯(cuò)誤,,reads中的一些核苷酸可能是錯(cuò)誤的并會(huì)影響reads映射,。需要一個(gè)預(yù)處理來(lái)去除低質(zhì)量堿基或reads。盡管很多短reads比對(duì)器允許錯(cuò)配,,但只有少數(shù)幾個(gè)支持有空隙的比對(duì)(對(duì)于考慮插入缺失是很重要的),。此外,一些軟件在reads比對(duì)時(shí)考慮了堿基質(zhì)量而另一些則沒(méi)有,。另一個(gè)大的挑戰(zhàn)是同源基因家族,、重復(fù)序列和同一基因的可變剪接亞型之間高度的序列相似性會(huì)引起映射的歧義性,并導(dǎo)致一些reads映射到多個(gè)位置,。這些因子會(huì)影響下一步的分析,,如可變剪接檢測(cè)、基因或亞型表達(dá)定量,。因此,,解決這些read映射難題對(duì)于首先映射的相關(guān)研究是至關(guān)重要的。為處理多映射reads也提出了一些方法,,如按唯一比對(duì)reads數(shù)目的比例分配,,利用生成性統(tǒng)計(jì)模型和相關(guān)推斷方法來(lái)解決reads映射不確定性的計(jì)算問(wèn)題?!?/p>

其次是外顯子剪接位點(diǎn)檢測(cè):

“可變剪接在真核基因轉(zhuǎn)爐過(guò)程中非常普遍,,對(duì)于基因組產(chǎn)生各種RNAs來(lái)確保相關(guān)機(jī)體功能正常非常重要。目前只有少數(shù)模式生物具有相對(duì)良好注釋過(guò)的外顯子剪接位點(diǎn),,大多數(shù)物種的基因組尚未測(cè)序或很好地注釋,。然而,即使對(duì)于那些很好注釋過(guò)的模式生物,,其參考基因組的基因注釋也是不完整的,。Trapnell等通過(guò)分析小鼠肌細(xì)胞系的RNA-seq數(shù)據(jù),檢測(cè)到數(shù)千個(gè)先前未注釋到的轉(zhuǎn)錄本,。Guttman等從小鼠胚干細(xì)胞的轉(zhuǎn)錄組數(shù)據(jù)研究揭示了超過(guò)一千個(gè)大間區(qū)ncRNAs,。此外,,檢測(cè)到的外顯子剪接位點(diǎn)對(duì)于進(jìn)一步推斷基因亞型和定量基因或亞型的表達(dá)是至關(guān)重要的。因此,,精確檢測(cè)外顯子剪接位點(diǎn)對(duì)于進(jìn)一步分析極其重要,。

RNA剪接造成了正確映射reads到參考基因組的主要挑戰(zhàn)。為鑒定外顯子剪接位點(diǎn),,軟件必須支持reads的拼接映射,,因?yàn)榭缂艚游稽c(diǎn)的reads需要劈成更小的片段,以映射到被可能的內(nèi)含子分開(kāi)的不同外顯子上,。已經(jīng)開(kāi)發(fā)了一些檢測(cè)剪接位點(diǎn)的軟件,。TopHat用bowtie比對(duì)RNA-seq reads到基因組上,然后根據(jù)映射結(jié)果預(yù)測(cè)剪接位點(diǎn),。由于大多數(shù)內(nèi)含子具有GT-AG模式,,為保證準(zhǔn)確性并節(jié)省時(shí)間,TopHat只報(bào)告跨GT-AG型內(nèi)含子短于75bp的reads比對(duì),。TopHat將會(huì)支持用更長(zhǎng)的reads搜索GC-AG和AT-AC型內(nèi)含子,。SpliceMap不依賴于基因結(jié)構(gòu)的現(xiàn)有注釋,能高度準(zhǔn)確地檢測(cè)新剪接位點(diǎn),。MapSplice是另一款有效的軟件,,可以快速檢測(cè)高敏感性和特異性的剪接位點(diǎn),它不依賴于剪接位點(diǎn)特征或內(nèi)含子長(zhǎng)度,。最近SOAPsplice也開(kāi)發(fā)出來(lái)了,可穩(wěn)健地檢測(cè)剪接位點(diǎn)而無(wú)需已知剪接位點(diǎn)的信息,。該軟件可用于從頭預(yù)測(cè)剪接位點(diǎn),,來(lái)研究可變剪接機(jī)制。因?yàn)檫@些策略都需要首先映射RNA-seq reads到參考基因組,,所以只適用于那些具有可用參考序列的物種,。”

第三是基因和亞型表達(dá)定量

“RNA-seq技術(shù)之前,,微陣列是研究基因表達(dá)譜的主流技術(shù),。但是在定量基因表達(dá)時(shí),微陣列局限于基因水平,。相反,,RNA-seq對(duì)基因和亞型水平的基因表達(dá)都能估計(jì)。很多多外顯子基因在表達(dá)時(shí)會(huì)產(chǎn)生多種亞型,,不同亞型有不同作用,。為了全面理解復(fù)雜的轉(zhuǎn)錄組,必須在亞型水平研究基因,。我們先前的工作表明亞型水平的表達(dá)研究能使我們更詳細(xì)地探索可變剪接機(jī)制,,更全面地解釋基因表達(dá)的復(fù)雜性,。而且,RNA-seq可用于任何物種未注釋的基因和亞型,,而微陣列依賴于先驗(yàn)信息只能定量已知基因,。RNA-seq的這些優(yōu)點(diǎn)使得它對(duì)于注釋新測(cè)序的基因組和檢測(cè)基因注釋不完整的物種的新基因和亞型來(lái)說(shuō),十分有用,。

到目前為止,,已有很多基于RNA-seq數(shù)據(jù)的軟件可用于基因表達(dá)分析。一些為定量已知基因或亞型而設(shè)計(jì),,另一些無(wú)需預(yù)先的基因結(jié)構(gòu)注釋信息,。Cufflinks將比對(duì)結(jié)果組裝成一個(gè)較差質(zhì)量的轉(zhuǎn)錄本集合然后基于映射上的reads數(shù)目來(lái)估計(jì)這些轉(zhuǎn)錄本的相對(duì)豐度。Cufflinks可根據(jù)reads映射到參考基因組的結(jié)果來(lái)預(yù)測(cè)新基因和亞型,。Scripture能夠從頭重構(gòu)轉(zhuǎn)錄組并定量轉(zhuǎn)錄本表達(dá),。MISO(Mixture of Isoforms)是一個(gè)概率論框架,用推斷的reads到亞型的分配來(lái)估計(jì)這些亞型的豐度,。ALEXA-Seq是關(guān)于可變表達(dá)分析的方法,,也可定量亞型的表達(dá)。除了這些算法外,,還有其他一些軟件可用于基因表達(dá)分析,。用戶可根據(jù)需要和研究目標(biāo)來(lái)選擇對(duì)應(yīng)的軟件執(zhí)行其分析任務(wù)。

基因或亞型的表達(dá)定量精確性很大程度上取決于RNA-seq reads的映射結(jié)果,。參考基因組序列通常有很多重復(fù)性和同源性序列,,而這些序列會(huì)引起部分reads映射的模糊性。而且,,把這些reads跨過(guò)剪接位點(diǎn)分配到正確的參考基因組位置上是困難的,。考慮到這些方面,,精確定量基因或亞型表達(dá)的最好方法是直接映射reads到轉(zhuǎn)錄組序列上,。但是轉(zhuǎn)錄組是復(fù)雜的,難以為一個(gè)物種構(gòu)建一個(gè)絕對(duì)的完整的轉(zhuǎn)錄本數(shù)據(jù)庫(kù),,即使對(duì)很好研究過(guò)的物種如任何小鼠也是如此,。不過(guò),如果我們只想研究已知轉(zhuǎn)錄本的表達(dá)譜,,直接映射轉(zhuǎn)錄reads到這些已知的轉(zhuǎn)錄本上來(lái)定量其表達(dá)水平是最好的選擇,。”

第四點(diǎn)就到了差異表達(dá)分析

“在不同條件下,,真核基因會(huì)表達(dá)出大量不同水平不同種類的亞型來(lái)滿足機(jī)體需求,。如果我們想評(píng)估兩個(gè)不同狀態(tài)或樣本之間基因或亞型的表達(dá)變化,我們可以進(jìn)行差異表達(dá)分析來(lái)檢測(cè)差異表達(dá)基因或亞型,。RNA-seq的成本在迅速減少,,其相對(duì)于微陣列的優(yōu)勢(shì)使得它在基因和亞型表達(dá)研究中愈發(fā)流行,。此外,RNA-seq可用于檢測(cè)差異表達(dá)基因和亞型,,而微陣列只能檢測(cè)差異表達(dá)基因,。因?yàn)槎嗤怙@子基因可編碼不同功能的亞型,所以在為研究選擇恰當(dāng)?shù)募夹g(shù)時(shí)這是一個(gè)重要的考慮因素,。盡管測(cè)序多個(gè)樣品相對(duì)于微陣列仍然相對(duì)較貴,,但無(wú)容置疑的是RNA-seq終將取代微陣列。

對(duì)于RNA-seq來(lái)說(shuō),,基因或轉(zhuǎn)錄本的表達(dá)水平與映射上的reads數(shù)有關(guān),,而對(duì)于微陣列,這反映為雜交過(guò)程后獲得的熒光水平,。如果兩個(gè)不同實(shí)驗(yàn)條件下觀測(cè)到的一個(gè)基因或轉(zhuǎn)錄本的read數(shù)差異或變化是統(tǒng)計(jì)顯著的,,則這個(gè)基因或轉(zhuǎn)錄本可認(rèn)為是RNA-seq數(shù)據(jù)中差異表達(dá)的。但是在進(jìn)行差異表達(dá)分析時(shí),,應(yīng)該考慮到RNA-seq的一些偏倚,,如測(cè)序深度、樣本間計(jì)數(shù)分布和基因或轉(zhuǎn)錄本長(zhǎng)度,。通常,,測(cè)序深度越高,計(jì)數(shù)越高,。同時(shí),,樣本間計(jì)數(shù)分布也會(huì)有差異。而且,,相應(yīng)轉(zhuǎn)錄本的read計(jì)數(shù)與轉(zhuǎn)錄本長(zhǎng)度和對(duì)應(yīng)RNA表達(dá)水平的乘積成比例,。在斷定真正的差異表達(dá)基因或亞型時(shí)應(yīng)該考慮到這些RNA-seq偏倚。

越來(lái)越多的策略被設(shè)計(jì)出來(lái),,以使用RNA-seq數(shù)據(jù)從所研究的不同條件下基因或轉(zhuǎn)錄本集合檢測(cè)差異表達(dá)標(biāo)簽。這些方法可根據(jù)是否使用參數(shù)模型而分成兩類,。參數(shù)方法基于已知概率分布如二項(xiàng),、Poisson、負(fù)二項(xiàng),。相反,,非參數(shù)方法沒(méi)有關(guān)于數(shù)據(jù)分布的假設(shè)。最近,,Tarazona等提出了一個(gè)有力的非參數(shù)方法NOIseq,,對(duì)真實(shí)數(shù)據(jù)的噪音分布進(jìn)行建模,能在測(cè)序深度變化時(shí)表現(xiàn)穩(wěn)健,。這些測(cè)試結(jié)果表明,,它比大多數(shù)現(xiàn)有參數(shù)方法(baySeq,、DESeq、edgeR)在針對(duì)測(cè)序深度改變時(shí)更靈活,。DESeq,、edgeR和baySeq使用負(fù)二項(xiàng)分布,而Taranona等說(shuō)明了這些方法高度依賴于測(cè)序深度而NOIseq則不,?!?/p>

第五部分才輪到轉(zhuǎn)錄組重構(gòu)

“轉(zhuǎn)錄組是一個(gè)或一群細(xì)胞產(chǎn)生的總RNAs,包括各種編碼或非編碼RNAs,。為獲得一個(gè)有機(jī)體的全轉(zhuǎn)錄組,,RNA-seq是一個(gè)明智而實(shí)用的選擇。目前,,主要有兩類重構(gòu)轉(zhuǎn)錄組的策略,。首先是基因組引導(dǎo)的方法,先映射所有轉(zhuǎn)錄組測(cè)序reads到參考基因組上,,然后根據(jù)reads映射信息把比對(duì)上的reads組裝成轉(zhuǎn)錄本或片段,。Cufflinks和Scripture這樣的程序就是這種策略。它們都用拼接的reads直接來(lái)重構(gòu)轉(zhuǎn)錄組并有著相似的計(jì)算要求,。盡管它們?cè)诮M裝構(gòu)圖的概念上類似,,但是把圖處理成轉(zhuǎn)錄本時(shí)有所不同。Cufflinks的過(guò)程基于最大精度而Scripture基于最大敏感性,?;蚪M引導(dǎo)的方法需要相對(duì)完整和高質(zhì)量的參考基因組,對(duì)于所研究物種來(lái)說(shuō)是已經(jīng)建立和可用的,。另一種重構(gòu)轉(zhuǎn)錄組的方法是獨(dú)立于基因組的方法,,無(wú)需參考基因組,直接組裝reads成轉(zhuǎn)錄本,。像Velvet,,Trans-ABySS,Trinity和Oases(未發(fā)表)都是基于這種獨(dú)立于基因組的方法,。有意思的是Velvet可用于從頭組裝基因組和轉(zhuǎn)錄組,。從頭組裝軟件主要使用de Bruijn graphs對(duì)來(lái)自reads的k-mers進(jìn)行建模。然后應(yīng)用一系列算法解析de Bruijn圖并最終組裝reads為contigs或scaffolds,。

總的來(lái)說(shuō),,基因組引導(dǎo)的方法更適合于具有高質(zhì)量組裝的可用參考基因組的物種,而獨(dú)立于基因組的方法可用于任何物種,,不論其有無(wú)可用的參考序列,。如果一個(gè)基因表達(dá)了、其轉(zhuǎn)錄本被測(cè)序了,來(lái)自該基因的reads應(yīng)該比對(duì)到基因所處的對(duì)應(yīng)位置,。該表達(dá)基因會(huì)被基因組引導(dǎo)的方法檢測(cè)到,,無(wú)論該基因在何種水平表達(dá)。然而,,基因組序列(尤其是哺乳動(dòng)物基因組)通常包含很多重復(fù)性和桐原序列,,同一基因編碼的亞型序列非常相似。這些因素會(huì)導(dǎo)致基因組引導(dǎo)的方法在reads映射階段的模糊性,,也會(huì)導(dǎo)致那些獨(dú)立于基因組的策略的組裝失敗,。此外,獨(dú)立于基因組的方法會(huì)因?yàn)樗惴ǖ南拗?,主要地重?gòu)那些中等或高表達(dá)的轉(zhuǎn)錄本,,而難以獲得低表達(dá)的轉(zhuǎn)錄本,除非測(cè)序深度很大,。

采用哪種策略很大程度上依賴于研究目標(biāo),、可用性,物種參考基因組的質(zhì)量和完整性,。如果一個(gè)物種有一個(gè)高質(zhì)量相對(duì)完整的參考基因組,,則基因組引導(dǎo)的方法是基因表達(dá)分析的最佳選擇。然而,,對(duì)于那些無(wú)可用參考基因組的物種(這仍是已知植物中的主體)來(lái)說(shuō),,獨(dú)立于基因組的方法是更合理的選擇。值得注意的是重復(fù)性序列,、測(cè)序技術(shù)和組裝算法的局限是所有獨(dú)立于基因組的方法在組裝基因組時(shí)的主要挑戰(zhàn),。而且,即使對(duì)于很好研究過(guò)的模式物種,,其參考基因組也仍可能不完整并包含空隙和誤組裝區(qū)域,。在我們先前研究中展示了相當(dāng)數(shù)量的人類基因在參考基因組上缺失,而在人腦組織和10和混合細(xì)胞系里表達(dá),。因此,,要構(gòu)建一個(gè)完整的轉(zhuǎn)錄組,從頭組裝策略對(duì)于捕獲那些不能從基因組引導(dǎo)的方法中得到的轉(zhuǎn)錄本來(lái)說(shuō)是至關(guān)重要的,,這是由于參考基因組序列不完整或誤組裝,。因此,組合著兩類方法能讓我們構(gòu)建任何物種更全面的轉(zhuǎn)錄組,?!?/p>

 

最后作者對(duì)全文進(jìn)行了總結(jié)性陳述:

“RNA-seq有各種各樣的應(yīng)用,,每種應(yīng)用中都有大量軟件可選擇,。但是軟件也可能有某些參數(shù)需要根據(jù)數(shù)據(jù)性質(zhì)(SE、PE,,stranded or not etc.)和要分析的物種的特性進(jìn)行優(yōu)化,。選擇合適的軟件進(jìn)行相關(guān)研究和選擇軟件的最優(yōu)參數(shù)都很重要,,而且它們都直接影響結(jié)果。合適的軟件和良好的參數(shù)設(shè)置能幫助我們得到更好的結(jié)果和達(dá)成研究目標(biāo),。而且,,相同應(yīng)用的不同軟件所用算法也會(huì)有設(shè)計(jì)上的各種不同,在同一數(shù)據(jù)集上有不同的優(yōu)點(diǎn),。因此,,難說(shuō)哪個(gè)軟件最好或最適合,因?yàn)椴煌浖胁煌拈L(zhǎng)處,,而不同的數(shù)據(jù)及有不同的特征,。因此,在做最后決定之前,,需要測(cè)試軟件和不同的參數(shù)來(lái)找出產(chǎn)生最佳結(jié)果的有效方式,。初次測(cè)試能幫我們找到更好更有效的策略并顯著改進(jìn)分析結(jié)果。

測(cè)序技術(shù)和生物信息學(xué)算法會(huì)從不同方面影響分析結(jié)果,。盡管測(cè)序技術(shù)還在快速發(fā)展,,各種應(yīng)用算法也在快速改進(jìn)以滿足研究需求,但是它們?nèi)杂芯窒扌院腿秉c(diǎn),。在測(cè)序過(guò)程中,,樣本制備階段會(huì)引入污染,文庫(kù)構(gòu)建階段會(huì)丟失源而不能捕獲所有目標(biāo),。這些不確定性會(huì)增加數(shù)據(jù)噪音,、導(dǎo)致不完整的信息。此外,,測(cè)序技術(shù)也有偏倚,,生物信息算法也有自身的局限性,這都會(huì)引起分析數(shù)據(jù)的困難并導(dǎo)致不好的結(jié)果,。毋庸置疑的是,,測(cè)序技術(shù)和相應(yīng)分析算法的改進(jìn)會(huì)大大有助于數(shù)據(jù)解釋和促進(jìn)我們隊(duì)各種物種的轉(zhuǎn)錄組的認(rèn)知。

未來(lái),,測(cè)序成本會(huì)持續(xù)下降,,而更有力的算法也會(huì)不斷開(kāi)發(fā)出來(lái),這會(huì)使研究者能研究不同有機(jī)體的各種轉(zhuǎn)錄本更容易和更全面,。而且,,這些變化也會(huì)提供給我們很多機(jī)遇來(lái)研究ncRNAs的功能,這在過(guò)去被視為轉(zhuǎn)錄噪音,,而事實(shí)上可能具有未知功能,。隨著不同轉(zhuǎn)錄組研究的繼續(xù),這些因情況而異的研究結(jié)果將豐富我們的知識(shí)甚至改變我們先前關(guān)于轉(zhuǎn)錄組的觀點(diǎn)。這些新發(fā)現(xiàn)當(dāng)然會(huì)促進(jìn)各種相關(guān)研究并增進(jìn)我們對(duì)生命的理解,?!?/p>

 

中國(guó)人寫的文章,相當(dāng)細(xì)致,。貌似有點(diǎn)中國(guó)式英文,,比較好懂~哈哈!

 

 

 

 

 

 

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多