高通量測(cè)序的技術(shù)開(kāi)起我們探索動(dòng)植物基因組奧秘的步伐,提到動(dòng)植物基因組測(cè)序,,這就不得不提一個(gè)概念——de novo測(cè)序,。 那么什么是de nove測(cè)序呢,它與重測(cè)序有什么區(qū)別呢,?De nove測(cè)序中Read,、Contig和Scaffold等又代表什么呢?De nove測(cè)序中為什么要建不同大小片段的梯度文庫(kù),?基因注釋又是注釋哪些內(nèi)容,?各位客官別急,且聽(tīng)小編給您細(xì)細(xì)講來(lái),。 De novo是一個(gè)拉丁文,代表從頭開(kāi)始的意思,,而de nove測(cè)序則是指在不需要任何參考序列的情況下對(duì)某一物種進(jìn)行基因組測(cè)序,,然后將測(cè)得的序列進(jìn)行拼接、組裝,,從而繪制該物種的全基因組序列圖譜,。 由于高通量測(cè)序長(zhǎng)度的限制,目前測(cè)序策略是先將基因組打斷小的片段,,然后再對(duì)測(cè)出序列片段進(jìn)行拼接,,最終得到物種的序列圖譜如圖1所示。 圖1 高通量測(cè)序模式圖 重測(cè)序概念:重測(cè)序是全基因組重新測(cè)序的簡(jiǎn)稱,,是指是對(duì)已知基因組序列的物種進(jìn)行不同個(gè)體的基因組測(cè)序,,并在此基礎(chǔ)上對(duì)個(gè)體或群體進(jìn)行差異性分析。
值得注意的是,隨著測(cè)序成本的降低以及組裝算法的改進(jìn),de nove測(cè)序成本越來(lái)越低,,目前來(lái)說(shuō)de nove測(cè)序不只對(duì)于沒(méi)有參考基因組物種進(jìn)行測(cè)序,,還可以對(duì)一些特有的亞種,、品種以及變種等進(jìn)行測(cè)序。 Reads:即我們通常說(shuō)的讀長(zhǎng)的意思,,它是指高通量測(cè)序平臺(tái)直接產(chǎn)生的DNA序列,。 Contig:是指Reads基于Overlap關(guān)系,拼接獲得的長(zhǎng)的序列,; Scaffold:是指將獲得的Contig根據(jù)大片段文庫(kù)的Pair-end關(guān)系,,將Contig進(jìn)一步組裝成更長(zhǎng)的序列; 關(guān)于三者之間的關(guān)系如圖2所示,,注意的是Contig是無(wú)Gap的連續(xù)的DNA序列,,而Scaffold是存在Gap的DNA序列。 圖2 Reads Contigs以及Scaffolds之間關(guān)系 大片段文庫(kù)是指插入片段大于1Kb的文庫(kù),,大片段文庫(kù)主要是用于將Contig進(jìn)一步組裝成Scaffold。文庫(kù)類型通常有2Kb,、5Kb,、10Kb、15Kb以及20Kb等,。建庫(kù)測(cè)序過(guò)程如圖4所示,。 小片段文庫(kù)是指插入片段小于1Kb的文庫(kù),小片段文庫(kù)產(chǎn)生的Reads主要用于拼接成Contig,。例如在de nove測(cè)序中,,我們通常要不同梯度下片段如250bp、350bp,、500bp等,;建庫(kù)測(cè)序流程如圖3所示。 值得注意的是除了de nove測(cè)序需要建大片段文庫(kù)外,,其他測(cè)序如重測(cè)序只需建一個(gè)小片段文庫(kù)(250bp),,而構(gòu)建大片段文庫(kù)過(guò)程繁瑣,價(jià)格較高,。這是de novo測(cè)序比重測(cè)序價(jià)格貴的原因之一,。 圖3 小片段建庫(kù)流程 圖4 大片段文庫(kù)建庫(kù)流程 對(duì)于測(cè)得的序列,例如通過(guò)Hiseq X ten平臺(tái)進(jìn)行測(cè)序,,我們直接獲得是長(zhǎng)度是許多的150bp Reads,;de nove測(cè)序最重要的目的就是對(duì)這些短的Reads進(jìn)行組裝、拼接,,最終繪制出這個(gè)物種的基因組圖譜,。而重測(cè)序則不需要對(duì)Reads進(jìn)行組裝,而是直接將獲得短的Reads序列與參考基因組進(jìn)行比對(duì),,從而找出相應(yīng)的變異位點(diǎn),。這是de novo測(cè)序比重測(cè)序價(jià)格貴的原因之二,。而且組裝周期通常需要很長(zhǎng)時(shí)間,簡(jiǎn)單基因組需要幾個(gè)月左右的時(shí)間,,復(fù)雜基因組需要的時(shí)間則會(huì)更長(zhǎng),。 對(duì)于利用高通量技術(shù)對(duì)物種基因組進(jìn)行測(cè)序,不少人可能認(rèn)為可以得到每條染色體的序列,,這其實(shí)是錯(cuò)誤的,,很多物種得到的序列都是一些長(zhǎng)長(zhǎng)短短的Scaffolds以及一些未組裝的Reads。如果要組裝到染色體水平則需要借助遺傳圖譜的輔助,。對(duì)于一些高重復(fù)高雜合的區(qū)域,,由于目前組裝算法以及測(cè)序技術(shù)的限制,這些區(qū)域往往組裝的效果不是特別理想,。 對(duì)于組裝得到基因組,,如何評(píng)估基因組組裝的好壞呢,我們通常會(huì)聽(tīng)到用ContigN50和ScaffoldN50來(lái)評(píng)估基因組組裝的質(zhì)量,,那么什么是ContigN50和ScaffoldN50呢,? 所謂ContigN50是指將拼接得到的Contig從長(zhǎng)到短進(jìn)行排列,排列成一條線,。當(dāng)長(zhǎng)度達(dá)到總長(zhǎng)度一半的時(shí)候,,此時(shí)該條Contig的長(zhǎng)度即為ContigN50;如圖5所示,,Contig 2的長(zhǎng)度即是ContigN50,。同理,ScaffoldN50是將組裝得到的Scaffold從長(zhǎng)到短進(jìn)行排列,,當(dāng)長(zhǎng)度達(dá)到總長(zhǎng)度一半的時(shí)候,此時(shí)該條Scaffold的長(zhǎng)度即ScaffoldN50,;一般來(lái)說(shuō)ContiN50和ScaffoldN50的長(zhǎng)度越長(zhǎng),,基因組組裝的質(zhì)量也就越好。但是ContigN50和ScaffoldN50也不是唯一評(píng)估標(biāo)準(zhǔn),,還要看基因組的拼接的完整性等,。 除用ContigN50和ScaffoldN50對(duì)基因組進(jìn)行評(píng)估外,諾禾致源還會(huì)對(duì)基因組進(jìn)行序列一致性評(píng)估,、序列完整性評(píng)估,、準(zhǔn)確性評(píng)估、Cegma保守性評(píng)估等,。 圖5 Contig N50 對(duì)于組裝得到的序列其實(shí)是一系列的ATCG的排列組合,,那如何解讀序列中的信息呢? 我們要做的是對(duì)基因組進(jìn)行注釋,,注釋主要是對(duì)基因組中的重復(fù)序列注釋,、非編碼RNA的注釋,、基因結(jié)構(gòu)的注釋以及基因功能的注釋,注釋的方法有同源注釋以及de nove預(yù)測(cè)等,。重復(fù)序列的注釋主要是串聯(lián)重復(fù)序列注釋(衛(wèi)星DNA,、小衛(wèi)星DNA以及微衛(wèi)星DNA等)和散列重復(fù)序列(LTR、LINE,、SINE以及轉(zhuǎn)座子序列等),。非編碼RNA的注釋主要是對(duì)MicroRNA、rRNA以及tRNA等注釋,;基因注釋主要是對(duì)基因的啟動(dòng)子,、外顯子、內(nèi)含子等注釋,。 本期全基因組測(cè)序先給大家講到此,,如有疑問(wèn)歡迎大家踴躍留言哈! |
|
來(lái)自: 坐山觀海在路上 > 《專業(yè)相關(guān)》