Barcode 條形碼,因?yàn)樵跍y(cè)序過程中往往是多個(gè)樣本一起測(cè)序,,所以Barcode的作用就是區(qū)分測(cè)序產(chǎn)生序列到底是來源于哪一個(gè)個(gè)體,;另外,10X Genomics在測(cè)序過程中也用到了Barcode,,其作用是區(qū)分測(cè)序產(chǎn)生的序列是否來源于同一個(gè)大片段,,更加有利于組裝成更高質(zhì)量的基因組。 細(xì)菌人工染色體(Bacterial artificial chromosome),,可以構(gòu)建超長片段的DNA序列,,在基因組組裝過程中有助于組裝更高質(zhì)量的基因組,也可用于基因組的組裝質(zhì)量評(píng)估,。 拼接軟件基于reads之間的重疊(overlap)區(qū),,拼接獲得的沒有g(shù)ap的序列稱為Contig(重疊群)。與之對(duì)應(yīng)的一個(gè)概念是Scaffold:是指將獲得的Contig根據(jù)大片段文庫的Pair-end關(guān)系,,將Contig進(jìn)一步組裝成更長的序列,。
衡量Contig的一個(gè)指標(biāo)。即將所有的Contig長度相加,,獲得一個(gè)Contig總長度,,然后將所有的Contigs按照從長到短進(jìn)行排序,將Contig按照這個(gè)順序依次相加,,當(dāng)相加的長度達(dá)到Contig為總長度的一半時(shí),,最后一個(gè)加上的Contig長度即為ContigN50。
概念與N50的類似,,即當(dāng)相加的長度達(dá)到Contig總長度的90%時(shí),,最后一個(gè)加上的Contig長度即為Contig N90,。N50或者N90是衡量基因組質(zhì)量的一個(gè)重要指標(biāo)。
衡量Scaffold的一個(gè)指標(biāo)。即將所有的Scaffold長度相加,,獲得一個(gè)Scaffold總長度,,然后將所有的Scaffold按照從長到短進(jìn)行排序,,將Scaffold按照這個(gè)順序依次相加,,當(dāng)相加的長度達(dá)到Scaffold總長度的一半時(shí),最后一個(gè)加上的Scaffold長度即為Scaffold N50,。ScaffoldN90的概念與N50的類似,,即當(dāng)相加的長度達(dá)到Scaffold總長度的90%時(shí),最后一個(gè)加上的Scaffold長度即為Scaffold N90,。N50或者N90是衡量基因組質(zhì)量的一個(gè)重要指標(biāo),。
測(cè)序深度,,經(jīng)過測(cè)序后一段序列每個(gè)堿基平均被覆蓋的次數(shù)稱為測(cè)序覆蓋深度(Sequencing Coverage Depth);比如,,假設(shè)一個(gè)基因組大小為100M,,測(cè)序深度為10X,那么獲得的總數(shù)據(jù)量為1G,。這個(gè)概念注意與測(cè)序的覆蓋度區(qū)分,,是指測(cè)序獲得的序列占整個(gè)基因組的比例,也可理解為對(duì)目的基因組的覆蓋程度,,比如一個(gè)基因組有些區(qū)域難以測(cè)得,,基因組的覆蓋度往往不能達(dá)到100%覆蓋。
基因組的從頭組裝,,指不依賴任何參考基因組,,依靠測(cè)序序列進(jìn)行從頭組裝。
一種克隆基因組片段的細(xì)菌載體,,插入片段在40kb左右,。
指的是將一條read連續(xù)切割,挨個(gè)堿基滑動(dòng)得到的一序列長度為K的核苷酸序列,,這個(gè)概念在許多組裝算法中會(huì)用到,。
將一段DNA序列中的ATGC(通常是重復(fù)序列或者低質(zhì)量序列)轉(zhuǎn)換成無信息的字母N或者小寫的atgc,通常在基因組注釋的過程中會(huì)用到這一概念,。
旨在生成一些短的DNA片段,,這些片段包含基因組中較大跨度(2-10kb)片段兩端的序列,更具體地說:首先將基因組DNA隨機(jī)打斷到特定大?。?/span>2-10kb范圍可選),;然后經(jīng)末端修復(fù),生物素標(biāo)記和環(huán)化等實(shí)驗(yàn)步驟后,,再把環(huán)化后的DNA分子打斷成400-600 bp的片段并通過帶有鏈親和霉素的磁珠把那些帶有生物素標(biāo)記的片段捕獲,。這些捕獲的片段再經(jīng)末端修飾和加上特定接頭后建成mate-pair文庫,然后上機(jī)測(cè)序,。
短的DNA片段(長度通常僅有幾百bp)兩端的序列信息,。
即我們通常說的讀長的意思,,它是指高通量測(cè)序平臺(tái)直接產(chǎn)生的DNA序列,。
是指插入片段大于1Kb的文庫,大片段文庫主要是用于將Contig進(jìn)一步組裝成Scaffold,。文庫類型通常有2Kb,、5Kb、10Kb,、15Kb以及20Kb等,,建庫和測(cè)序使用Mate-pair sequencing的方法,。
是指插入片段小于1Kb的文庫,小片段文庫產(chǎn)生的Reads主要用于拼接成Contig,。例如在de novo測(cè)序中,,我們通常要不同梯度下片段如250bp、350bp,、500bp等,,建庫和測(cè)序使用Paired-end sequencing的方法。
今天先給大家介紹到這里,,下次再為大家介紹基因組測(cè)序更詳細(xì)的內(nèi)容,。
Ekblom R, Wolf JBW. A field guide to whole-genome sequencing, assembly and annotation[J]. Evolutionary Applications, 2014, 7(9): 1026-1042. |
|