久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

高通量測(cè)序,,測(cè)幾個(gè)G,?為啥?

 kibcat 2023-11-13 發(fā)布于美國
《測(cè)序數(shù)據(jù)量》
測(cè)序數(shù)據(jù)量也被稱為下機(jī)數(shù)據(jù)量,通常測(cè)序數(shù)據(jù)量的單位都是用“G'表示,,例如1G,。(多嘴:這里所說的G[堿基數(shù)Gbase,Gb]和文件在硬盤上的大小G[gigabyte,,GB]不是一回事)
1G=10^3 M,,1M=10^3 kb,1kb=10^3 byte(1個(gè)堿基=1 byte)
所以,,1G的數(shù)據(jù)量=10^9=10億個(gè)堿基,。
ImageM:用于描述reads數(shù),,G:用于描述本次測(cè)序獲得的堿基總數(shù),。
測(cè)序公司給你的文件通常是壓縮的fastq格式,里面有read ID號(hào),,有堿基,,有每個(gè)堿基的質(zhì)量。
上述提到的Reads指的是高通量測(cè)序儀一次測(cè)序所獲得的堿基序列,,由一連串堿基ATCGATCG等構(gòu)成,,它并不是基因組的組成部分。不同的測(cè)序儀器,,reads長(zhǎng)度也有所不同,。
那么
為什么不同的測(cè)序儀器,reads長(zhǎng)度也有所不同,?
因?yàn)槎鷾y(cè)序的讀長(zhǎng)能力是有限的,。二代測(cè)序基本上都是基于DNA聚合酶的延伸將帶有熒光基團(tuán)的dNTP加到模板上,通過一個(gè)個(gè)的互補(bǔ)配對(duì)將序列依次讀取出來,。Illumina和華大測(cè)序儀都是相同原理,。
在延伸了一段時(shí)間后,聚合酶的活力就會(huì)大大降低,,錯(cuò)誤率也會(huì)越來越高,。當(dāng)錯(cuò)誤率高到不可容忍的時(shí)候,就必須停止測(cè)序反應(yīng),。所以就有了陸續(xù)推出的單端SE50,、SE100、SE150,、SE250以及雙端的PE50,、PE100、PE150,、PE300,,也就意味著,測(cè)序儀可以控制讀取長(zhǎng)度的,儀器會(huì)順著DNA一個(gè)堿基一個(gè)堿基的讀取,,在機(jī)器開始測(cè)序前,,可以設(shè)置讀取的循環(huán)數(shù),例如100Cycle.那么NGS測(cè)序儀就會(huì)讀取100個(gè)堿基,,即SE100,。    
但是目前來講,由于自身方法的局限性(包括酶的失活,,阻斷基團(tuán)切割的效率等等都會(huì)導(dǎo)致測(cè)序質(zhì)量隨著測(cè)序長(zhǎng)度不可逆地降低)仍然難以突破,。這也就是二代達(dá)不到一代測(cè)序的長(zhǎng)度,更不可能到三代的長(zhǎng)度,。
所以
文庫的構(gòu)建,,插入長(zhǎng)度(insert length, ins_length)要限制在一定范圍內(nèi)(300~500bp),當(dāng)然這時(shí)候片段長(zhǎng)度仍具有隨機(jī)性,,也不能100%保證,。
以PE150來說:
1、對(duì)于長(zhǎng)于300bp的序列,,無法測(cè)通,,會(huì)給出序列兩端長(zhǎng)150bp的reads,中間沒有overlap,;
2,、對(duì)于150-300bp的序列,可以測(cè)通,,會(huì)給出序列兩端長(zhǎng)150bp的reads,,中間有overlap;
3,、對(duì)于短于150bp的序列,,它會(huì)測(cè)到頭沒了,這時(shí)候再拍照這個(gè)地方是黑的,,怎么辦,?測(cè)序儀會(huì)記錄為N或者連續(xù)的A/G,所以一些reads的末尾全是N(也即無法確定有效堿基),。這時(shí)候仍會(huì)給出兩個(gè)長(zhǎng)度150bp的reads,,雙末端的reads去掉末尾N是反向互補(bǔ)的。
測(cè)序數(shù)據(jù)量是怎么來的
在基因組層面上,,測(cè)序主要可以分為三大類:全基因組測(cè)序(whole-genome sequencing,,WGS)、全外顯子組測(cè)序(whole-exome sequencing,,WES),、靶向測(cè)序(targeted sequencing或panelsequencing),。    
Image
各檢測(cè)方案示意圖(Klein CJ.et.al. Mayo Clin Proc.2017)
首先明確三個(gè)概念
Image
其一測(cè)序深度(Sequencing depth)
指測(cè)序得到的堿基總量(bp)與目標(biāo)基因組大小的比值,即測(cè)序深度=數(shù)據(jù)量大小 / 目標(biāo)基因組大小,。
或者理解為目標(biāo)基因組區(qū)間內(nèi)中每個(gè)堿基被測(cè)序到的平均次數(shù),,如測(cè)序數(shù)據(jù)量為1G,測(cè)序的基因組大小為1M,,那么測(cè)序深度為1G/1M=1000×,。
其二測(cè)序覆蓋度(Sequencing coverage)    
指測(cè)序獲得的序列占整個(gè)基因組的比例?;蛘呖梢岳斫鉃槟繕?biāo)基因組上至少被檢測(cè)到1次的區(qū)域(或者是堿基),,占整個(gè)基因組的比例。         
    由于基因組中的高GC,、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在,,測(cè)序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域,這部分沒有獲得的區(qū)域就稱為Gap,。例如一個(gè)細(xì)菌基因組測(cè)序,,覆蓋度是98%,,那么還有2%的序列區(qū)域是沒有通過測(cè)序獲得的,。         
    測(cè)序深度與基因組覆蓋度之間是一個(gè)正相關(guān)的關(guān)系,測(cè)序帶來的錯(cuò)誤率或假陽性結(jié)果會(huì)隨著測(cè)序深度的提升而下降,。
其三捕獲效率(Capture efficiency)
指的是比對(duì)到參考基因組中目標(biāo)區(qū)域的數(shù)據(jù)量占比對(duì)到參考基因組上總數(shù)據(jù)量的比例,。捕獲效率越高,說明有效數(shù)據(jù)比例高,。
比如一個(gè)Panel大小為3M,,測(cè)序共產(chǎn)出3G數(shù)據(jù)。對(duì)于Panel大小大于1M的文庫來說,,捕獲效率往往在60%左右,,也即測(cè)序得到的數(shù)據(jù)有60%是所需的數(shù)據(jù),則在目標(biāo)區(qū)域的數(shù)據(jù)為3G*60%=1.8G,。粗略計(jì)算測(cè)序深度=1.8G/3M=600乘(X),。所以,對(duì)于對(duì)于這個(gè)Panel大小為3M,,數(shù)據(jù)產(chǎn)出為3G的文庫來說,,測(cè)序深度大概為600乘。這個(gè)測(cè)序深度指的是原始平均測(cè)序深度,。
Image
確定了測(cè)序深度,,測(cè)序數(shù)據(jù)量就很好計(jì)算了。數(shù)據(jù)量大小=測(cè)序深度*基因組大小,。    
一般來說,,若是針對(duì)人的WGS,常規(guī)測(cè)序數(shù)據(jù)量是90G,測(cè)序深度30x,;WES的話,,則是10G,測(cè)序深度100x,;靶向測(cè)序的話,,視panel大小、測(cè)序深度等而定,。那么,,問題來了:為什么是90G或10G?測(cè)序深度又為什么是30x或100x,?......
人體基因組的大小約為30億個(gè)堿基對(duì),,即3000Mbp。通過單位換算,,就是3G,。
人體全外顯子組大約30M,約占全基因組的1%,。
Image
人體約有39000多個(gè)基因,,平均的基因大小有27kbp。
問題1:人WGS的測(cè)序數(shù)據(jù)量為什么是90G,,測(cè)序深度30x,?
回答:WGS的目的是準(zhǔn)確檢測(cè)個(gè)體間的變異情況,尋找變異與疾病及表型之間的關(guān)系,。因此,,變異的精確度和靈敏性成了檢測(cè)變異的兩個(gè)重要的指標(biāo)。由于測(cè)序存在著不可避免的系統(tǒng)錯(cuò)誤,,每一個(gè)位點(diǎn)只有在足夠的reads支持下才能確保正確性,。
在SNP calling(識(shí)別)中,檢測(cè)出一個(gè)SNP位點(diǎn)最起碼需要4條reads,。4X以上的平均測(cè)序深度是數(shù)據(jù)量是否足夠的一項(xiàng)重要指標(biāo),。在30X的時(shí)候,大于4X的比例達(dá)99.21%,,并趨于飽和,,與覆蓋度接近。
基于此,,若要進(jìn)行人的WGS,,測(cè)序數(shù)據(jù)量就是30x*3G=90G。
              
問題2:人WES的測(cè)序數(shù)據(jù)量為什么是10G,,測(cè)序深度100x,?
對(duì)于WES而言,,在建庫過程中需要通過雜交捕獲步驟得到外顯子序列。常用的外顯子組探針如Aglient V6,,捕獲效率介于60%~70%之間,,探針大小為60M。為了保證大部分的區(qū)域有足夠的覆蓋倍數(shù),,需提高測(cè)序深度,。研究顯示,WES想要獲得與WGS相同的覆蓋范圍,,覆蓋89.6-96.8%的目標(biāo)堿基,,需要測(cè)到80x。一般建議測(cè)序深度達(dá)到100x,。所以WES測(cè)序數(shù)據(jù)量=100x*60M/60%=10G,。
總的來說
Image
其中,panel測(cè)序有兩種技術(shù)原理:雜交捕獲測(cè)序和多重?cái)U(kuò)增子測(cè)序,。全外是基于序列雜交原理實(shí)現(xiàn)的,。
          
參考
二代測(cè)序的讀長(zhǎng)為什么是固定的?- 知乎 (zhihu.com)    
Klein CJ, Foroud TM. Neurology Individualized Medicine: When to Use Next-Generation Sequencing Panels. Mayo Clin Proc. 2017 Feb;92(2):292-305. doi: 10.1016/j.mayocp.2016.09.008. PMID: 28160876.
生信路漫漫 | 測(cè)序數(shù)據(jù)量是怎么來的,?- 知乎 (zhihu.com)
全外測(cè)序(WES) - 知乎 (zhihu.com)    

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多