第二代測序技術(shù)
--以Illumina/Solexa Genome Analyzer 為例
1.概述
DNA測序(DNA sequencing)作為一種重要的實驗技術(shù),,在生物學(xué)研究中有著廣泛的應(yīng)用。早在DNA雙螺旋結(jié)構(gòu)(Watson and Crick,1953)被發(fā)現(xiàn)后不久就有人報道過DNA測序技術(shù),但是當時的操作流程復(fù)雜,,沒能形成規(guī)模。隨后在1977年Sanger發(fā)明了具有里程碑意義的末端終止測序法,,同年A.M.Maxam和W.Gilbert發(fā)明了化學(xué)降解法,。Sanger法因為既簡便又快速,并經(jīng)過后續(xù)的不斷改良,,成為了迄今為止DNA測序的主流,。然而隨著科學(xué)的發(fā)展,傳統(tǒng)的Sanger測序已經(jīng)不能完全滿足研究的需要,,對模式生物進行基因組重測序以及對一些非模式生物的基因組測序,,都需要費用更低、通量更高,、速度更快的測序技術(shù),,第二代測序技術(shù)(Next-generation sequencing)應(yīng)運而生,。第二代測序技術(shù)的核心思想是邊合成邊測序(Sequencing by Synthesis),即通過捕捉新合成的末端的標記來確定DNA的序列,,現(xiàn)有的技術(shù)平臺主要包括Roche/454 FLX,、Illumina/Solexa Genome Analyzer和Applied Biosystems SOLID system。這三個技術(shù)平臺各有優(yōu)點,,454 FLX的測序片段比較長,,高質(zhì)量的讀長(read)能達到400bp;Solexa測序性價比最高,,不僅機器的售價比其他兩種低,,而且運行成本也低,在數(shù)據(jù)量相同的情況下,,成本只有454測序的1/10,;SOLID測序的準確度高,原始堿基數(shù)據(jù)的準確度大于99.94%,,而在15X覆蓋率時的準確度可以達到99.999%,,是目前第二代測序技術(shù)中準確度最高的。雖然第二代測序技術(shù)的工作一般都由專業(yè)的商業(yè)公司來完成,,但是了解測序原理,、操作流程等會對后續(xù)的數(shù)據(jù)分析有很重要的作用,下文將以Illumina/Solexa Genome Analyzer 測序為例,,簡述第二代測序技術(shù)的基本原理,、操作流程等方面。
2.基本原理
Illumina/Solexa Genome Analyzer測序的基本原理是邊合成變測序,。在Sanger等測序方法的基礎(chǔ)上,,通過技術(shù)創(chuàng)新,用不同顏色的熒光標記四種不同的dNTP,,當DNA聚合酶合成互補鏈時,,每添加一種dNTP就會釋放出不同的熒光,根據(jù)捕捉的熒光信號并經(jīng)過特定的計算機軟件處理,,從而獲得待測DNA的序列信息,。
3.操作流程
1)測序文庫的構(gòu)建(Library Construction)
首先準備基因組DNA(雖然測序公司要求樣品量要達到200ng,但是Gnome Analyzer系統(tǒng)所需的樣品量可低至100ng,能應(yīng)用在很多樣品有限的實驗中),,然后將DNA隨機片段化成幾百堿基或更短的小片段,,并在兩頭加上特定的接頭(Adaptor)。如果是轉(zhuǎn)錄組測序,,則文庫的構(gòu)建要相對麻煩些,,RNA片段化之后需反轉(zhuǎn)成cDNA,然后加上接頭,,或者先將RNA反轉(zhuǎn)成cDNA,,然后再片段化并加上接頭,。片段的大?。?span lang=EN-US XML:LANG="EN-US">Insert size)對于后面的數(shù)據(jù)分析有影響,,可根據(jù)需要來選擇。對于基因組測序來說,,通常會選擇幾種不同的insert size,,以便在組裝(Assembly)的時候獲得更多的信息。
2)錨定橋接(Surface Attachment and Bridge Amplification)
Solexa測序的反應(yīng)在叫做flow cell的玻璃管中進行,,flow cell又被細分成8個Lane,,每個Lane的內(nèi)表面有無數(shù)的被固定的單鏈接頭。上述步驟得到的帶接頭的DNA 片段變性成單鏈后與測序通道上的接頭引物結(jié)合形成橋狀結(jié)構(gòu),,以供后續(xù)的預(yù)擴增使用,。
3)預(yù)擴增(Denaturation and Complete Amplification)
添加未標記的dNTP 和普通Taq 酶進行固相橋式PCR 擴增,單鏈橋型待測片段被擴增成為雙鏈橋型片段,。通過變性,,釋放出互補的單鏈,錨定到附近的固相表面,。通過不斷循環(huán),,將會在Flow cell 的固相表面上獲得上百萬條成簇分布的雙鏈待測片段。
4)單堿基延伸測序(Single Base Extension and Sequencing)
在測序的flow cell中加入四種熒光標記的dNTP ,、DNA 聚合酶以及接頭引物進行擴增,,在每一個測序簇延伸互補鏈時,每加入一個被熒光標記的dNTP就能釋放出相對應(yīng)的熒光,,測序儀通過捕獲熒光信號,,并通過計算機軟件將光信號轉(zhuǎn)化為測序峰,從而獲得待測片段的序列信息,。從熒光信號獲取待測片段的序列信息的過程叫做Base Calling,,Illumina公司Base Calling所用的軟件是Illumina’s Genome Analyzer Sequencing Control Software and Pipeline Analysis Software。讀長會受到多個引起信號衰減的因素所影響,,如熒光標記的不完全切割,。隨著讀長的增加,錯誤率也會隨之上升,。
5)數(shù)據(jù)分析(Data Analyzing)
這一步嚴格來講不能算作測序操作流程的一部分,,但是只有通過這一步前面的工作才顯得有意義。測序得到的原始數(shù)據(jù)是長度只有幾十個堿基的序列,,要通過生物信息學(xué)工具將這些短的序列組裝成長的Contigs甚至是整個基因組的框架,,或者把這些序列比對到已有的基因組或者相近物種基因組序列上,并進一步分析得到有生物學(xué)意義的結(jié)果,。
(注:圖片引自Elaine R. Mardis (2008) Next-Generation DNA Sequencing Methods Annu. Rev. Genomics Hum. Genet. 9:387–402)
4.討論
目前Solexa測序的讀長能達到75bp,,這個大小比傳統(tǒng)的Sanger測序要短得多,,也比Applied Biosystems 公司的SOLID測序要短,但是Solexa測序的優(yōu)勢是能夠獲得海量的數(shù)據(jù),,并且價格低廉,,按相同的數(shù)據(jù)量來算,Solexa測序要比其他測序技術(shù)便宜很多,。75bp的長度肯定是不適合直接用來分析的,,測序得到的reads需要拼接之后才能有實際的用途,這就要求有強大的生物信息學(xué)分析能力作為支撐,。
和傳統(tǒng)的測序技術(shù)相比,,Solexa測序的錯誤率也相對較高,并且測序錯誤傾向于分布在read后面的堿基中,,如何區(qū)分測序錯誤和真正的DNA多態(tài)性也是一個大問題,。
盡管新一代測序技術(shù)還不盡如人意,但是它還是有著廣泛的應(yīng)用,。目前一些模式生物的全基因組重測序,、非模式生物的全基因組測序以及一些生物的轉(zhuǎn)錄組測序都采用了新一代測序技術(shù),比如說前不久剛發(fā)表的熊貓的全基因組(Ruiqian Li et al,2009)測序就是用Solexa測序技術(shù)完成的,。
5.參考文獻
(1)Elaine R. Mardis (2008) Next-Generation DNA Sequencing Methods Annu. Rev. Genomics Hum. Genet. 9:387–402
(2)Jay Shendure, Hanlee Ji (2008) Next-generation DNA sequencing. nature biotechnology 6:1135-1145
(3)Stephan C Schuster (2008) Next-generation sequencing transforms today’s biology. Nature Methods 5:16-18
(4)Zhou DG, Zhao QG, Fu CG et al (2008) The Next Generation Sequencing and its Effect on the Rice Molecular Design Breeding. Molecular Plant Breeding 6: 619-630
(5)http://www./newsf/2008-10/20081023145504.htm