1. illumina測(cè)序化學(xué)原理 2. HiSeq 測(cè)序儀工作原理 3. PacBio 單分子超長測(cè)序 4. Ion Torrent 測(cè)序 5. X10人全基因組測(cè)序 6. illumina 公司的Nano Well 測(cè)序技術(shù) 7.第一代DNA測(cè)序 1. illumina測(cè)序化學(xué)原理 今天的第一期節(jié)目,,主要給大家介紹Illumina公司的技術(shù)。Illumina公司是當(dāng)今最紅火的二代測(cè)序公司,。它的測(cè)序技術(shù)的最基本的原理,,是基于可逆終止的、熒光標(biāo)記dNTP來做“邊合成,、邊測(cè)序”的工作 聽起來有點(diǎn)拗口,,接下來逐步為大家講解。 Flowcell
第一個(gè)要給大家講的,,是它這個(gè)flowcell,。Flowcell翻成中文,就叫“流動(dòng)池”,。 我們來看這個(gè)圖片,。圖片當(dāng)中,我們看到一個(gè)象載玻片大小的芯片,。這個(gè)芯片里面,,是做了8條通道。在這個(gè)通道的內(nèi)表面,,是做了專門的化學(xué)修飾,。它的化學(xué)修飾,主要是用2種DNA 引物,,把它(2種DNA引物)種在玻璃表面,。
這兩種(DNA引物的)序列是和接下來要測(cè)序的DNA文庫的接頭序列相互補(bǔ)的。而且這2種引物是通過共價(jià)鍵,,連到Flowcell上去,。之所以要用共價(jià)鍵連到Flowcell上去,,是因?yàn)榻酉聛碛写罅康囊后w要流過這個(gè)Flowcell,只有有共價(jià)鍵連接的這些DNA,,才不會(huì)被沖掉,。 這就是Flowcell。 文庫制作 再接下來,,講一下文庫,、和文庫的制作(過程) 所謂的DNA文庫,實(shí)際上是許多個(gè)DNA片段,,在兩頭接上了特定的DNA接頭,,型成的DNA混合物。 文庫有2個(gè)特點(diǎn),,第1個(gè)特點(diǎn),,是當(dāng)中這一段插入的DNA,它的序列是各種各樣的,。第2個(gè)特點(diǎn),,它的兩頭的接頭序列,是已知的,,而且是人工特地加上去的,。 要做這個(gè)文庫,首先是把基因組DNA,,用超聲波打斷,。然后打斷之后,兩頭用酶把它補(bǔ)平,,再用Klenow酶在3’端加上一個(gè)A堿基,。然后,再用連接酶把這個(gè)接頭給連上去,。
連好了接頭的DNA混合物,,我們就稱為一個(gè)“文庫”。英文也稱作“l(fā)ibrary”,。 橋式PCR
做好了Library之后,,就要做橋式PCR了。橋式PCR,,實(shí)際上是把文庫種到芯片上去,,然后進(jìn)行擴(kuò)增,這樣的一個(gè)過程,。 這個(gè)過程,,首先是把文庫加入到芯片上,因?yàn)槲膸靸深^的DNA序列,和芯片上引物是互補(bǔ)的,,所以,,就會(huì)產(chǎn)生互補(bǔ)雜交。 雜交完了之后,,我們?cè)谶@里面加入dNP和聚合酶,。聚合酶會(huì)從引物開始,延著模板合成出一條全新的DNA鏈來,。 新的這條鏈,,和原來的序列是完全互補(bǔ)的。 接下來,,我們?cè)偌尤隢aOH堿溶液,。DNA雙鏈在NaOH堿溶液存在下,就解鏈了,。而且被液流一沖,原來的那個(gè)(模板)鏈,,也就是沒有和芯片共價(jià)連接的鏈,,就被沖走了。而和芯片共價(jià)連接的鏈,,就被保留下來,。
然后,我們?cè)僭谝毫鞒乩锛尤胫行砸后w,,主要是為了中和這個(gè)堿液,,在加入中和液之后,整個(gè)環(huán)境變成中性了,。這時(shí)侯,,DNA鏈上的另外一端,就會(huì)和玻璃板上的第二種引物,,發(fā)生互補(bǔ)雜交,。 接下來,我們加入酶和dNTP,,聚合酶就延著第二個(gè)引物,,合成出一條新鏈來;然后,,我們?cè)偌訅A,,把2條鏈解鏈解開;然后,,我們?cè)偌又泻鸵?,這時(shí)侯,DNA鏈會(huì)和新的引物雜交,。再加酶,,再加dNTP,,又從新引物合成出新的鏈來。 連續(xù)重復(fù)這一過程,,DNA鏈的數(shù)量,,就會(huì)以指數(shù)方式增長。
制備單鏈 在橋式PCR完成之后,,接下來要做的工作,,就是要把合成的雙鏈,變成可以測(cè)序的單鏈,。 辦法是通過一個(gè)化學(xué)反應(yīng),,把其中一個(gè)引物上的一個(gè)特定的基團(tuán)給切斷掉。 然后,,再用堿溶液來洗這個(gè)芯片,。這時(shí)侯,堿讓DNA的雙鏈解鏈,,那根被切斷了根的DNA鏈就被水沖掉了,。留下那根共價(jià)鍵連在(芯片)上面的鏈。
接下來,,再加入中性溶液,,然后在這個(gè)中性溶液里面加入測(cè)序引物。 正式測(cè)序 好,,接下來正式的測(cè)序工作就開始了,。 那么,在測(cè)序的時(shí)侯,,加入進(jìn)去的,,最主要是2個(gè)東西:一個(gè)是帶熒光標(biāo)記的dNTP。而這個(gè)dNTP,,它還有一個(gè)特點(diǎn),,它的3’末端是被一個(gè)疊氮基堵住的。 然后,,再加一個(gè)聚合酶,,聚合酶就會(huì)選擇:哪一個(gè)dNTP是和原來位置上的那個(gè)堿基是互補(bǔ)的,根據(jù)互補(bǔ)性原理,,把這個(gè)dNTP合成到新的這個(gè)DNA鏈上去,。 因?yàn)檫@個(gè)dNTP的3’端是被一個(gè)疊氮基團(tuán)堵住了,所以,,它一個(gè)循環(huán)只能延長一個(gè)堿基,。然后,它就停在那兒了。
合成完了之后,,就用水把多余的dNTP和酶給沖掉。 沖掉之后,,就放到顯微鏡下,,去進(jìn)行激光掃描,。根據(jù)發(fā)出來的熒光來判斷它是哪個(gè)堿基。 因?yàn)?種dNTP,,它每一種dNTP上面標(biāo)的熒光素都不一樣,,根據(jù)紅,、黃,、藍(lán),、綠,它出來的哪種顏色,,那么,就可以倒過來推出來,,這個(gè)新合成上去的堿基,是哪種堿基,。 因?yàn)樾潞铣傻膲A基,,是和原來位置(的堿基)是互補(bǔ)的,所以,,又推出模板上那個(gè)堿基是哪個(gè),。 這一個(gè)循環(huán)完成之后,就加入一些化學(xué)試劑,,把疊氮基團(tuán)和旁邊標(biāo)記的熒光基團(tuán)切掉,。切完了之后,3’端的羥基就暴露出來,。
再接下來,,加入新的dNTP和新的酶,然后,,又延長一個(gè)堿基,。新延長完一個(gè)堿基之后,把多余的酶和dNTP沖掉,,再進(jìn)行一輪顯微的激光掃描,,再讀一下這個(gè)堿基是什么。 不斷重復(fù)這個(gè)過程,,可以重復(fù)上百次,,到幾百次,就可以把上百個(gè)堿基,,甚至更多堿基的序列讀出來,。 讀Index 那么,什么是Index哪,?是因?yàn)镮llumina的評(píng)委會(huì)個(gè)測(cè)序量很大,,往往一個(gè)樣本,用不了那么幾億條DNA,。所以,,科學(xué)家就想了一個(gè)辦法。在文庫的接頭上做了一些標(biāo)記,,每一個(gè)樣本,,它有一個(gè)特定的接頭,每個(gè)接頭里面,,它有一段特定的序列,。 這段特定的序列,我們就稱為Index,。也有人把它叫做Barcode,,反正,,表達(dá)的是一個(gè)意思:這么一段特定的序列,標(biāo)記了樣本的來源,。 那么,,要讀這個(gè)Index的序列,先用堿把上面這根測(cè)完“Read 1”的序列,,把上面這根DNA鏈給解鏈掉,。
解鏈掉之后,再加入中性液,,然后,,加入“Read 2”這個(gè)測(cè)序引物。Read 2測(cè)序引物結(jié)合的位點(diǎn),,正好,,就在這個(gè)Index序列的旁邊。 接下來,,就進(jìn)行第2輪測(cè)序,,一般來說,是讀6到8個(gè)堿基,。把這6到8個(gè)堿基讀下來,,我們就可以知道,這某一個(gè)具體的一段DNA,,它來自于原始的哪個(gè)樣本,。 雙端測(cè)序
這是Illumina的最核心的另外一個(gè)技術(shù),就是雙端測(cè)序,。 那么雙端測(cè)序,,就是說,一根DNA鏈,,除了從正向讀一遍,,還可以從DNA的負(fù)向,再讀一遍,。 這一下子就把Illumina測(cè)序的有效長度加了一倍,。這是非常有實(shí)際用途的。 那么這個(gè)倒鏈的過程,,是這樣,先讓這個(gè)DNA先合成,,合成出來這根互補(bǔ)鏈,。 有了這個(gè)互補(bǔ)鏈之后,用一個(gè)化學(xué)試劑,,在原來這根鏈的根上切一下,。切一下,,原來這根模板鏈就掉了,剩下那根互補(bǔ)鏈,。 再接下來,,就進(jìn)行第2端的測(cè)序。第2端的測(cè)序原理,,和第一端的測(cè)序原理是一樣的,。 加上了“Read 3”的這個(gè)引物,依次往下,,一個(gè)一個(gè)堿基地往下讀,。 大規(guī)模平行測(cè)序
那么最重要的事情是什么呢?一個(gè)點(diǎn),,經(jīng)過幾百個(gè)循環(huán),,就讀出了幾百個(gè)堿基。但實(shí)際上,,這個(gè)芯片上可以有上億個(gè)點(diǎn),,上億個(gè)“cluster”,也就是“簇”,。那么上億個(gè)“cluster”,,每個(gè)循環(huán),它都可以讀出地么多序列,,這是Illumina測(cè)序非常強(qiáng)大的原因,。因?yàn)槭浅汕先f,準(zhǔn)確說是上億上鏈都在合成,,這個(gè)就得到了很大的一個(gè)測(cè)序數(shù)據(jù)量,。 2. HiSeq 測(cè)序儀工作原理 上期節(jié)目,給大家介紹了Illumina測(cè)序的化學(xué)原理,。這期節(jié)目,,主要給大家介紹一下,Illumina HiSeq測(cè)序儀的工作原理,。 也就是芯片上發(fā)生了這么多變化,,HiSeq是如何把這些信息給讀出來,并且把掃描出來的熒光信號(hào),,又通過怎樣一系列的加工,,變成可以識(shí)別的“A、C,、G,、T”的堿基序列的。 HiSeq首先是一臺(tái)高精度的顯微光學(xué)掃描儀,。然后再配上了一整套的液流系統(tǒng),,和計(jì)算機(jī)軟硬件,,再加溫控系統(tǒng),組成這樣一臺(tái)測(cè)序儀,。 其中最核心,,也是結(jié)構(gòu)最復(fù)雜的,是它的光學(xué)系統(tǒng),。 前一期,,我們講了,Illumina測(cè)序儀主要是靠4種dNTP分別帶有不同的熒光基團(tuán),,在被激光照了之后,,發(fā)出不同顏色的熒光。再通過對(duì)光的顏色的分辯,,可以判斷出到底是哪個(gè)堿基,。 光路結(jié)構(gòu) 我們先來說,它的光路結(jié)構(gòu),。 這里,,我們要說明一下:感光元件CCD,它本身是色盲,。所以,,它一定要配合濾光片,才能分辯出顏色來,。 那我們先來看一下,,HiSeq的光路圖。
左邊這兩個(gè)元器件,,就是激光器,。一個(gè)發(fā)出紅色激光,另一個(gè)發(fā)出綠色激光,。 其中紅色激光主要是激發(fā)A和C,,這兩種堿基上的熒光基團(tuán);而綠色激光主要是激發(fā)G和T,,這兩種堿基上的熒光基團(tuán),。 紅色和綠色這兩束光,通過一面半透半反鏡,,組成一道激光,。這道激光打在Flowcell上。
那么請(qǐng)注意,,F(xiàn)lowcell就放在這個(gè)位置,。 在Flowcell里面,結(jié)合在DNA上的那個(gè)熒光基團(tuán)在激光的照射下,就發(fā)出熒光,。 熒光通過3面半透半反鏡,和1面全反鏡,,被分成4條光路,,這4道光線,分別通過一道濾光片,,這4張濾光片的濾過波長不一樣,。這樣,這4 道光在經(jīng)過了濾光片之后,,就變成了4種顏色不同的光線,。 然后,這4條顏色不同的光線,,各自照在一面反射鏡上,,通過反射鏡進(jìn)入到CCD。這4個(gè)CCD就記錄到不同顏色的光線,。 TDI線掃描 HiSeq的光線掃描是“線掃描”,,和傳統(tǒng)的相機(jī)不一樣,傳統(tǒng)的相機(jī)是面掃描,。 HiSeq采取了一種特定的叫“TDI”線掃描方式,,TDI是Time delayintegration的縮寫。 在HiSeq上之所以采取TDI掃描方式,,因?yàn)樗蟹浅C黠@的優(yōu)點(diǎn),。 第一個(gè)優(yōu)點(diǎn),就是它的掃描速度非???/span>,,在HiSeq 2500上,從Flowcell的一個(gè)Lane的一頭掃到另外一頭,,也就是一個(gè)“Swath”的掃描時(shí)間,,大概只有20秒種不到。 第二個(gè)好處,,就是它的掃描精度非常高,。在最新的HiSeq V4版試劑上,它的光點(diǎn)密度,,大概可以達(dá)到每平方毫米90萬個(gè)點(diǎn),,要掃描清楚這么高密度的光點(diǎn),掃描儀的掃描精度是可想而知的,。 TDI掃描的第三個(gè)好處,,是這種方式,可以把Flowcell的上表面、和下表面都掃描到,。 Flowcell(測(cè)序芯片) 接下來,,我們?cè)僖敿?xì)介紹這張F(tuán)lowcell。
那么,,先來看一下,,這張flowcell有點(diǎn)象一張載玻片,在這一張片子里面,,我們可以看到,, 它做了8條通道。 每條通道,,我們稱為一個(gè)Lane,。這8個(gè)Lane之間,相互是隔絕的,。 每個(gè)Lane的兩端各有一個(gè)小孔,。這兩個(gè)小也孔,就是液流流進(jìn),、流出的地方,。
每個(gè)Lane的上表面和下表面,都分別以共價(jià)鍵的方式,,種了2種DNA引物,。這兩種DNA引物,是與文庫接頭的兩頭序列相互補(bǔ)的,。上一期(節(jié)目)我們已經(jīng)說明了這一點(diǎn),。
一個(gè)Lane里面,分成2個(gè)面,,上表面,、和下表面。上表面和下表面,,都種了DNA引物,,也都是可以產(chǎn)生測(cè)序數(shù)據(jù)的。 在每一條Lane的每一個(gè)面,,又被分成了3個(gè)掃描通道,,每個(gè)道被稱為一個(gè)“swath”。
每條Swath是從頭到底被連續(xù)掃描的,。但是它的數(shù)據(jù),,在進(jìn)行數(shù)據(jù)分析的時(shí)侯,是被分割成16個(gè)小方塊,。這每一個(gè)小方塊,,被稱為一個(gè)“tile”。 這樣一張F(tuán)lowcell,總共就是768個(gè)Tile,。 每個(gè)Tile在掃描的時(shí)侯,,會(huì)根據(jù)4種顏色,產(chǎn)生4張照片,。 圖像處理 掃描完了之后,,就要進(jìn)行圖像處理。 掃描出來的最原始的文件,,它的格式是“.tiff”文件。 Tiff文件記錄了每個(gè)像素點(diǎn)上采集到的光強(qiáng)度,。Tiff文件的優(yōu)點(diǎn)是它是完全無損,,保留了所有的原始信息。 但它也有它的不足之處,。它的不足之處就是它的這個(gè)文件太大了,。它的數(shù)據(jù)量很大,既不便于數(shù)據(jù)的傳輸,,也不便于數(shù)據(jù)的存儲(chǔ),。 接下來,計(jì)算機(jī)軟件就把圖像文件轉(zhuǎn)化成光點(diǎn)文件,。光點(diǎn)文件叫“.BCL”文件,。也就是“Base calling”的英文縮寫。 要把圖像文件,,轉(zhuǎn)化成BCL文件,,就是把4種顏色的4張照片,組合在一起,,變成一張有4種顏色的彩色照片,。
這其中首先要解決的,是4張照片在空間位置上的匹配問題,,因?yàn)?張照片是通過4個(gè)CCD分別拍下來的,,所以,會(huì)有一定的空間上的偏差,。 軟件要通過對(duì)4張照片上,,亮點(diǎn)相互比對(duì),找到最合適的,、匹配的位置,。 這里,我們要說明一下,,如果被測(cè)的文庫是堿基不平衡的文庫,,在這個(gè)空間匹配上就會(huì)遇到問題。 什么叫堿基平衡呢?也就是說,,在測(cè)序過程當(dāng)中,,每個(gè)循環(huán),A,、C,、G、T四種堿基,,都是比較均勻在存在的,。 最典型是人全基因組文庫,這是一個(gè)典型的堿基平衡文庫,。 那什么是堿基不平衡文庫呢,?最典型的,就是PCR擴(kuò)增子產(chǎn)生的文庫,。PCR擴(kuò)增子的特點(diǎn):PCR是有特定的起始位點(diǎn)的,,一個(gè)特定的測(cè)序循環(huán)中,幾乎所有的片段都是同一種堿基,,而剩下的3種堿基,,就特別少。 這在反映到照片上去的時(shí)侯,,就變成:一張照片特別亮,,光點(diǎn)很多。而其它的三張照片就特別暗,,上面的光點(diǎn)就很少,。 這時(shí)侯,要軟件做空間上的比對(duì),,軟件就會(huì)覺得困難,,因?yàn)閷?duì)于那幾張暗的照片,軟件很難判斷上面的光點(diǎn),,是否與那張亮的照片上的光點(diǎn)真正對(duì)得上,。結(jié)果,就是判斷出來的可靠性變差,。最后,,就是測(cè)序的數(shù)據(jù)質(zhì)量變差,有效數(shù)據(jù)量也會(huì)變少,。 要解決這個(gè)問題,,辦法是在測(cè)序過程中摻入一些堿基平衡的文庫。例如摻人全基因組文庫,?;蛘咭部梢該絀llumina提供的標(biāo)準(zhǔn)的PhiX文庫,,這些都是堿基平衡文庫。 它的作用,,是在每個(gè)循環(huán)當(dāng)中,,為每一種顏色的照片,都提供足夠多的亮點(diǎn),。這樣,,它可以彌補(bǔ)那些不平衡的文庫當(dāng)中缺亮點(diǎn)的問題。 BCL文件 當(dāng)把4種顏色的光點(diǎn)組成一個(gè)文件之后,,軟件就會(huì)生成一個(gè)“.BCL”文件,。 “.BCL”文件就是光點(diǎn)文件,它對(duì)每個(gè)光點(diǎn),,記錄了以下的內(nèi)容,。
首先一個(gè)光點(diǎn)處在哪個(gè)Lane里面。其次,,這個(gè)光點(diǎn)在這個(gè)Lane的哪個(gè)Tile里面,。第3,,就是這個(gè)亮點(diǎn)在這個(gè)Tile的X軸和Y軸的座標(biāo)位置,。第4,,是記錄了這個(gè)光點(diǎn)當(dāng)中“紅,、黃,、藍(lán),、綠”四種光的對(duì)應(yīng)的光強(qiáng),。 這個(gè)圖是BCL文件的一個(gè)示意圖,。 實(shí)際上,,BCL文件是二進(jìn)制文件,無法拿來直接閱讀,。也正是因?yàn)锽CL文件難于閱讀,,并且很難改動(dòng),所以,,BCL文件幾乎不存在做假的可能,。 在測(cè)序過程當(dāng)中,有許多客戶會(huì)要求測(cè)序公司提供原始的測(cè)序數(shù)據(jù),,如果客戶是包Lane,、或者包Flowcell的,一般測(cè)序公司是可以提供BCL文件的,。 客戶在拿到BCL文件之后,,可以用“BCL2FASTQ”這個(gè)軟件,把BCL文件轉(zhuǎn)化成FASTQ序列語文件,。 以此,,客戶可以來驗(yàn)證,,測(cè)序公司提供的數(shù)據(jù)是否是原始的,是否是真實(shí)的,。 再說一下最初生成的那個(gè)tiff文件,。tiff文件實(shí)在太大了,所以,,測(cè)序儀在測(cè)序過程中,,只把tiff文件作為中間文件。最后是把這個(gè)tiff文件刪掉的,。 如果客戶想要原始的圖像文件,,在HiSeq V4之前,可以讓測(cè)序公司保留“.CIF”文件,。CIF文件是一種彩色圖案的向量文件,,它的優(yōu)點(diǎn)是比tiff文件的數(shù)據(jù)量小很多。 測(cè)序公司把CIF文件給客戶之后,,客戶就可以看到原始的圖像文件了,。 但是,請(qǐng)注意:在HiSeq升級(jí)到V4之后,,保留CIF文件的這個(gè)選項(xiàng)是被取消掉了,。所以,對(duì)于要測(cè)V4 Lane的客戶來說,,是拿不到CIF文件了,。 堿基識(shí)別 接下來,我們講一下堿基識(shí)別,。 我們之前講:4種dNTP,,各標(biāo)一種熒光基團(tuán),紅,、黃,、藍(lán)、綠,,四種顏色,,根據(jù)顏色來判斷堿基種類。這個(gè)實(shí)際上是一種簡(jiǎn)化了的說法,。實(shí)際情況,,要比這個(gè)復(fù)雜得多。 來看這個(gè)圖,,這是2種熒素的熒光的波長圖,。
我們會(huì)發(fā)覺,這兩種熒光色,,它發(fā)出來的發(fā)射光,,它在波長上是有交疊的,。在X的這個(gè)位置,主要是綠色熒光素的貢獻(xiàn),,但是藍(lán)色熒光素,,也有少許貢獻(xiàn)。 而在Y這個(gè)波長位置,,藍(lán)色熒光素是做了主要貢獻(xiàn),,但是綠色熒光素,也有少量供獻(xiàn),。 在實(shí)際測(cè)序過程中,,是4種熒光素發(fā)出的亮,相互有交疊,,相互之間的交系,,變得更加復(fù)雜。 那么,,現(xiàn)在我們要做的事情,,是把A、C,、G,、T,4種熒光素的貢獻(xiàn)給拆開,。 首先,,我們就要確定4種熒光素在4個(gè)被測(cè)波長處的貢獻(xiàn)率,。 我們可以看一下,,這個(gè)表,就是4種熒光素,,在4個(gè)波長分別有不同的貢獻(xiàn)率,。這樣就組成一個(gè)4X4的貢獻(xiàn)率表格。 我們?cè)趯?shí)際的分析當(dāng)中,,等于解一個(gè)4元1次,、4聯(lián)方程。因?yàn)槭?個(gè)未知數(shù),,又是4個(gè)方程,,所以肯定是可以解出來的。 說解方程,,有點(diǎn)復(fù)雜,。那么我們來打一個(gè)比方。讓大家來理解這個(gè)事情,。 假設(shè)有一家飯店,,它有4個(gè)熟客:甲,、乙、丙,、丁,。它日常又提供4道菜:豬肉、白菜,、黃瓜,、花生。大廚知道:甲最愛吃豬肉,、乙最愛吃白菜,、丙最愛吃黃瓜、丁最愛吃花生,,每個(gè)人來了飯店之后,,主要吃自己最愛吃的,也會(huì)吃些別的菜,,但別的菜都吃得不是太多,。
那么這個(gè)大廚不到前臺(tái),看不到今天來的客人,。如果,,這個(gè)大廚想要知道今天來的客人是誰,他有什么辦法呢,?看今天哪個(gè)菜被吃掉得最多,。如果今天的菜被吃掉的最多的是豬肉,那他可以大致地判斷,,今天是甲來過了,;如果他看到今天被吃掉的菜,最多的是白菜,,很可能是乙來過了,;那么其它的,道理也是一樣的,。希望這個(gè)例子可以幫大家來理解一下,,這4個(gè)熒光和4種堿基的判讀的關(guān)系。 Phasing 和 Prephasing 接下來,,我們?cè)僦v一下,,Phasing和Prephasing。 在Illumina的測(cè)序過程當(dāng)中,,一個(gè)簇,,大概有5千個(gè)到1萬個(gè)分子。但是在邊合成,、邊測(cè)序的過程當(dāng)中,,每一步酶反應(yīng),,理想情況下,應(yīng)該這5千個(gè)分子都延長1個(gè)堿基,。 但實(shí)際情況,,總有少量分子沒有完成延長反應(yīng)。也就是說,,總有少量的分子會(huì)掉隊(duì),,我們稱這種掉隊(duì)的現(xiàn)象叫“phasing”。Phasing主要是由于酶活性不足,,所引起的,。 如圖所示,掉隊(duì)的這個(gè)分子,,它所發(fā)出的熒光信號(hào),,和大部隊(duì)所發(fā)出的熒光信號(hào)是不一樣的。這個(gè)循環(huán)的次數(shù)越多,,掉隊(duì)的分子就越多,。所以,測(cè)序越到后面,,它Phasing的分子數(shù)就越多,。最后,信號(hào)的可靠性就越差,。 除了掉隊(duì)的分子,,還會(huì)有一部分分子,會(huì)跑得超前,,也就是在一個(gè)循環(huán)中,,它延長了2個(gè)堿基。在一個(gè)循環(huán)中延長了2個(gè)堿基的最主要的原因,,是dNTP上標(biāo)記的那個(gè)疊氮基團(tuán)(N3)掉了,。 我們知道,,疊氮基團(tuán)是非常容易從有機(jī)化合物上掉落的,。當(dāng)疊氮基團(tuán)掉落之后,dNTP的3’端的羥基就暴露出來了,。當(dāng)丟失了疊氮基團(tuán)的dNTP加到(合成鏈的)3’端之后,,它的聚合反應(yīng)不會(huì)終止,而是會(huì)繼續(xù)往前走,。當(dāng)再加上了一個(gè)帶疊氮基團(tuán)的dNTP之后,,這個(gè)聚合反應(yīng)才停下來。 這樣的后果,,就是一個(gè)循環(huán),,某些分子,,會(huì)合成了2個(gè)堿基。也就是說比大部隊(duì)多走了一步,。那么這個(gè)多走了一步的堿基,,它所發(fā)出來的熒光顏色,也是和大部隊(duì)不一樣的,。 在Illumina測(cè)序過程當(dāng)中,,Phasing和Prephasing是限制測(cè)長的最主要原因。也就是說,,隨著循環(huán)不斷進(jìn)行,,越來越多的分子掉隊(duì),還有越來越多的分子超前,。然后,,它們所產(chǎn)生的噪音,掩蓋了大部隊(duì)的信號(hào)的時(shí)侯,,也就是測(cè)序開始測(cè)不準(zhǔn)的時(shí)侯,。 在HiSeq測(cè)序當(dāng)中,從第12個(gè)循環(huán)開始,,在計(jì)算某個(gè)光點(diǎn)是哪種堿基的時(shí)侯,,就要把Phasing和Prephasing的影響,納入考慮,。 Chastity 和 Pass filter
為了對(duì)光點(diǎn)當(dāng)中熒光素的純粹程度進(jìn)行描述,,Illumina公司定義了個(gè)標(biāo)準(zhǔn),叫“chastity”,,Chastity的定義,,就是濃度最高的那個(gè)熒光素的量,去除以“它自己 + 排名第二的熒光素的量的和”,。大于0.6是一個(gè)好堿基,。 用更加通俗的話來說,也就是“老大”比“老二”,,如果大于,、等于“1.5倍”,這就是個(gè)“好”堿基,。如果“老大”比“老二”不足“1.5倍”,,這就是個(gè)“壞堿基”。 Illumina對(duì)每個(gè)read的質(zhì)量都要做一個(gè)檢驗(yàn),,這個(gè)檢驗(yàn)就叫“pass filter”檢驗(yàn),。檢驗(yàn)的標(biāo)準(zhǔn),是看前25個(gè)堿基當(dāng)中,有幾個(gè)是“壞堿基”,。如果只有一個(gè),、或者沒有壞堿基,則Pass filter就通過,;如果有超過一個(gè)以上的壞堿基,,Pass filter就不能通過。 那我們平時(shí)說,,測(cè)序服務(wù)保證多少“PF data”,,指的就是Pass Filter(PF)的數(shù)據(jù)。 Pass Filter最主要的作用,,就是把那些一個(gè)光點(diǎn)當(dāng)中,,含了幾個(gè)cluster的那些點(diǎn),給去掉,。只剩下那些純粹的單克隆的read,,作為合格的數(shù)據(jù),提交給客戶,。 我們平時(shí)說“PF率”,,指的就是Pass Filter的Reads數(shù),占總的,、測(cè)到的Reads數(shù)的比例,。 PF率可以從一個(gè)側(cè)面反映測(cè)序的質(zhì)量。一般來說,,如果上樣密度過高,,PF率就可能會(huì)下降。 Quality Score,,Q 值 一個(gè)堿基的Quality Score,,也就是這個(gè)堿基的質(zhì)量分?jǐn)?shù)(Q值)。這個(gè)是通過這個(gè)堿基被誤判的可能性,,換算出以10為底的對(duì)數(shù),,再乘以“-10”得到的這樣一個(gè)數(shù)字。 這個(gè)Q值,,有點(diǎn)象我們說黃金的純度,,我們說“三九金”,或者說“四九金”,,就是指99.9%的純度的金子,,或者是99.99%的純度的金子,。 我們平時(shí)說Q30,,就是指一個(gè)堿基的可靠性達(dá)到99.9%。或者說,,它的出錯(cuò)的可能性小于千分之一,。 同樣道理,我們說Q40,,就是指一個(gè)堿基的可靠性是99.99%,。或者說,,它的出錯(cuò)的可能性是萬分之一,。 那么,我們經(jīng)常說Q30比例,,所謂的“Q30比例”,,就是在全部PF數(shù)據(jù)當(dāng)中,達(dá)到,、或者超過Q30質(zhì)量標(biāo)準(zhǔn)以上的數(shù)據(jù),,占所有PF數(shù)據(jù)的比例,叫Q30比例,。 Q30比例,,可以表征一個(gè)測(cè)序過程的質(zhì)量的好壞。一個(gè)堿基的質(zhì)量分?jǐn)?shù),,不是以數(shù)字方式,,直接記錄到最后的Fastq文件的。而是把它的Q值,,加上33,,再用ASCII碼表轉(zhuǎn)換成一個(gè)字母,把這個(gè)字母錄入Fastq文件,。 這樣做,,有2個(gè)好處。如果我記2位數(shù)字,,那么就占2個(gè)字節(jié),,現(xiàn)在用一個(gè)字母來記錄,只占一個(gè)字節(jié),。那(數(shù)據(jù)存儲(chǔ))空間就節(jié)省了很多,。 第二個(gè)好處,用ASCII碼字母表,,一個(gè)堿基,,只對(duì)應(yīng)一個(gè)字母;如果是用2位數(shù)字來記錄,,就有可能發(fā)生移碼錯(cuò)誤,。而用ASCII碼,一個(gè)字母來記錄,就不太容易發(fā)生移碼錯(cuò)誤,。 Fastq 文件
在軟件做完上述所有的數(shù)據(jù)處理之后,,就會(huì)生成一個(gè)Fastq文件。 Fastq文件里,,主要包含了3部分內(nèi)容,。 第一個(gè)部分,是每個(gè)Read的目錄信息,。也就是這個(gè)Read來自于哪臺(tái)HiSeq,、第幾個(gè)run、第幾個(gè)Lane,、和第幾個(gè)Tile,,以及在這個(gè)Tile的X、Y的什么位置,。 接下來,,就是所測(cè)到的堿基的序列。 最后,,是這些堿基序列對(duì)應(yīng)的質(zhì)量分?jǐn)?shù)信息,。 這個(gè),就是Fastq文件,。 到Fastq文件之后,,測(cè)序儀所要完成的工作,就完全完成了,。 以上,,就是HiSeq測(cè)序儀的基本工作原理。 3. PacBio 單分子超長測(cè)序 本期節(jié)目,,給大家介紹一下Pacific Biosciences公司的技術(shù),。Pacific Biosciences公司的簡(jiǎn)稱叫PacBio。Pacbio是目前讀長最長的測(cè)序技術(shù)公司,。 它的讀長,,最長可以達(dá)到2萬到3萬個(gè)堿基,平均可以達(dá)到8千多個(gè)堿基,。相比于llumina 和Ion Torrent的幾百個(gè)堿基的讀長來說,,有著明顯的優(yōu)勢(shì)。 今天,,我們就給大家介紹一下這個(gè)技術(shù),。 PacBio 測(cè)序過程 PacBio的測(cè)序原理,和別的高通量測(cè)序的原理,,基本上也是一樣的,。也是邊合成,,邊測(cè)序。 首先,,這個(gè)聚合酶是固定在測(cè)序小孔的玻璃底板上,。這個(gè)聚合酶又和DNA模板,、測(cè)序引物是結(jié)合在一起的,。
然后加入帶4色熒光的dNTP底物,這些dNTP都在其磷酸基團(tuán)上被標(biāo)上了熒光基團(tuán),,四種堿基,、各標(biāo)一種顏色。 當(dāng)一種與聚合酶正要合成的堿基一致的dNTP被酶抓住的時(shí)候,,酶就會(huì)長時(shí)間地抓住這個(gè)dNTP,不讓這個(gè)dNTP漂走,。 這時(shí)侯,激發(fā)光從小孔的底部照進(jìn)來,,打在這個(gè)被抓住的dNTP上,,就會(huì)在較長時(shí)間內(nèi)發(fā)出熒光。
儀器根據(jù)所拍到的熒光的顏色,,就可以來判斷,,這個(gè)堿基是哪種堿基。 一個(gè)循環(huán)的聚合反應(yīng)發(fā)生完畢之后,,焦磷酸基團(tuán)就從原來的dNTP上掉下來,,因?yàn)闊晒饣鶊F(tuán)是連到這個(gè)焦磷酸上的,所以這個(gè)熒光基團(tuán)也就一起掉下來了,,在溶液中就會(huì)漂走,。 接下來,進(jìn)行第二,、第三個(gè)循環(huán)……,,一直進(jìn)行下去。 一張芯片上有幾萬個(gè)孔,,同時(shí)進(jìn)行測(cè)序,,這樣一次就可以得到幾億個(gè)堿基的序列。
接下來,,分幾個(gè)要點(diǎn),,來說明這個(gè)測(cè)序的過程。 化學(xué)方法 和Illumina一樣,,PacBio也采用了4色熒光基團(tuán)來標(biāo)記dNTP,,但是PacBio的標(biāo)記和Illumina的標(biāo)記有所不同,PacBio的熒光基團(tuán)直接是標(biāo)在dNTP的3'端的磷酸基團(tuán)的末端的,。 這樣標(biāo)記的好處是:當(dāng)一個(gè)聚合反應(yīng)的循環(huán)完成的時(shí)侯,,dNTP上的那兩個(gè)磷酸基團(tuán)就掉下,,連在這個(gè)磷酸基團(tuán)上的熒光基團(tuán)也隨一塊兒掉下來。它掉下來之后,,就在溶液中漂走,,不會(huì)影響接下來的測(cè)序過程了。 測(cè)序微孔 然后,,我們說一下這個(gè)測(cè)序小孔的設(shè)計(jì),。
這個(gè)測(cè)序小孔叫Zero Model Waveguide,簡(jiǎn)稱ZMW,。 小孔的直徑很小,,光只能在小孔中傳輸很短的距離。這個(gè)特點(diǎn)對(duì)PacBio的測(cè)序很重要,。因?yàn)槊甘潜还潭ㄔ诓AУ装迳系模?/span>所以,,只有互補(bǔ)的dNTP被酶抓到的時(shí)侯,這個(gè)dNTP才會(huì)較長時(shí)間地停留在離玻璃底板很近的位置,。 也只有這樣,,才會(huì)被激發(fā)光照到,并且發(fā)出它的熒光,。
PacBio的光學(xué)設(shè)計(jì)中,,入射光是幾百納米波長的可見光,光從小孔的底部的玻璃處照到小孔中來。這個(gè),,只有70納米,。 其它游離的dNTP,只會(huì)非常短暫地進(jìn)入小孔,,又很快漂走,。所以,這些游離dNTP帶來的的噪音(信號(hào)),,就被抑制在很低的水平,。 啞鈴狀的文庫
接下來,我們說一下PacBio的建庫,。 PacBio的建庫是比較特別的,。它的庫是在DNA片段的兩段各接一下發(fā)夾型的接頭。接好了發(fā)夾形的接頭之后,,形成的文庫是一個(gè)啞鈴形的文庫,。 這種啞鈴形狀的文庫有個(gè)好處,那它整個(gè)分子實(shí)際上是一個(gè)圓環(huán),。在測(cè)序的過程中它可以周而復(fù)始地進(jìn)行測(cè)序,,這對(duì)于發(fā)揮PacBio的長讀長的優(yōu)勢(shì)是很有益處的。 超長讀長的根本原因 -- 單分子測(cè)序 接下來,,我們說一下PacBio它測(cè)序長度優(yōu)勢(shì)的來源,。這個(gè)來源,,是因?yàn)樗鼫y(cè)的是個(gè)單個(gè)分子。 相比之下,,Illumina或者Ion Torrent測(cè)的都是一簇分子,。或者說它們測(cè)的都是一大堆分子,。當(dāng)它測(cè)一大堆分子的時(shí)侯,,每個(gè)循環(huán),多多少少,,總有一些分子落后,;也多多少少,,有些分子超前,。 這些落后、或者超前的分子,,在每個(gè)循環(huán)里面就會(huì)給出噪音,。而且,隨著循環(huán)次數(shù)越來越多,,落后,、和超前的分子也會(huì)越來越多,達(dá)到一定程度的時(shí)侯,,噪音就會(huì)很大,,大到會(huì)掩蓋掉信號(hào)。 當(dāng)噪音大到掩蓋掉信號(hào)的時(shí)侯,,實(shí)際上測(cè)序就測(cè)不準(zhǔn)了,。 相比之下,PacBio它只有一個(gè)分子,,所以,,它不存在同步問題。 這就讓它可以測(cè)到幾千,、基至上萬個(gè)BP都可以達(dá)成,。 堿基判讀準(zhǔn)確率:87.5% 接下來,我們要說一下PacBio測(cè)序的缺點(diǎn),。 最大的缺點(diǎn)是對(duì)堿基的判讀不準(zhǔn),。它的錯(cuò)誤率是12.5%。也就是說,,它每讀8個(gè)堿基,,就有一個(gè)是讀錯(cuò)的。 那么它主要的錯(cuò)誤類型是'插入',。也就是說,,它會(huì)多讀一個(gè)堿基,。 好在,它的這種錯(cuò)誤是隨機(jī)的,。也就是說,,你在這個(gè)地方再讀一遍,它不一定會(huì)發(fā)生同樣的錯(cuò)誤,。那么,,對(duì)于同一個(gè)序列,多測(cè)幾遍之后,,這些偶然誤差,,可以被校正過來。 讀長限制因素 接下來,,我們說一下限制PacBio讀長的因素,。 第一個(gè)因素,就是DNA鏈上出現(xiàn)了缺口,。測(cè)序過程中是用激光照射來發(fā)出熒光的,,所以當(dāng)強(qiáng)光長時(shí)間照射DNA鏈的時(shí)侯,DNA鏈就有可能被照斷掉,,出現(xiàn)缺口,。 當(dāng)酶讀到這個(gè)缺口的時(shí)侯,酶就從模板鏈上掉下來,。這時(shí)侯,,測(cè)序就終止了。這是第一種可能,。 第二種可能,,是光線照射情況下,酶有可能會(huì)變性,,當(dāng)酶發(fā)生了變性之后,,失去了聚合酶的功能,這時(shí)侯,,測(cè)序也會(huì)終止,。 第三個(gè)限制因素,是文庫本身的長度,。因?yàn)橐銎伍L度大于20~30K的文庫,,是有相當(dāng)大的困難的,所以,,文庫本身的質(zhì)量,,在一定程度上,也限制了PacBio的讀長。 數(shù)據(jù)通量 在高通量測(cè)序當(dāng)中,,測(cè)序的通量,,是一個(gè)很重要的技術(shù)指標(biāo)。 那PacBio大根一張芯片一次可以測(cè)到0.3~0.4G的數(shù)據(jù),。 在PacBio測(cè)序中,,芯片上的小孔數(shù)是第一個(gè)絕對(duì)的、限制性的因素,。 目前的芯片,,是有15萬個(gè)小孔。 但這15萬個(gè)小孔中,,并不是每一個(gè)都能產(chǎn)生有效數(shù)據(jù)的,。 這里,我們要說一下,,測(cè)序復(fù)合物和玻璃底板結(jié)合的方式,。 所謂的測(cè)序復(fù)合物,就是'聚合酶,、測(cè)序模板,、測(cè)序引物'這三者組成的復(fù)合物,。 這個(gè)復(fù)合物是通過聚合酶連接到玻璃底板上的,。 這個(gè)連接方式,首先在聚合酶上標(biāo)上生物素,。然后,,在小孔的玻璃底板上標(biāo)上鏈霉親合素。 實(shí)驗(yàn)過程當(dāng)中,,利用生物素和鏈霉親合素的親合力,,把兩者(聚合酶、和玻璃底板)結(jié)合到一塊兒,。 在實(shí)驗(yàn)過程當(dāng)中,,這個(gè)測(cè)序復(fù)合物是被隨機(jī)地鋪撒到這15萬個(gè)小孔中的。因?yàn)槭请S機(jī)地鋪撒進(jìn)去的,,所以,,有多少個(gè)小孔里面正好有一個(gè)測(cè)序復(fù)合物,是符合泊松分布的,。 最理想的情況下,,是有1/3的小孔是正好有一個(gè)測(cè)序復(fù)合物。這時(shí)侯,,還有約1/3的小孔是空的,,還剩下約1/3的小孔是有2個(gè)或者3個(gè)以上的測(cè)序復(fù)合物被種進(jìn)去。 空的這些小孔,,因?yàn)榻酉聛硭鼪]有聚合反應(yīng)發(fā)生,,也沒有信號(hào),,那當(dāng)然是廢掉了。 那么有2個(gè)復(fù)合物種進(jìn)去,、或者有更多復(fù)合物種進(jìn)去的這些小孔,,因?yàn)樗a(chǎn)生的信號(hào)會(huì)非常的雜亂,所以,,這些孔實(shí)際上也是沒用的,。它產(chǎn)生的數(shù)據(jù),在接下來的數(shù)據(jù)分析當(dāng)中,,是會(huì)被去掉的,。 一張芯片有15萬個(gè)孔,其中1/3有效,,也就是說,,有效的孔數(shù)是5萬個(gè)。然后乘以它目前的平均測(cè)長,,大概8千多個(gè)堿基,,所以,一張芯片,,比較理想的情況下,,大概有0.4G的數(shù)據(jù)量的產(chǎn)出。 直接測(cè)DNA修飾 PacBio在測(cè)序當(dāng)中,,可以直接測(cè)到堿基的被修飾狀態(tài),。因?yàn)楫?dāng)聚合物,遇到模板上有甲基化的A,、C等堿基,,它測(cè)序的速度就明顯地放慢。而且它的光譜特征會(huì)發(fā)生改變,。這樣,,就可以判斷,這個(gè)位置上的DNA被甲基化了,。
GC Bias 很小 PacBio測(cè)序還有另外一個(gè)好處,,就是它GC Bias很小。 什么叫GC Bias呢,?就是我們知道,,所有的PCR的過程,如果模板里面G,、C(堿基)的含量比較高,,PCR的效率就比較低。反之,A,、T(堿基)的比例比較高,,則它PCR的效率比較高。 傳統(tǒng)的建庫當(dāng)中,,一般都有大量的PCR的過程,。它導(dǎo)致的一個(gè)結(jié)果,就是G,、C含量高的那些片段,,它讀到的Reads數(shù),就會(huì)比較少,。 PacBio它的好處,,就是它的建庫過程中沒有PCR過程,所以,,它帶來一個(gè)直接的好處:就是它測(cè)序過程當(dāng)中,,GC Bias很少。也就是說,,那些高GC的片段,,有和低GC的片段差不多的概率被讀到。 測(cè)序速度極快 高通量測(cè)序的另外一個(gè)指標(biāo),,就是測(cè)序的速度,。PacBio的測(cè)序速度取決于酶反應(yīng)的速度。 目前PacBio用的這個(gè)酶,,大概1秒鐘是合成3個(gè)堿基,,1個(gè)小時(shí)大概就可以合成1萬多個(gè)堿基,3個(gè)小時(shí)可以合成3萬多個(gè)堿基,。到3萬多個(gè)堿基之后,基本上繼續(xù)在讀的Reads,,已經(jīng)幾乎沒有了,,所以,3個(gè)小時(shí)之后,,測(cè)序基本就完成了,。 1個(gè)Run讀三個(gè)小時(shí),相對(duì)于Illumina的測(cè)序速度來說,,是非??斓模幌鄬?duì)于Ion Torrent的測(cè)序速度來說,,也相對(duì)要快一點(diǎn)點(diǎn),。 所以,PacBio是一種非常快的測(cè)序方式,。 國內(nèi)現(xiàn)有PacBio測(cè)序儀的單位 最后,,把國內(nèi)已經(jīng)采購了PacBio測(cè)序儀的單位,列個(gè)清單,,以方便大家相互合作,。
4. Ion Torrent 測(cè)序 今天,,要給大家介紹的是Thermo Life公司的Ion Torrent測(cè)序平臺(tái)的測(cè)序原理,。 我們分成以下4個(gè)部分來介紹Ion Torrent的測(cè)序原理。
1,、建庫過程 那么,我們先來介紹一下建庫過程,。 建庫是在樣本DNA片段的兩側(cè)加上標(biāo)準(zhǔn)的接頭的這樣一個(gè)過程,。 Ion Torrent的建庫中,接頭是平頭的,,這點(diǎn)是與Illumina文庫的接頭是3’端有帶突出的T堿基粘性末端的是不同的,。 在加接頭的過程當(dāng)中,是加入P1接頭,,并同時(shí)加入X接頭或者A接頭,。 其中,X或A接頭是未來的測(cè)序起始端,。而P1接頭是是連到測(cè)序珠子的這一端,。 X接頭和A接頭的差別是:X接頭是帶Barcode序列的,而A接頭是不帶Barcode序列的,。用X接頭的好處是可以把一個(gè)芯片的測(cè)序通量分配個(gè)幾個(gè)文庫,,測(cè)完序之后用Barcode把不同的文庫的序列給分開,。A接頭的好處是直接測(cè)到樣本序列,這樣對(duì)于充分利用測(cè)序的讀長是更好的.但是它的缺點(diǎn)是沒有Barcode,,所以一張芯片只能放一個(gè)樣本,。
在Ion Torrent測(cè)序當(dāng)中,AmpliSeq文庫是很一種非常常見的文庫,。AmpliSeq文庫是通過多重PCR擴(kuò)增出來的DNA,,再加上接頭,做的文庫,。 如果把整個(gè)的PCR擴(kuò)增產(chǎn)物都拿來測(cè)序,,那么測(cè)到的兩頭20~30個(gè)堿基,都會(huì)是PCR引物的序列,。而PCR引物是人工設(shè)計(jì)的,,它的序列是已知的。如果把這些PCR引物都進(jìn)行測(cè)序,,那就會(huì)浪費(fèi)相當(dāng)大的一個(gè)測(cè)序讀長和測(cè)序數(shù)據(jù)量,。那為了解決這個(gè)問題,Thermo Life公司在設(shè)計(jì)Ampliseq的PCR引物的時(shí)侯,,在這個(gè)引物上特別設(shè)計(jì)了一種化學(xué)修飾,,這種化學(xué)修飾可以被Fupa(視頻中寫作Pufa,正確的該是Fupa)試劑所切斷,。這樣,,利用Fupa試劑把PCR擴(kuò)增產(chǎn)物上大部分的引物序列都給切掉。在測(cè)序的時(shí)侯,,就可以盡可能多地測(cè)到樣本序列,。
這是一個(gè)非常巧妙的設(shè)計(jì)。 2,、油包水PCR 在做好文庫之后,,接著就要做第二步:就是把文庫種到測(cè)序珠子上去,并且進(jìn)行擴(kuò)增,。 Ion Torrent把文庫種到測(cè)序珠子的方法,,是做油包水PCR。也叫EmulsionPCR(乳濁液PCR),。油包水PCR包括兩個(gè)相:油相和水相。其中水相是核心,,油相起到分隔作用,。水相中包括文庫、引物,、酶,、Master Mix,、測(cè)序珠子,這5種PCR反應(yīng)的主要成份,。 其中這個(gè)測(cè)序珠子,,它是接下來測(cè)序的核心載體。這個(gè)測(cè)序珠子是非常小的,,PGM測(cè)序儀上用的珠子,,它的直徑大概平均是2.4微米;Proton PI測(cè)序芯片上用的珠子,,它的直徑,,大約只有一個(gè)微米。這些測(cè)序珠子的表面,,共價(jià)連接了許多PCR引物,,這個(gè)引物的序列正好是和前面文庫的P1接頭是互補(bǔ)的。 每一個(gè)油包水PCR都會(huì)包含許許多多個(gè)這樣的,、小的測(cè)序微珠,。 水相中的另外一個(gè)成份是那個(gè)游離的PCR引物。這個(gè)游離的PCR引物,,它的5’端標(biāo)記了生物素,。這個(gè)標(biāo)記的生物素的作用,我們后面還要講到,。 這個(gè)引物的序列,,是和前面的A接頭、或者X接頭相一致的,。 準(zhǔn)備水相,,就是把文庫、引物,、酶,、Master Mix、測(cè)序珠子先在水相中混合好,。 混合好之后,,加入油。把油和水進(jìn)行混合,,形成乳濁液,。在這個(gè)乳濁液當(dāng)中,大部分是油,。油把水相分隔成一個(gè)一個(gè)的小水滴,。 每個(gè)小水滴當(dāng)中都可能含有0個(gè)到若干個(gè)文庫分子,還會(huì)包含0個(gè)到若干個(gè)的小的測(cè)序微珠,。與此同時(shí),,引物,、酶、和dNTP是過量的,,所以幾乎每個(gè)小水滴中都會(huì)有足夠量的引物,、酶、和dNTP,。在整個(gè)油包水PCR反應(yīng)當(dāng)中,,文庫分子和測(cè)序微珠是限量因素。
接著,,把混合好的乳濁液,,進(jìn)行PCR反應(yīng)。 PCR反應(yīng)的結(jié)果是,,在一個(gè)小水滴當(dāng)中,,如果它同時(shí)有文庫分子、和測(cè)序微珠,,它就會(huì)發(fā)生PCR反應(yīng),。如果缺少了文庫分子、或者測(cè)序微珠,,它就不會(huì)發(fā)生PCR反應(yīng),。 PCR反應(yīng)之后,珠子的表面,,就會(huì)長出以同一個(gè)液滴當(dāng)中,,所含的DNA(文庫)分子的擴(kuò)增拷貝來。這些擴(kuò)增出來的DNA鏈,,是通過共價(jià)鍵連到珠子上的,,這個(gè)共價(jià)連接,可以保證在接下來的測(cè)序過程當(dāng)中,,這些連到珠子上的DNA鏈,,不會(huì)被(液流)沖走,那么這些DNA鏈就可以作為穩(wěn)定的測(cè)序模板,。 油包水PCR完成之后,,要把所有珠子當(dāng)中,那發(fā)生了PCR的珠子給純化出來,。 純化的手段,,是通過用標(biāo)記了鏈霉親合素的磁珠,和剛才經(jīng)過PCR擴(kuò)增反應(yīng)的珠子進(jìn)行混合,。那些發(fā)生了PCR反應(yīng)的珠子,,它上面的DNA鏈,是連了一個(gè)從PCR擴(kuò)增引物中帶的生物素的,,生物素會(huì)和鏈霉親合素很牢固地結(jié)合,。這樣磁珠就會(huì)和發(fā)生了PCR反應(yīng)的測(cè)序珠子結(jié)合在一塊兒;而那些沒有發(fā)生PCR反應(yīng)的珠子,,它上面沒有連著生物素,,所以,它不會(huì)和磁珠結(jié)合,。 接下來,,我們用磁鐵來進(jìn)行吸附,磁鐵會(huì)吸附磁珠,,磁珠會(huì)把帶了生物素,、同時(shí)帶了擴(kuò)增了的DNA鏈的那些測(cè)序珠子給富集起來,而那些沒有和磁珠結(jié)合的那些微珠,,是留在上清液當(dāng)中的,,通過清洗,就被洗掉了,。 然后,,通過專門的洗脫液,把磁珠所富集起來的測(cè)序珠子給洗脫下來,。 3,、上機(jī)測(cè)序 這些洗脫下來的珠子,就可以上機(jī)測(cè)序了,。 第3部分,,我們來介紹Ion Torrent的上機(jī)測(cè)序。 Ion Torrent測(cè)序芯片,,是一人半導(dǎo)體芯片,,上面做了數(shù)以百萬、千萬計(jì)的小孔,。它每個(gè)小孔的既是測(cè)序微珠的容器,,又同時(shí)是一個(gè)微型的PH計(jì)。每個(gè)小孔正好可以容納一個(gè)測(cè)序微珠,。在測(cè)序過程中就是通過測(cè)量,、并記錄每個(gè)小孔中,所發(fā)生的PH值的變化,,來測(cè)出DNA的序列的,。
每個(gè)芯片,都會(huì)有一個(gè)進(jìn)口,,還會(huì)有一個(gè)出口,,是走液流用的。把測(cè)序珠子上機(jī)的時(shí)侯,,就從進(jìn)口把珠子的混懸液注入到芯片上,。然后再把這個(gè)芯片離心一下,,離心的作用,是更好地把珠子卡到小孔中去,。 Ion Torrent的測(cè)序原理是:每個(gè)dNTP分子都有3個(gè)磷酸基團(tuán),,當(dāng)dNTP被聚合酶結(jié)合到DNA鏈上時(shí),會(huì)掉下來的一分子的焦磷酸,,1個(gè)焦磷酸分子會(huì)被酶再進(jìn)一步分解成2個(gè)磷酸分子,,這樣,在測(cè)序的微環(huán)境中,,就會(huì)多出兩個(gè)酸性分子,,一個(gè)珠子上有幾千、幾百條DNA鏈,,每次發(fā)生聚合反應(yīng),,就會(huì)多出幾千、幾百個(gè)酸分子,。這樣,,這個(gè)微環(huán)境的PH值就會(huì)短暫地下降。 這時(shí),,Ion Torrent芯片中,,每一個(gè)小孔中的PH電極,就測(cè)量這個(gè)小孔中的PH值變化,,并且把測(cè)量得到的值傳給計(jì)算機(jī),。 分別含A、C,、G,、T四種dNTP的溶液,分別地,、依次地流過芯片的表面,。 舉例來說,,流入的是dCTP溶液,,而模板上正好有一個(gè)G堿基,,就發(fā)生聚合反應(yīng),并產(chǎn)生電壓變化,,而且會(huì)被記錄下來,。如果流入的溶液與模板上的堿基不匹配,就不會(huì)發(fā)生聚合反應(yīng),,也就沒有電壓變化,,也就不會(huì)有堿基被記錄下來。 如果正好有2個(gè)一樣的堿基相鄰,一次就會(huì)有2個(gè)堿基被聚合到DNA鏈上,,電壓變化值就會(huì)加倍,,序列中2個(gè)新的堿基被記錄下來。 在測(cè)序的序列安排上,,最前面的4個(gè)堿基叫Key sequence,,分別是A、C,、G、T,。因?yàn)槊總€(gè)珠子上長多少個(gè)DNA鏈,,它的變化范圍是很大的,所以用Key Sequence的A/C/G/T四個(gè)堿基所測(cè)到的PH值變化的強(qiáng)度,,來確定這個(gè)珠子的正常的信號(hào)強(qiáng)度,。有了標(biāo)準(zhǔn)的信號(hào)強(qiáng)度之后。后面測(cè)到的信號(hào),,都和這四個(gè)堿基的信號(hào)強(qiáng)度進(jìn)行對(duì)比,,如果是一倍強(qiáng)度,我們就知道有一個(gè)堿基,,如果有2倍的強(qiáng)度,,就知道串聯(lián)了2個(gè)相同的堿基,依此類推,。 在整個(gè)的測(cè)序過程中,,影響有效數(shù)據(jù)量的因素有以下這些:
第一, 一張芯片上,,在所有的預(yù)制孔中,,有多少孔是有珠子進(jìn)入的。ISP density,,也就是Ion Sphere? Particles (ISPs),。比較理想的情況下,ISP density可以達(dá)到60~80%之間,。這個(gè)值一般是由把珠子加到芯片上去的這個(gè)過程所決定的,,加載得越好,則有珠子的孔數(shù)越多,,沒珠子的孔越少 第二,, 是珠子上是否長了文庫DNA鏈。這個(gè)指標(biāo),,是由磁珠純化的過程來決定的,。純化得越好,則有文庫DNA的珠子越多,沒文庫DNA的珠子越少 第三,, 是單克隆的珠子,、和多克隆的珠子的比例。所謂單克隆的珠子,,就是在一個(gè)珠子上只長了一種DNA分子,。而多克隆的珠子,是指一個(gè)珠子上長了2種或者2種以上的DNA分子,。
第四, 是珠子上長的是否是有用的樣本序列
第五,, 剩下,,是有用的樣本序列。 Ion Torrent 測(cè)序平臺(tái)的特點(diǎn) 到目前為止,,Thermo Lif公司在Ion Torrent平臺(tái)上,,推出了兩款測(cè)序儀,小的叫PGM測(cè)序儀(Personal Genome Machine的意思),,大的叫Proton測(cè)序儀,。 Ion Torrent平臺(tái)的主要測(cè)序優(yōu)勢(shì),是可以從很少量的起始DNA來進(jìn)行測(cè)序,。一般情況下,,5~10個(gè)ng的DNA就足夠進(jìn)行一次質(zhì)量良好的測(cè)序了。 這個(gè)優(yōu)勢(shì),,是基于Thermo Life公司推出了一系列基于多重PCR的建庫方案。 AmpliSeq是Ion Torrent平臺(tái)上很好用的一個(gè)建庫方案,。它的核心,,就是通過多重PCR的方法,一次從樣本中把要測(cè)序的多個(gè)DNA片段給擴(kuò)增出來,,然后轉(zhuǎn)化成文庫進(jìn)行測(cè)序,。 ThermoLife公司基于其多年做PCR的經(jīng)驗(yàn),推出了這個(gè)AmpliSeq平臺(tái),。在AmpliSeq平臺(tái)上,,一方面推出了許多成熟的測(cè)序Panel(,另外客戶可以在AmpliSeq平臺(tái)上,,自行訂制適合自己的AmpliSeq Panel,。 所謂Panel就是一系列針客戶感興趣的基因片段,所做的擴(kuò)增引物,、或者雜交探針的組合,。 有興趣的同學(xué),可以登錄“www.ampliseq.com”這個(gè)網(wǎng)站,,來尋求適合自己的測(cè)序服務(wù),。 Ion Torrent測(cè)序平臺(tái),一直有一個(gè)Homopolymer的問題,。所謂Homopolymer問題,,就是測(cè)序儀在測(cè)到一連串相同的堿基時(shí),就讀不準(zhǔn)到底有幾個(gè)堿基,。比如說,,有一串5個(gè)A,測(cè)序儀在讀到這里的時(shí)侯,讀到一個(gè)強(qiáng)的A信號(hào),,但是儀器在判斷,,這個(gè)信號(hào)到底是5個(gè)A,還是4個(gè)A,、或者是6個(gè)A的時(shí)侯,,有可能會(huì)判斷錯(cuò)誤。這就是我們所說的Homopolymer錯(cuò)誤,。 Thermo Life公司最近推出的了Hi-Q酶,,這個(gè)Hi-Q酶的特點(diǎn)就是聚合反應(yīng)非常快,,也就是它所產(chǎn)生的PH值的變化的峰,,更高、更尖,、更利于判讀,。這在相當(dāng)大程度上提高了Ion Torrent測(cè)序儀讀Homopolymer區(qū)段時(shí)的準(zhǔn)確性。 油包水PCR反應(yīng)是一個(gè)對(duì)操作很敏感的實(shí)驗(yàn)步驟,。為了提高實(shí)驗(yàn)結(jié)果的一致性,,也為了減少人工消耗,Thermo Life公司還在Ion Torrent平臺(tái)上推出半自動(dòng)的油包水PCR反應(yīng)儀:“One Touch”,,和全自動(dòng)的油包水PCR反應(yīng)儀:“Ion Chef” Ion Torrent平臺(tái)的測(cè)序儀,,還有一個(gè)優(yōu)點(diǎn),就是它的測(cè)序速度比較快,。一般上機(jī)測(cè)序時(shí)間,,在3~5個(gè)小時(shí)左右。 以上是本期視頻的全部內(nèi)容,。 5. X10人全基因組測(cè)序 本期節(jié)目,,我們主要給大家介紹:人全基因組測(cè)序。前半部分,,我們會(huì)介紹一下Illumina 公司最新的HiSeq X10,,這個(gè)專門用于人全基因組測(cè)的測(cè)序儀。那么后半部分吶,,我們會(huì)給大家介紹一下人全基因組測(cè)序,,將給出哪些有用的生物信息。 Illumina HiSeq X Ten 那么我們先來說一說,,Illumina的HiSeq X10這個(gè)機(jī)器,。這臺(tái)儀器是Illuminad 2014年年頭上,Illumina公司推出的一個(gè)重磅機(jī)器,。它最吸引人們關(guān)注的特點(diǎn),,是它把測(cè)一個(gè)人全基因組90G數(shù)據(jù)量的成本,,一下子降到了一千美元以下。 這臺(tái)機(jī)器有以下的特點(diǎn): 1,、 首先,,它測(cè)序的速度非常快,,上它現(xiàn)在跑一圈,、2張芯片,3天就跑完了,。比之前的HiSeq 2000跑機(jī)器的時(shí)間—11,,整整快出了2倍以上; 2,、 第2點(diǎn),,就是它每張芯片的數(shù)據(jù)產(chǎn)量非常大,它的每張芯片的數(shù)據(jù)產(chǎn)量,,可以達(dá)到0.9~1個(gè)T(10的12次方),,甚至更多一些的數(shù)據(jù)產(chǎn)量。相比于HiSeq 2000每張芯片產(chǎn)0.3個(gè)T數(shù)據(jù)產(chǎn)量,,又多出了2倍以上,; 3、 第3點(diǎn),,是它的讀長又增加了,它的讀長從HiSeq 2000的雙端(各)100個(gè)堿基,,增加到現(xiàn)在的雙端(各)150個(gè)堿基,; 4、 最最重要的一點(diǎn),,還是測(cè)序成本的大幅下降,。Illumina把HiSeq X10平均到每單位(G)數(shù)據(jù)量的、測(cè)序試劑的成本做了大幅的下調(diào),。根據(jù)Illumina公司自己公布的價(jià)格來看,,測(cè)一個(gè)人全基因組90G的數(shù)據(jù),它所需要的建庫,、和測(cè)序的試劑成本是797個(gè)美金,。那么再加上一些人工、儀器折舊的直接成本,,這樣測(cè)一個(gè)人全基因90G的直接成本,,已經(jīng)降到1000美元以下。這就是它最大的吸引人的特點(diǎn),。 X10 的技術(shù)創(chuàng)新點(diǎn) X10這臺(tái)測(cè)序儀,,之所以可以把測(cè)一個(gè)全基因組的成本控制在1000美金以下,,是因?yàn)椴捎昧艘幌盗械募夹g(shù)改進(jìn)。 NanoWell技術(shù) 那么,,第一項(xiàng)改進(jìn)就是用了Nano Well技術(shù),。 Nano Well技術(shù)就是把原來測(cè)序芯片上平鋪那2種引物,做成小孔,。這些小孔整齊地呈蜂窩狀排列,,只在小孔的里面,才有長Cluster的引物,,小孔之間的那些表面,,是沒有這些引物的。 這樣的改進(jìn),,所帶來的好處: 第一個(gè)就是Cluster可以長得更密,。 因?yàn)楝F(xiàn)在只有在小孔中有長cluster的引物,所以cluster也只能長在小孔中,,原來這些cluster是在一個(gè)整個(gè)的表面上隨機(jī)長的,,那么必然會(huì)有些地方長得密,有些地方長得稀,。那么那些長得稀的地方,,它的表面實(shí)際上就是被浪費(fèi)掉了。現(xiàn)在把所有的孔都排列起來之后,,所有的表面都被充分地利用起來,。根據(jù)Illumina的官方數(shù)據(jù),X10的芯片上,,它的表面的cluster密度可以達(dá)到一個(gè)平方毫米里面有120萬個(gè)點(diǎn),,那么相對(duì)于HiSeq 2500每平方毫米60萬個(gè)光點(diǎn)來說,那么它(X10的cluster密度)整整高出了一倍,。這是第一個(gè)好處,。 第二個(gè)好處,就是它更有利于掃描儀對(duì)cluster的判讀,。 那么原來的這些Cluster,,長得就象天上的星星,是隨機(jī)長的,。這樣掃描儀要判斷Cluster,,就需要有一個(gè)橫向的對(duì)比,也就是一個(gè)cycle(循環(huán))里面,,4個(gè)光,、4幅照片之間的對(duì)比。還要做縱向的對(duì)比,,也就是不同cycle(循環(huán))之間,,要進(jìn)行光點(diǎn)的對(duì)比,。那么這樣,對(duì)掃描儀的掃描精度高求很高,,同時(shí),,又對(duì)服務(wù)器的計(jì)算,又提出了很高的通量要求?,F(xiàn)在改成所有的格子,,它的位置都是事先知道的,都是排整齊的,。那么,,對(duì)于光學(xué)掃描儀的掃描精確度的要求,就降低了,。然后,,它(掃描儀)的掃描速度,也可以提上去,。 掃描完之后,,對(duì)光點(diǎn)的空間位置的判斷也變得容易,那么計(jì)算,,也更加高效率了,。 RPA技術(shù)
那么X10上的第2項(xiàng)改進(jìn),就是它的簇生成的技術(shù),,從原來的橋式PCR技術(shù),,改到了新的RPA技術(shù)。 那么RPA技術(shù),,是recombinant polymerase amplification的首字母縮寫,。 那么RPA技術(shù),它是一種模擬自然條件下的DNA擴(kuò)增技術(shù),。 我們知道PCR是用熱來解鏈DNA的。那么RPA技術(shù)吶,,不再靠熱來解鏈DNA,。它是用解鏈酶、和DNA單鏈穩(wěn)定蛋白來把DNA的雙鏈打開,,然后再利用聚合酶來合成新DNA鏈,。 RPA技術(shù)帶來的第一個(gè)好處是,就是直接提升了小孔的利用效率,。 如果還是用橋式PCR,,那么在理想情況下,所有的孔當(dāng)中,,大概有約1/3的孔是單克隆的,;還有1/3的孔,,會(huì)是空克隆。還有1/3的孔,,是多克隆,。 那么空的孔、和多克隆的孔,,都是沒用的,。 那么空的孔,因?yàn)楫?dāng)中沒有數(shù)據(jù),。而多克隆的孔吶,,當(dāng)中的數(shù)據(jù)是亂的。所以,,這兩者都是沒用的,。只有單克隆的孔,是有用的,。 那么因?yàn)橄抻诓此煞植嫉倪@個(gè)原理,,所以,橋式PCR的方法來做克隆,,一般只有1/3的孔是有效的,。 那么現(xiàn)在采用了RPA技術(shù)之后,它得到這樣一個(gè)效果:就是這個(gè)測(cè)序的模扳,,和小孔當(dāng)中的引物的結(jié)合,,是一個(gè)比較慢的過程。但是它一旦結(jié)合了之后,,它就馬上發(fā)生擴(kuò)增,。那么經(jīng)過擴(kuò)增之后,馬上就把一個(gè)小孔給占滿,。 這樣,,這個(gè)小孔即使后面再有新的模板來,那么也無法發(fā)生新的擴(kuò)增,。因?yàn)橐呀?jīng)被占滿了,。那么,這個(gè)有點(diǎn)象地鐵上的搶座位,,誰先搶到了,,誰就坐。那么后來的人,,就沒位子了,,只能站著。 那么,,這個(gè)呢大大提高了小孔的利用效率,。那么根據(jù)Illumina官方的數(shù)據(jù),,它的孔的利用率從原來的1/3,提高到了現(xiàn)在的60%,、或者更高,。 那么,RPA技術(shù)還帶來了另外一項(xiàng)好處,,就是它對(duì)于加入的模板的濃度(變化)的耐受性,,更好了。那么現(xiàn)在它對(duì)加入的模板濃度(變化)的耐受性,,擴(kuò)大到了20%,,而以前,一般只有5~10%的耐受范圍,。 更快的光學(xué)掃描 X10的第3項(xiàng)技術(shù)改進(jìn),,就是用了更快的光學(xué)掃描儀。那么它的這個(gè)光學(xué)掃描速度,,是原來HiSeq 2000的光學(xué)掃描儀的掃描速度的6倍,。 對(duì)修飾dNTP更適應(yīng)的酶 X10的第4項(xiàng)重要改進(jìn),是用了新版的酶,。 因?yàn)樵贗llumina的測(cè)序過程中,,用的dNTP并不是天然的dNTP,而是經(jīng)過了修飾的dNTP,。那么這個(gè)dNTP,,主要有2個(gè)修飾。 第1個(gè)(修飾),,在3’端的羥基上,,它帶了一個(gè)疊氮基團(tuán),這個(gè)基團(tuán),,是可逆終止的化學(xué)基團(tuán),,那么這是第1個(gè)修飾。 那么第2個(gè)(修飾),,是在它的堿基上連出去一個(gè)長柄,,長柄上,再接一個(gè)熒光基團(tuán),。那么就是靠這個(gè)熒光基才的顏色,來判斷這是哪個(gè)堿基,。因?yàn)榻舆@個(gè)熒光基團(tuán),,所以它的堿基也不是個(gè)天然堿基,這是在dNTP上的修飾,。 第2個(gè),,在邊合成邊測(cè)序過程中生成的這根新的DNA鏈,,它不是個(gè)天然的鏈。因?yàn)槊總€(gè)循環(huán)結(jié)束之后,,我們要用化學(xué)方法把那個(gè)熒光基團(tuán)給切掉,,但是這個(gè)切斷的位置,并不是齊根的,。也就是說每次切斷之后,,實(shí)際上,在這個(gè)堿基上還會(huì)延出去一個(gè)柄,。所以,,這根新合成的這個(gè)DNA鏈,并不是一個(gè)天然的DNA鏈,。 那么這樣呢,,我們所用的這個(gè)聚合酶,它所面對(duì)的聚合的環(huán)境,、和條件并不是天然的條件,,它面對(duì)的是修飾過的dNTP,同時(shí)這個(gè)DNA鏈,,也是一個(gè)帶柄的這樣一個(gè)DNA鏈,。 那么,每次Illumina的測(cè)序技術(shù)有大的改進(jìn),,都會(huì)要求這個(gè)酶有大的,、新的突破,它所有的突破,,就是說這個(gè)酶能夠更好地耐受dNTP的修飾,,和耐受這個(gè)DNA上的那個(gè)多出來的柄。同時(shí),,這個(gè)酶還要有很高的聚合活性,。 那么我們看到,這次,,Illumina在HiSeq X10上,,它整個(gè)的化學(xué)速度提高了4倍,那么這個(gè)核心的提升,,就是這個(gè)酶的活性更高,。同時(shí),這個(gè)酶對(duì)這些修飾和變化的耐受性更好了,。這就是它的第4個(gè)重要改進(jìn),。 在綜合了上述幾項(xiàng)重要的技術(shù)改進(jìn)之后,X10測(cè)序儀就呈現(xiàn)出了今天我們所看到的這樣強(qiáng)大的測(cè)序能力。 X10所測(cè)出來人全基因組數(shù)據(jù)能為我們帶來的生物信息 在說完了X10的新技術(shù),、和強(qiáng)大功能之后,,我們?cè)賮碚f一下,它所測(cè)出來的數(shù)據(jù),,能給我們提供什么樣的生物信息,。 SNP 首先,我們就要說一下,,它所提供的SNP信息,。 所謂的SNP,就是單核苷酸多態(tài)性,,也就是Single Nucleotide Polymorphism,。這個(gè)SNP指的是一個(gè)堿基的替換,比如:A變成T,,或者G變成了T,。這些,都叫SNP,。 根據(jù)Macrogen公司所發(fā)表的30倍測(cè)序深度的X10的測(cè)序結(jié)果,,在整個(gè)基因組中,98%的區(qū)域可以10倍以上的覆蓋深度,。 有了10倍以上的覆蓋深度以后,,來確認(rèn)SNP信息,就相當(dāng)可靠了,。 同樣Macrogen公司宣布的X10的測(cè)序結(jié)果,,它所確認(rèn)的SNP信息,與用HiSeq 2000所確認(rèn)的SNP信息,,互相的比對(duì)確認(rèn)程度,,高達(dá)到95%以上。這個(gè),,也說明X10的測(cè)序結(jié)果的可靠性是非常之高的,。 那么在一般情況下,一個(gè)普通黃種人的基因組,,與國際公認(rèn)的,、標(biāo)準(zhǔn)的HG19這個(gè)參考基因組序列相比,會(huì)有350萬個(gè)左右的SNP,。那么這350萬個(gè)SNP當(dāng)中,,又有大概2萬個(gè)是落在外顯子上的。 而在這2萬個(gè)落在外顯子的SNP當(dāng)中,,非同義的SNP,,有大概9千個(gè),。所謂非同義的SNP,也就是說這些SNP是會(huì)引起蛋白質(zhì)的序列變化的,。 Indel X10測(cè)序數(shù)據(jù)所能提供的第2種生物信息,就是小片段的DNA插入,、和缺失信息,。我們通稱稱這種小片段的插入、缺失叫“Indel”,。Indel是“Insertion”和“Deletion”兩個(gè)英文詞的合并縮寫,。 我們通常所說的Indel是指小于50個(gè)BP以內(nèi)的微小的插入、和缺失突變,。 那么Indel如果一旦落在外顯子區(qū)域,,它是一定會(huì)引起蛋白質(zhì)序列變化的。如果它引起的是移碼突變,,那么在移碼位點(diǎn)之后,,所有氨基酸序列就和原來的序列完全不同了。 如果它(基因)還能保持原來的閱讀框,,也會(huì)引起蛋白質(zhì)中若干個(gè)氨基酸的增或者減,。 一個(gè)普通黃種人的基因組和標(biāo)準(zhǔn)的HG19參考基因組相比,約有50萬個(gè)Indel,。其中落在外顯子上的,,大概在1千個(gè)左右。 SV X10測(cè)序數(shù)據(jù)所能提供的第3種信息,,是基因組結(jié)構(gòu)變異信息,。我們通常稱之為SV信息,也就是:Structure Variation信息,。 它是指染色體的結(jié)構(gòu)變異,,常見的染色體結(jié)構(gòu)變異,有以下幾種: 1,、 染色體內(nèi)部的位移 2,、 染色體之間的位移 3、 大片段的缺失 4,、 大片段的插入 5,、 大片倍的加倍 6、 大片段的倒位 CNV
X10測(cè)序(數(shù)據(jù))所提供的第4種信息,,是拷貝數(shù)變異信息,。也就是CNV信息,Copy Number Variation信息,。 它是指染色體片段的拷貝數(shù)變異,。它包括拷貝數(shù)增加,也包括拷貝數(shù)減少,。 實(shí)際上,,CNV是和結(jié)構(gòu)變異(也就是SV)緊密相關(guān)的。 結(jié)構(gòu)變異中的大片段的增加,、和大片段的缺失,,會(huì)直接導(dǎo)致CNV的變化。 人全基因組測(cè)序,,它對(duì)CNV是高度敏感的,。這兒是一張圖,來告訴我們:在全基因組測(cè)序當(dāng)中,,這些大片段的缺失和增加是可以被非常明確地給測(cè)出來的,。 測(cè)序深度 這里,我們要說明一下,,我們所說的,,測(cè)90個(gè)G,或者測(cè)30倍的深度,,對(duì)于測(cè)germline變異,,也就是我們通常所說的“娘胎里帶來的變異”,一般來說是夠了,。 因?yàn)橐粋€(gè)人的基因,,一半來自于爸爸,還有一半來自于媽媽,。那么這兩半,,基本上是各占一半,所以,,一個(gè)基因2個(gè)拷貝,。每個(gè)拷貝,如果能夠被測(cè)到5倍或者10倍,,實(shí)際上做基因分型,,是夠了。 那么如果要測(cè)腫瘤,,那是不夠的,。因?yàn)槟[瘤的突變,是Somatic突變,,也就是我們說的“體細(xì)胞突變”,。 因?yàn)槟[瘤細(xì)胞是和正常細(xì)胞混著長的,那么在腫瘤組織里面,,正常細(xì)胞往往還占了大多數(shù),,腫瘤細(xì)胞往往只占一半,、甚至更少一點(diǎn)。那么腫瘤細(xì)胞中的一個(gè)基因的2個(gè)拷貝,,往往是1個(gè)發(fā)生了某種突變,。所以,這個(gè)情況下,,這個(gè)突變的基因,,在整個(gè)這一群細(xì)胞當(dāng)中占的比例會(huì)低于25%,甚至更低,。甚至只有百分之幾。 如果,,這時(shí)候,,測(cè)序只測(cè)30倍,是比較難于測(cè)到這些低頻突變的,。 那么為了要測(cè)到這些低頻突變,,這就要求我們對(duì)腫瘤要加大它的測(cè)序深度。那么,,目前科研人員一般會(huì)對(duì)實(shí)體腫瘤進(jìn)行50倍到100倍深度的(全基因組)測(cè)序,。 同時(shí),還會(huì)測(cè)一下病人血液中白細(xì)胞的基因組DNA(一般是測(cè)30X,,90G),。那么,把這個(gè)白細(xì)胞的基因DNA作為正常背景,,來做對(duì)照,。然后,把腫瘤測(cè)出來的序列,,和正常的對(duì)照,,進(jìn)行比對(duì)。來找出當(dāng)中的突變,。 還有一些科學(xué)家,,會(huì)做另外一個(gè)選擇,他會(huì)對(duì)腫瘤和血液白細(xì)胞的DNA,,都做30X的(人全基因組)測(cè)序(目的是得到腫瘤CNV,、SV信息),但是,,他們會(huì)對(duì)腫瘤加測(cè)一個(gè)100X或者200X的外顯子測(cè)序,。 那么有了這些高深度的測(cè)序之后,我們才有比較大的把握,,來捕捉到腫瘤中的那些低頻的基因突變,。 關(guān)于這4種突變,,1、點(diǎn)突變,;2,、插入、缺失突變,;3,、結(jié)構(gòu)變異;4,、拷貝數(shù)變異,,與腫瘤的發(fā)生有什么關(guān)系,大家可以在我的微信公眾號(hào)【陳巍學(xué)基因】中回復(fù)“視頻4”三個(gè)字,,就可以看到我之前給大家做的,,關(guān)于這方面的介紹視頻了。 6. illumina 公司的Nano Well 測(cè)序技術(shù) (Illumina公司)專利的微流體芯片是新的創(chuàng)新測(cè)序技術(shù),。極大地增加了數(shù)據(jù)的產(chǎn)量,、和通量。讓我們來仔細(xì)看一下此項(xiàng)新技術(shù),。 數(shù)十億個(gè)納米級(jí)的小孔按預(yù)先設(shè)定好的方式,,整齊地排列。保證了DNA簇有固定的大小,、和空間位置,,使高密度芯片同時(shí)又有精確分辨率成為可能。 好處是數(shù)據(jù)產(chǎn)量大,、有更多序列條數(shù),、和更快的儀器運(yùn)行速度。 現(xiàn)在,,你可以在更短的時(shí)間內(nèi)處理更多樣本,。 這個(gè)流式芯片是用數(shù)十億個(gè)有專利的Nano Well小孔,在玻璃基質(zhì)上制作出來的,。 在流式芯片生產(chǎn)好之后,,只有在小孔中,才種有DNA引物,。 在生成DNA簇的時(shí)候,,新的、獨(dú)家的擴(kuò)增技術(shù),,保證一個(gè)小孔中,,只有一個(gè)DNA模板,會(huì)與(小孔中的引物)結(jié)合,,并形成簇,。 當(dāng)DNA模板與種子引物相結(jié)合時(shí),,它會(huì)立即快速擴(kuò)增。這種快速的擴(kuò)增,,能防止別的DNA模板在同一個(gè)小孔中,,形成“多克隆”。
這就保證了,,在每一Nano Well小孔中,,只形成來自一個(gè)模板的單克隆簇,這樣做的結(jié)果,,就是在大部分的小孔中,,每個(gè)小孔都是來自于一個(gè)模板形成的DNA簇,當(dāng)這種單模板簇形成好之后,,流式芯片就可以做測(cè)序了,。 測(cè)序過程是用行業(yè)內(nèi)公認(rèn)的、領(lǐng)先的,、邊合成邊測(cè)序試劑來進(jìn)行。 我們承諾:開發(fā)創(chuàng)新的測(cè)序解決方案,,讓突破性的發(fā)現(xiàn)成為可能,,并釋放基因組的(巨大)力量。 7.第一代DNA測(cè)序 本期節(jié)目,,我們會(huì)談一下:第一代DNA測(cè)序,。 第一代測(cè)序,又稱“Sanger”法測(cè)序,,或者叫“雙脫氧法”測(cè)序,。 這是由美國生物化學(xué)家Frederick Sanger先生發(fā)明的,Sanger先生也因?yàn)榇隧?xiàng)發(fā)明,,而獲得諾貝爾獎(jiǎng),。 ABI公司(現(xiàn)為ThermoFisher的一部分)在Sanger先生的雙脫氧法的基礎(chǔ)上,進(jìn)一步開發(fā)出,熒光標(biāo)記的雙脫氧法測(cè)序試劑盒,。也就是分子生物學(xué)界鼎鼎大名的BigDye 試劑,。 接著,(ABI)再結(jié)合毛細(xì)管電泳,,生產(chǎn)出了“ABI 3730”和“ABI 3500”等非常成功的測(cè)序儀,。 到目前為止,ABI 3730,、ABI 3500等測(cè)序儀和BigDye測(cè)序試劑,,都是業(yè)內(nèi)公認(rèn)的一代測(cè)序的金標(biāo)準(zhǔn)。 今天,,我們就以BigDye試劑為主線,,來介紹一下,,第一代測(cè)序方法的原理。 雙脫氧法測(cè)序的第一個(gè)核心技術(shù):就是在用DNA聚合酶合成DNA鏈的過程當(dāng)中,,摻入雙脫氧核苷酸,,也就是“ddNTP”,英文叫“Dideoxynucleotides”,。 天然的DNA的組成元件是單脫氧核苷酸,,也就是dNTP,deoxynucleotides,。在其糖基的5’位,、和3’位,各有一個(gè)羥基,。5'位的羥基,,連到上游的磷酸基團(tuán);3'位的羥基,,連到下游的磷酸基團(tuán),。這樣不斷重復(fù),就形成了DNA的一條骨架鏈,。 這就象一群人,,其中每個(gè)人都伸出雙手,左,、右手,,都各拉住一個(gè)伙伴,這樣,,就形成了一條長長的鏈,。 Sanger的方法,就是用化學(xué)合成的辦法合成出3’位沒有羥基的核苷酸,,也就是雙脫氧核苷酸(ddNTP),。它比單脫氧核苷酸少了一個(gè)3’位的羥基,只保留了5'位的羥基,。 它就象一個(gè)只有左手,、但沒有右手的獨(dú)臂人,在聚合反應(yīng)當(dāng)中,,它可以被聚合酶結(jié)合到DNA鏈當(dāng)中去,。因?yàn)樗绷?'位的羥基,所以它就沒有辦法和下一個(gè)dNTP結(jié)合了,。DNA鏈的聚合反應(yīng)也就此終止,,不再往下延伸了。
這樣,,在DNA鏈聚合過程當(dāng)中,,通過摻有ddNTP的dNTP進(jìn)行聚合反應(yīng),,得到一系列不同長短的DNA片段。每個(gè)片段的3’位末端,,都是一個(gè)雙脫氧的核苷酸殘基,。并且這個(gè)核苷酸的殘基,是與模板上對(duì)應(yīng)位置的堿基互補(bǔ)的,。 接下來,,我們來說BigDye試劑的創(chuàng)新點(diǎn)。 它在雙脫氧核苷酸(ddNTP)的基礎(chǔ)上,,再在堿基上,,加上熒光發(fā)光基團(tuán),并且,,A,、G、C,、T四種堿基各標(biāo)一種顏色的發(fā)光基團(tuán),。 有了不同顏色的熒光發(fā)光基團(tuán)做標(biāo)簽,在最后的識(shí)別過程當(dāng)中,,就可以方便地通過顏色,,就識(shí)別出這末端的雙脫氧核苷酸堿基是哪種堿基。 在實(shí)際的測(cè)序中,,先在反應(yīng)體系當(dāng)中,加入要測(cè)序的DNA模板,。一般是經(jīng)過純化的質(zhì)粒,,或者經(jīng)過純化好的PCR擴(kuò)增片段。 再加入與測(cè)序起始位置已知序列相互補(bǔ)的測(cè)序引物DNA,,也就是primer,。測(cè)序Primer在這里起的作用,是與模板的特定序列位置相結(jié)合,,引導(dǎo)聚合反應(yīng)發(fā)生,。并且,它還可以確保:DNA的聚合反應(yīng),,是從已知的,、確定的起點(diǎn)開始。 然后,,加入BigDye試劑,,進(jìn)行反應(yīng)。 BigDye試劑當(dāng)中,,包括了剛才我們所說的“四種熒光標(biāo)記的雙脫氧核苷酸”,、dNTP,、和DNA聚合酶。另外,,還包含了鎂離子,、PH緩沖液等。 反應(yīng)過程當(dāng)中,,聚合酶從Primer處開始進(jìn)行聚合反應(yīng),。熒光標(biāo)記的雙脫氧核苷酸和天然dNTP,遵照堿基互補(bǔ)的原則,,延著模板,,一個(gè)、一個(gè)地被聚合到新合成的DNA鏈上去,。 每聚合一個(gè)新的堿基,,都有2種可能。 第一種可能,,是結(jié)合進(jìn)了一個(gè)正常的,、與模板互補(bǔ)的dNTP。這時(shí)候,,聚合反應(yīng)就可以續(xù)繼進(jìn)行下去,。 另外一種可能,是結(jié)合進(jìn)一個(gè)與模板互補(bǔ),,但是雙脫氧的,、熒光標(biāo)記的ddNTP。當(dāng)DNA鏈中被結(jié)合進(jìn)了一個(gè)ddNTP的時(shí)候,,鏈的延伸就被終止,。同時(shí)BigDye的熒光基團(tuán)也就被加到這個(gè)DNA鏈的3'位末端。并且這個(gè)熒光基團(tuán)的顏色,,與模板對(duì)應(yīng)位置的堿基種類,,有對(duì)應(yīng)的關(guān)系。 整個(gè)反應(yīng)過程當(dāng)中,,產(chǎn)生了一系列,、長長短短的、分別帶有熒光標(biāo)簽的DNA片段混合物,。 接著,,這些DNA片段的混合物,經(jīng)過一個(gè)簡(jiǎn)單的純化,,去掉游離的熒光ddNTP單核苷酸,,留下有一定長度的DNA片段,就可以上機(jī)測(cè)序了。 上機(jī)測(cè)序過程當(dāng)中,,先在一根長長的,、中空的玻璃毛細(xì)管當(dāng)中,注入丙烯酰胺溶液,。接著用紫外光照射丙烯酰胺溶液,,丙烯酰胺在紫外線的電離作用下,發(fā)生聚合反應(yīng),,變成聚丙烯酰胺凝膠,。 在電場(chǎng)條件下,聚丙烯酰胺凝膠,,對(duì)于在其中電泳的核酸,,有分離作用。短的片段,,在聚丙烯酰胺凝膠當(dāng)中電泳得快,;長的DNA片段,則電泳得慢,。 然后,,把DNA片段混合物,加到有聚丙烯酰胺凝膠的毛細(xì)管的一端,。在毛細(xì)管的兩端,,加上高電壓。DNA片段就在電場(chǎng)的作用下,,從負(fù)極向正極電泳,。 在毛細(xì)管的正極的末端,用激光進(jìn)行照射,,并用分光的光學(xué)傳感器把不同顏色的熒光強(qiáng)度經(jīng)記錄下來,。 每個(gè)DNA片段,在通過激光的掃描點(diǎn)時(shí),,它上面帶有的熒光基團(tuán)就會(huì)發(fā)出特定顏色的熒光,。 因?yàn)樵谥暗木酆戏磻?yīng)過程當(dāng)中,,聚合反應(yīng)的起點(diǎn)都是從特定的引物位置開始的,,所以越先電泳到達(dá)激光掃描點(diǎn)的DNA片段,就是越短的片段,。它的聚合終止位置,,離聚合的起始位置就越近。它所產(chǎn)生的熒光顏色,,就反映了它3’端末端的那個(gè)堿基是A,、C、G、T當(dāng)中的哪一種,。 那么反之,,越慢電泳到達(dá)激光掃描點(diǎn)的DNA片段,就是越長的片段,。它的終止位點(diǎn),,就離引物的起始位置越遠(yuǎn)。 然后,,我們就得到了這樣一種有四種顏色的圖,。 圖的橫軸是電泳的時(shí)間;縱軸是熒光的強(qiáng)度,;4種顏色,,則對(duì)應(yīng)了4種堿基。 那么橫軸既可以看作是電泳的時(shí)間,,也可以看作是堿基的先后次序,。 延著橫軸,我們可以根據(jù)峰的顏色,,判斷出,,依次是哪種堿基。 峰越高,、越尖,,與別的峰的交錯(cuò)越少,則這個(gè)堿基判讀準(zhǔn)確性越好,。 上述,,就是ABI公司BigDye測(cè)序方法的基本原理。 目前,,用ABI 3500測(cè)序儀,,一般可以測(cè)到850個(gè)堿基(長度),或者更長的片段的堿基序列,。用ABI 3730(測(cè)序儀),,一般可以測(cè)到700個(gè)堿基(長度),或者更長片段的序列,。 以上是本期節(jié)目的全部內(nèi)容,。謝謝您的收看 |
|