概覽 illumina是當(dāng)前最熱的二代測序公司,,它測序的特點(diǎn)是使用帶有可以切除的疊氮基和熒光標(biāo)記的dNTP進(jìn)行合成測序,由于dNTP上的疊氮基的存在,,每個(gè)鏈每次測序循環(huán)只會合成一個(gè)堿基,,由于A、C,、G,、T四種堿基所攜帶的熒光各不相同,,因此讀取此時(shí)的熒光就可以得知此時(shí)的堿基類型,重復(fù)這個(gè)過程,,所有堿基序列就可以完成測定了,。 illumina測序的工作流程 建庫->橋式PCR擴(kuò)增->Read1測序->Read2測序->雙端測序(Read3) 1. 建庫 使用超聲將DNA樣品打碎成小片段,接著T4酶修補(bǔ)末端,, klenow酶在3‘末端加A,,然后DNA連接酶將測序引物和DNA片段連接,即制成測序文庫,。 如圖所示,,即是建好的文庫片段。其中a與e分別與flowcell中的P5與P7互補(bǔ)配對,。b-c是Read1引物結(jié)合位點(diǎn),,c'-d是Read2結(jié)合位點(diǎn),用于讀取barcode,,多樣品在同一lane測定時(shí)才需要檢測,d'-c是Read3結(jié)合位點(diǎn),,雙端測序時(shí)才會用到,。i是index,,也叫barcode,。(c與c'互補(bǔ)配對,,d與d'互補(bǔ)配對) 2. 橋式PCR擴(kuò)增 建好的文庫,會加入到flowcell的lane里面進(jìn)行橋式PCR擴(kuò)增,。 > flowcell是什么 > > illumina測序儀中實(shí)際進(jìn)行的測序反應(yīng)位于flowcell(流動池)中,,如圖就是一個(gè)典型的illumina flowcell,一個(gè)flowcell有8條lane(通道),,每個(gè)lane內(nèi)表面共價(jià)結(jié)合了大量的P5、P7短序列(你可以將其想象為一個(gè)牙刷,,一個(gè)平面上有大量的“短發(fā)”狀序列),,P5與P7將會用于結(jié)合構(gòu)建好的文庫片段,。 * 模板結(jié)合,,并合成第一鏈 將文庫加入到一個(gè)lane中去,,由于文庫兩端的序列是和lane內(nèi)的P5和P7互補(bǔ)的,因此文庫片段會和lane內(nèi)表面互補(bǔ)結(jié)合,,如果此時(shí)加入dNTP和酶,調(diào)至延伸溫度,,那么就會開始進(jìn)行第一鏈合成,。 * 解鏈,第二鏈合成 加入堿液,,解開雙鏈,,并使用液流沖洗lane,由于新合成鏈末端的P5和P7已經(jīng)共價(jià)結(jié)合在lane上,,所以新合成的鏈會留下來。接著使用中性溶液中和lane內(nèi)環(huán)境,,再降至退火溫度,那么新鏈的游離端就會和lane上的其他P5或P7進(jìn)行堿基配對結(jié)合,,形成一個(gè)橋狀,如圖所示,。 此時(shí)如果加入dNTP和酶,并調(diào)至延伸溫度,,那么就會開始進(jìn)行第二鏈合成,。 * 多次PCR擴(kuò)增 經(jīng)過多次循環(huán)之后,那么DNA鏈的數(shù)量,,就會以指數(shù)方式增長,,形成如圖中所示的大量的DNA簇。 * 制備DNA單鏈 DNA鏈擴(kuò)增達(dá)到要求之后,,將其中一個(gè)鏈切斷(P5端),堿液變性并沖走,剩余即是可以用于后續(xù)測序的單鏈DNA了,,并使用中性液中和lane內(nèi)環(huán)境,。 3. Read1測序 * 加入特殊dNTP和酶合成第一個(gè)堿基 DNA單鏈制備完成之后,加入Read1測序引物與DNA單鏈雜交,,然后再加入特殊制備的dNTP和聚合酶即可開始測序反應(yīng),。這里的dNTP有兩個(gè)特點(diǎn):3‘端被疊氮基封閉了、攜帶一個(gè)熒光基團(tuán),。因此每次反應(yīng)只能延伸一個(gè)堿基,,接著讀取此時(shí)的熒光就可以得知DNA鏈上的堿基。 * 切去疊氮基和熒光基團(tuán),,開始第二輪測序 接著將疊氮基和熒光基團(tuán)切去,,液流沖走,重新加入熒光標(biāo)記的疊氮dNTP和酶,,掃描此時(shí)的熒光,,測出第二個(gè)堿基是哪一種。 重復(fù)這個(gè)過程,,即可將全部的DNA序列測定,。 4. Read2(barcode)測序 由于illumina測儀器的測序能力太強(qiáng)了,往往單個(gè)lane就足夠測很多組樣品數(shù)據(jù),,因此為了充分使用測序儀,,會同時(shí)在單個(gè)lane里面測定多組樣品,而barcode(又叫index)就是用來區(qū)分不同的樣品的,。 barcode一般位于文庫片段的P7端,,在P7和樣品DNA片段之間,illumina推薦使用12個(gè)barcode,,長度6個(gè)堿基,。 * 去除Read1鏈 在對barcode測序之前,需要加入堿液,,先將剛才合成的Read1新鏈解開,,然后液流沖走,使用中性液中和lane內(nèi)環(huán)境,。 * 繼續(xù)測序6-8個(gè)堿基 接著加入Read2引物,,繼續(xù)測序6-8個(gè)堿基即可。 5. 雙端測序 在讀完Read1之后,,可以選擇對此時(shí)的DNA序列反向再讀一次,,從而在單次制備文庫的情況下,將illumina的有效 測序長度增加了一倍,。 * 重新合成第一鏈 在Read3測序之前,,先加入dNTP和酶,,再次合成第一鏈(同Read1序列相同),圖中所示黑色鏈即是新合成鏈,。 * 切除并去除Read1模板鏈 然后切割位P7端,,堿液沖洗將此時(shí)的模板鏈去除。如圖中所示,,灰色鏈即是Read1的模板鏈,,已將P7端切開。 * 開始Read3測序 然后加入Read3引物,,反方向再測序一次,,測序過程同Read1類似。如圖中所示,,藍(lán)色鏈為Read3的引物及Read3序列,。 > Read2與Read3的引物位置一般是重合的,堿基恰好互補(bǔ),,方向相反,,見本文圖一的d-c'與c-d'。 ### illumina測序質(zhì)量控制 堿基識別 illumina測序的flowcell其實(shí)是一個(gè)非常精密的裝置,,它的每個(gè)lane里面分為上下表面,,每個(gè)表面上有3個(gè)swath,每個(gè)swath有16個(gè)Tile,,每個(gè)Tile在掃描的時(shí)侯,,會根據(jù)4種顏色,產(chǎn)生4張照片,,每張照片分別代表A,、C、G,、T四種堿基的信息,。 然后數(shù)據(jù)處理軟件會通過對4張照片上的亮點(diǎn)相互比對,找到最合適的,、匹配的位置,,并把4種顏色的4張照片,組合在一起,,變成一張有4種顏色的彩色照片(如圖所示),。 每一個(gè)循環(huán)會生成一個(gè)組合彩色圖片,每一個(gè)光點(diǎn)就是一個(gè)堿基信息,,整合全部測序循環(huán)的堿基信息之后,,就會得出一個(gè)DNA的Read。 Phasing和Prephasing 在illumina測序步驟的橋式PCR之后,,會生成大量的DNA簇,,這些簇內(nèi)的DNA序列都是一樣的,。每個(gè)簇大約有5k-10k個(gè)DNA鏈,理想狀態(tài)下,,每一次測序循環(huán)之后,,每一簇的幾千個(gè)DNA會同時(shí)增長一個(gè)堿基。 但是實(shí)際上總有少量的DNA分子沒有延長,,這種現(xiàn)象就是Phasing。Phasing一般和酶活不足有關(guān),。 而有些時(shí)候,,一個(gè)DNA鏈有可能延長了2個(gè)堿基,而這種現(xiàn)象就叫做Prephasing,。Prephasing是由于疊氮dNTP的疊氮基丟失所致,。 > 在測序時(shí),從第12個(gè)循環(huán)開始,,就要把Phasing和Prephasing的影響納入考慮,。 Chastity 和 Pass filter 為了對光點(diǎn)當(dāng)中熒光素的純粹程度進(jìn)行描述,Illumina公司定義了個(gè)標(biāo)準(zhǔn),,叫“chastity”,,Chastity的定義就是濃度最高的那個(gè)熒光素的量,去除以“它自己 + 排名第二的熒光素的量的和”,。Chastity大于0.6代表此堿基可信度較高,,是一個(gè)“好堿基”。 由于橋式PCR生成的大量DNA簇并非都是單克隆的DNA,,在堿基識別時(shí),,就很有可能會在雜合DNA克隆的DNA簇上產(chǎn)生誤讀。而Chastity的生物學(xué)意義是指的去除那些雜合的DNA簇,,只保留單克隆DNA簇以保證測序質(zhì)量,。 illumina對每個(gè)read的質(zhì)量都要做一個(gè)檢驗(yàn),這個(gè)檢驗(yàn)就叫“pass filter”檢驗(yàn),。檢驗(yàn)的標(biāo)準(zhǔn),,是看前25個(gè)堿基當(dāng)中,有幾個(gè)是“壞堿基”,。如果只有一個(gè)或者沒有壞堿基,,則Pass filter就通過;如果有超過一個(gè)以上的壞堿基,,Pass filter就不能通過,。 Quality Score 一個(gè)堿基的Quality Score,也就是這個(gè)堿基的質(zhì)量分?jǐn)?shù)(Q值),。它是通過這個(gè)堿基被誤判的可能性,,換算出以10為底的對數(shù),,再乘以“-10”得到的一個(gè)數(shù)字。 以Q30為例,,Q30代表堿基可信度為99.9%,,那么其被誤判的幾率就是0.1%,于是-10*lg(0.1%)=30,。也就是說,,如果一個(gè)堿基測序的可信度為99.9%,就代表其達(dá)到了Q30質(zhì)量標(biāo)準(zhǔn),。 那么,,所謂的“Q30比例”,就是在全部PF數(shù)據(jù)當(dāng)中,,達(dá)到或者超過Q30質(zhì)量標(biāo)準(zhǔn)以上的數(shù)據(jù)占所有PF數(shù)據(jù)的比例,。Q30比例,可以表征一次測序過程的質(zhì)量好壞,。 參考資料 \1. 【陳巍學(xué)基因】視頻1:Illumina測序化學(xué)原理 \2. 【陳巍學(xué)基因】視頻2:HiSeq測序儀工作原理 |
|