illumina測序的化學(xué)原理

萌小芊 2018-03-19

展開全文

概覽

illumina是當(dāng)前最熱的二代測序公司,，它測序的特點(diǎn)是使用帶有可以切除的疊氮基和熒光標(biāo)記的dNTP進(jìn)行合成測序，由于dNTP上的疊氮基的存在,，每個(gè)鏈每次測序循環(huán)只會合成一個(gè)堿基,，由于A、C,、G,、T四種堿基所攜帶的熒光各不相同,，因此讀取此時(shí)的熒光就可以得知此時(shí)的堿基類型，重復(fù)這個(gè)過程,，所有堿基序列就可以完成測定了,。

illumina測序的工作流程

建庫->橋式PCR擴(kuò)增->Read1測序->Read2測序->雙端測序（Read3）

1. 建庫

使用超聲將DNA樣品打碎成小片段，接著T4酶修補(bǔ)末端,， klenow酶在3‘末端加A,，然后DNA連接酶將測序引物和DNA片段連接，即制成測序文庫,。

如圖所示,，即是建好的文庫片段。其中a與e分別與flowcell中的P5與P7互補(bǔ)配對,。b-c是Read1引物結(jié)合位點(diǎn),，c'-d是Read2結(jié)合位點(diǎn)，用于讀取barcode,，多樣品在同一lane測定時(shí)才需要檢測，d'-c是Read3結(jié)合位點(diǎn),，雙端測序時(shí)才會用到,。i是index,，也叫barcode,。（c與c'互補(bǔ)配對,，d與d'互補(bǔ)配對）

2. 橋式PCR擴(kuò)增

建好的文庫，會加入到flowcell的lane里面進(jìn)行橋式PCR擴(kuò)增,。

> flowcell是什么

> illumina測序儀中實(shí)際進(jìn)行的測序反應(yīng)位于flowcell（流動池）中,，如圖就是一個(gè)典型的illumina flowcell，一個(gè)flowcell有8條lane（通道）,，每個(gè)lane內(nèi)表面共價(jià)結(jié)合了大量的P5、P7短序列（你可以將其想象為一個(gè)牙刷,，一個(gè)平面上有大量的“短發(fā)”狀序列）,，P5與P7將會用于結(jié)合構(gòu)建好的文庫片段,。

* 模板結(jié)合,，并合成第一鏈 將文庫加入到一個(gè)lane中去,，由于文庫兩端的序列是和lane內(nèi)的P5和P7互補(bǔ)的，因此文庫片段會和lane內(nèi)表面互補(bǔ)結(jié)合,，如果此時(shí)加入dNTP和酶，調(diào)至延伸溫度,，那么就會開始進(jìn)行第一鏈合成,。

* 解鏈，第二鏈合成 加入堿液,，解開雙鏈,，并使用液流沖洗lane，由于新合成鏈末端的P5和P7已經(jīng)共價(jià)結(jié)合在lane上,，所以新合成的鏈會留下來。接著使用中性溶液中和lane內(nèi)環(huán)境,，再降至退火溫度，那么新鏈的游離端就會和lane上的其他P5或P7進(jìn)行堿基配對結(jié)合,，形成一個(gè)橋狀，如圖所示,。

此時(shí)如果加入dNTP和酶，并調(diào)至延伸溫度,，那么就會開始進(jìn)行第二鏈合成,。

* 多次PCR擴(kuò)增 經(jīng)過多次循環(huán)之后，那么DNA鏈的數(shù)量,，就會以指數(shù)方式增長,，形成如圖中所示的大量的DNA簇。

* 制備DNA單鏈 DNA鏈擴(kuò)增達(dá)到要求之后,，將其中一個(gè)鏈切斷（P5端），堿液變性并沖走，剩余即是可以用于后續(xù)測序的單鏈DNA了,，并使用中性液中和lane內(nèi)環(huán)境,。

3. Read1測序

* 加入特殊dNTP和酶合成第一個(gè)堿基 DNA單鏈制備完成之后，加入Read1測序引物與DNA單鏈雜交,，然后再加入特殊制備的dNTP和聚合酶即可開始測序反應(yīng),。這里的dNTP有兩個(gè)特點(diǎn)：3‘端被疊氮基封閉了、攜帶一個(gè)熒光基團(tuán),。因此每次反應(yīng)只能延伸一個(gè)堿基,，接著讀取此時(shí)的熒光就可以得知DNA鏈上的堿基。

* 切去疊氮基和熒光基團(tuán),，開始第二輪測序 接著將疊氮基和熒光基團(tuán)切去,，液流沖走，重新加入熒光標(biāo)記的疊氮dNTP和酶,，掃描此時(shí)的熒光,，測出第二個(gè)堿基是哪一種。

重復(fù)這個(gè)過程,，即可將全部的DNA序列測定,。

4. Read2（barcode）測序

由于illumina測儀器的測序能力太強(qiáng)了，往往單個(gè)lane就足夠測很多組樣品數(shù)據(jù),，因此為了充分使用測序儀,，會同時(shí)在單個(gè)lane里面測定多組樣品，而barcode（又叫index）就是用來區(qū)分不同的樣品的,。

barcode一般位于文庫片段的P7端,，在P7和樣品DNA片段之間，illumina推薦使用12個(gè)barcode,，長度6個(gè)堿基,。

* 去除Read1鏈 在對barcode測序之前，需要加入堿液,，先將剛才合成的Read1新鏈解開,，然后液流沖走，使用中性液中和lane內(nèi)環(huán)境,。

* 繼續(xù)測序6-8個(gè)堿基 接著加入Read2引物,，繼續(xù)測序6-8個(gè)堿基即可。

5. 雙端測序

在讀完Read1之后,，可以選擇對此時(shí)的DNA序列反向再讀一次,，從而在單次制備文庫的情況下，將illumina的有效測序長度增加了一倍,。

* 重新合成第一鏈 在Read3測序之前,，先加入dNTP和酶,，再次合成第一鏈（同Read1序列相同），圖中所示黑色鏈即是新合成鏈,。

* 切除并去除Read1模板鏈 然后切割位P7端,，堿液沖洗將此時(shí)的模板鏈去除。如圖中所示,，灰色鏈即是Read1的模板鏈,，已將P7端切開。

* 開始Read3測序 然后加入Read3引物,，反方向再測序一次,，測序過程同Read1類似。如圖中所示,，藍(lán)色鏈為Read3的引物及Read3序列,。

> Read2與Read3的引物位置一般是重合的，堿基恰好互補(bǔ),，方向相反,，見本文圖一的d-c'與c-d'。

### illumina測序質(zhì)量控制

堿基識別

illumina測序的flowcell其實(shí)是一個(gè)非常精密的裝置,，它的每個(gè)lane里面分為上下表面,，每個(gè)表面上有3個(gè)swath，每個(gè)swath有16個(gè)Tile,，每個(gè)Tile在掃描的時(shí)侯,，會根據(jù)4種顏色，產(chǎn)生4張照片,，每張照片分別代表A,、C、G,、T四種堿基的信息,。

然后數(shù)據(jù)處理軟件會通過對4張照片上的亮點(diǎn)相互比對，找到最合適的,、匹配的位置,，并把4種顏色的4張照片，組合在一起,，變成一張有4種顏色的彩色照片（如圖所示）,。

每一個(gè)循環(huán)會生成一個(gè)組合彩色圖片，每一個(gè)光點(diǎn)就是一個(gè)堿基信息,，整合全部測序循環(huán)的堿基信息之后,，就會得出一個(gè)DNA的Read。

Phasing和Prephasing

在illumina測序步驟的橋式PCR之后,，會生成大量的DNA簇,，這些簇內(nèi)的DNA序列都是一樣的,。每個(gè)簇大約有5k-10k個(gè)DNA鏈，理想狀態(tài)下,，每一次測序循環(huán)之后,，每一簇的幾千個(gè)DNA會同時(shí)增長一個(gè)堿基。

但是實(shí)際上總有少量的DNA分子沒有延長,，這種現(xiàn)象就是Phasing。Phasing一般和酶活不足有關(guān),。

而有些時(shí)候,，一個(gè)DNA鏈有可能延長了2個(gè)堿基，而這種現(xiàn)象就叫做Prephasing,。Prephasing是由于疊氮dNTP的疊氮基丟失所致,。

> 在測序時(shí)，從第12個(gè)循環(huán)開始,，就要把Phasing和Prephasing的影響納入考慮,。

Chastity 和 Pass filter

為了對光點(diǎn)當(dāng)中熒光素的純粹程度進(jìn)行描述，Illumina公司定義了個(gè)標(biāo)準(zhǔn),，叫“chastity”,，Chastity的定義就是濃度最高的那個(gè)熒光素的量，去除以“它自己 + 排名第二的熒光素的量的和”,。Chastity大于0.6代表此堿基可信度較高,，是一個(gè)“好堿基”。

由于橋式PCR生成的大量DNA簇并非都是單克隆的DNA,，在堿基識別時(shí),，就很有可能會在雜合DNA克隆的DNA簇上產(chǎn)生誤讀。而Chastity的生物學(xué)意義是指的去除那些雜合的DNA簇,，只保留單克隆DNA簇以保證測序質(zhì)量,。

illumina對每個(gè)read的質(zhì)量都要做一個(gè)檢驗(yàn)，這個(gè)檢驗(yàn)就叫“pass filter”檢驗(yàn),。檢驗(yàn)的標(biāo)準(zhǔn),，是看前25個(gè)堿基當(dāng)中，有幾個(gè)是“壞堿基”,。如果只有一個(gè)或者沒有壞堿基,，則Pass filter就通過；如果有超過一個(gè)以上的壞堿基,，Pass filter就不能通過,。

Quality Score

一個(gè)堿基的Quality Score，也就是這個(gè)堿基的質(zhì)量分?jǐn)?shù)（Q值）,。它是通過這個(gè)堿基被誤判的可能性,，換算出以10為底的對數(shù),，再乘以“-10”得到的一個(gè)數(shù)字。

以Q30為例,，Q30代表堿基可信度為99.9%,，那么其被誤判的幾率就是0.1%，于是-10*lg(0.1%)=30,。也就是說,，如果一個(gè)堿基測序的可信度為99.9%，就代表其達(dá)到了Q30質(zhì)量標(biāo)準(zhǔn),。

那么,，所謂的“Q30比例”，就是在全部PF數(shù)據(jù)當(dāng)中,，達(dá)到或者超過Q30質(zhì)量標(biāo)準(zhǔn)以上的數(shù)據(jù)占所有PF數(shù)據(jù)的比例,。Q30比例，可以表征一次測序過程的質(zhì)量好壞,。

參考資料

\1. 【陳巍學(xué)基因】視頻1：Illumina測序化學(xué)原理

\2. 【陳巍學(xué)基因】視頻2：HiSeq測序儀工作原理

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：萌小芊 > 《私有珍藏》

舉報(bào)/認(rèn)領(lǐng)