自2014年牛津納米孔科技有限公司(Oxford Nanopore Technologies, ONT)發(fā)布第一臺(tái)納米孔測(cè)序儀MinION以來,,納米孔測(cè)序技術(shù)及其應(yīng)用研究飛速增長(zhǎng),。該技術(shù)利用納米級(jí)蛋白質(zhì)孔(納米孔)作為生物傳感器,嵌入電阻性聚合物膜中,,在電解液中施加恒定電壓,,以產(chǎn)生通過納米孔的離子電流,DNA鏈在馬達(dá)蛋白(phi29 DNA聚合酶)的牽引下穿過納米孔,,易位期間離子電流的變化對(duì)應(yīng)于傳感區(qū)域中的核苷酸序列,之后使用算法進(jìn)行解碼,,實(shí)現(xiàn)對(duì)單分子的實(shí)時(shí)測(cè)序,。 近日,俄亥俄州立大學(xué)Kin Fai Au團(tuán)隊(duì)在Nature Biotechnology發(fā)表綜述文章“Nanopore sequencing technology, bioinformatics and applications”,,系統(tǒng)介紹了納米孔測(cè)序技術(shù)的發(fā)展,,討論了ONT數(shù)據(jù)在準(zhǔn)確性、讀長(zhǎng)和通量方面的改進(jìn),,并描述了應(yīng)用于ONT數(shù)據(jù)的主要生物信息學(xué)方法以及納米孔測(cè)序當(dāng)前的主要應(yīng)用,。納米孔測(cè)序的概念最早出現(xiàn)于20世紀(jì)80年代,其核心組分主要包括納米孔蛋白和相關(guān)馬達(dá)蛋白,。第一個(gè)用于納米孔測(cè)序的納米孔蛋白是α-溶血素,,其內(nèi)徑為1.4 nm -2.4 nm,可區(qū)分寡核苷酸分子上的四個(gè)DNA堿基,是生物納米孔單分子檢測(cè)的標(biāo)志,。使用另一種具有相似通道直徑(~1.2 nm)的工程納米孔MspA,,也獲得了類似的結(jié)果且提高了DNA單堿基的檢測(cè)靈敏度。2012年,,有研究小組通過將馬達(dá)蛋白(phi29 DNA聚合酶)和納米孔(α-溶血素24和MspA25)相結(jié)合,,通過電流變化,將單鏈DNA分子解析為來自單個(gè)核苷酸的信號(hào),。同時(shí),,馬達(dá)蛋白的加入減緩了DNA在納米孔中的遷移速度,提高了信噪比,,可捕獲更準(zhǔn)確的序列信息,。同年,ONT發(fā)布了第一款納米孔測(cè)序設(shè)備MinION,,并于2015年將其商業(yè)化,。此后,ONT不斷改進(jìn)納米孔和馬達(dá)蛋白,,截止到目前已發(fā)布了8個(gè)版本的測(cè)序系統(tǒng)(從R6到R10.3)(圖1),,其中R9.4機(jī)型將突變的CsgG和新的馬達(dá)酶整合,實(shí)現(xiàn)了更高的測(cè)序準(zhǔn)確度(94%)和更快的測(cè)序速度(高達(dá)450個(gè)堿基/秒),,但該機(jī)型很難對(duì)非常長(zhǎng)的均聚物進(jìn)行測(cè)序,,因此R10和R10.3納米孔被設(shè)計(jì)有兩個(gè)傳感區(qū)域以提高均聚物的準(zhǔn)確性。圖1. ONT測(cè)序發(fā)展歷程,。
除了優(yōu)化納米孔和馬達(dá)蛋白外,,ONT還開發(fā)了一些策略來提高測(cè)序準(zhǔn)確性(圖2a, d),例如,,通過對(duì)每個(gè)dsDNA進(jìn)行多次測(cè)序生成一致序列來提高數(shù)據(jù)質(zhì)量,。ONT測(cè)序的早期版本使用2D文庫制備方法對(duì)每個(gè)dsDNA分子進(jìn)行兩次測(cè)序,以R9.4納米孔為例,,2D reads的平均準(zhǔn)確率為94%,。2017年5月,ONT發(fā)布了1D2策略及與其兼容的R9.5納米孔,,測(cè)序準(zhǔn)確率高達(dá)95%,。此外,通過新的堿基調(diào)用算法也可以提高準(zhǔn)確性,,包括許多通過獨(dú)立研究開發(fā)的算法,,以R7.3納米孔為例,一維reads精度從65%提高到Nanocall的70%和DeepNano的78%,;對(duì)于測(cè)序讀長(zhǎng),,隨著納米孔技術(shù)和庫制備協(xié)議的改進(jìn),,最大reads長(zhǎng)度已從2017年初的<800kb增加到2018年的2.273 Mb。平均reads長(zhǎng)度從2014年MinION最初發(fā)布時(shí)的幾千個(gè)堿基增加到 ~23kb(圖2a, d),,但在reads長(zhǎng)度和產(chǎn)量之間存在權(quán)衡,。除了測(cè)序長(zhǎng)度和準(zhǔn)確性之外,測(cè)序通量是ONT測(cè)序應(yīng)用的另一個(gè)重要考慮因素,。為了滿足不同項(xiàng)目規(guī)模的需求,,ONT發(fā)布了多個(gè)平臺(tái),其中單個(gè)ProMethation流通池的產(chǎn)量為153 Gb,,平均測(cè)序速度為~430個(gè)堿基/秒,。ONT設(shè)備可直接對(duì)天然RNA分子進(jìn)行測(cè)序,例如在文庫中將引物連接到天然RNA的3’端,,然后直接連接接頭,,不需要常規(guī)的逆轉(zhuǎn)錄。該方法需要特殊的文庫制備,,但樣品操作簡(jiǎn)便,、速度快,有利于現(xiàn)場(chǎng)應(yīng)用,。此外,,該方法可以合成一條cDNA鏈以獲得RNA-cDNA雜交雙鏈,然后連接該接頭,,產(chǎn)生更穩(wěn)定的文庫,,滿足更廣的測(cè)序需求,產(chǎn)率較高(圖2b, c),。圖2. ONT測(cè)序建庫流程,。
ONT數(shù)據(jù)的生物信息學(xué)分析也在不斷改進(jìn)(圖3)。除了內(nèi)部數(shù)據(jù)收集和特定數(shù)據(jù)格式之外,,許多特定于ONT的分析側(cè)重于利用離子電流信號(hào)實(shí)現(xiàn)堿基識(shí)別,、堿基修飾檢測(cè)和組裝后拋光等目的。 堿基識(shí)別是將當(dāng)前信號(hào)解碼為核苷酸序列,,對(duì)數(shù)據(jù)準(zhǔn)確性和堿基修飾檢測(cè)至關(guān)重要,,總的來說,堿基識(shí)別的方法開發(fā)經(jīng)歷了4個(gè)階段:(1)早期利用Markov模型對(duì)分割后的數(shù)據(jù)進(jìn)行堿基識(shí)別,,2016年末利用遞歸神經(jīng)網(wǎng)絡(luò)對(duì)分割后的數(shù)據(jù)進(jìn)行堿基識(shí)別;(2)2017年對(duì)原始數(shù)據(jù)進(jìn)行堿基識(shí)別,;(3)2018年使用觸發(fā)器模型識(shí)別單個(gè)核苷酸,;(4)2019年訓(xùn)練定制的堿基識(shí)別模型。ONT開發(fā)了堿基識(shí)別軟件工具包,,其中Guppy可在中央處理單元及圖形處理單元上運(yùn)行,,以加速堿基識(shí)別,。ONT能夠直接檢測(cè)一些DNA和RNA修飾,通過區(qū)分它們與未修飾的堿基的電流轉(zhuǎn)移,。近年來,,多個(gè)DNA和RNA修飾檢測(cè)工具已被開發(fā)應(yīng)用,Nanoraw是第一個(gè)從ONT數(shù)據(jù)中識(shí)別DNA修飾5mC,、6mA和4mC的工具,。Nanpolish、Megalodon和DeepSignal被證實(shí)在單分子水平上,,具有單核苷酸分辨率的5mC檢測(cè)的高精度,。然而,在單分子水平上檢測(cè)具有單核苷酸分辨率的RNA修飾還有待證實(shí),。雖然ONT測(cè)序的平均準(zhǔn)確度正在逐步提高,,但某些reads或reads片段子集的準(zhǔn)確率相對(duì)較低,并且1D reads和2D/1D2 reads的錯(cuò)誤率較高,。因此,,在進(jìn)行下游分析之前,通常使用自糾錯(cuò)及混合糾錯(cuò)兩種算法進(jìn)行誤差校正以獲得更高的靈敏度,,提高測(cè)序數(shù)據(jù)質(zhì)量,。目前,研究人員已經(jīng)開發(fā)了序列比對(duì)工具來解決容易出錯(cuò)的長(zhǎng)reads的特定特征,。2016年,,專為ONT測(cè)序開發(fā)的第一個(gè)校準(zhǔn)器GraphMap問世,GraphMap可逐步改進(jìn)候選比對(duì)以降低錯(cuò)誤率,。對(duì)于ONTreads長(zhǎng)度超過100kb的,,則采用minap2,該工具運(yùn)行速度快,、精確度高,,且可以對(duì)ONT cDNA或直接RNA測(cè)序reads執(zhí)行剪接感知比對(duì)。也有其他比對(duì)工具(例如Graphmap2,,deSALT103)用于ONT轉(zhuǎn)錄組數(shù)據(jù),。在生物信息學(xué)分析中,通常采用長(zhǎng)讀長(zhǎng)和短讀長(zhǎng)結(jié)合的方法(即混合測(cè)序)來解決特定的生物學(xué)問題,。長(zhǎng)讀長(zhǎng)適用于通過明確的比對(duì)識(shí)別大范圍的基因組復(fù)雜性,,短讀長(zhǎng)的高準(zhǔn)確性和高通量適用于表征局部細(xì)節(jié)和改進(jìn)定量分析。長(zhǎng)reads已用于從頭基因組組裝,,例如基于重疊-布局-共識(shí)算法的Canu88和 Miniasm匯編器,,可通過重疊相似序列來構(gòu)建圖形,并且對(duì)測(cè)序錯(cuò)誤具有穩(wěn)健性,。為了進(jìn)一步消除錯(cuò)誤,,通常在組裝前后分別進(jìn)行長(zhǎng)reads的糾錯(cuò)和組裝草圖基因組的完善,。除了Nanopolish外,ONT還發(fā)布了Medaka,,以提高精度和速度,。當(dāng)有參考基因組時(shí),ONT數(shù)據(jù)可以用來研究樣本的特定基因組細(xì)節(jié),,包括結(jié)構(gòu)變異(SVs)和單倍型,,其精度相對(duì)高于其他技術(shù), 相應(yīng)的SVs檢測(cè)工具(例如NanoSV,、Sniffles,、Picky和NanoVar)。鑒于單個(gè)長(zhǎng)reads可以包含多個(gè)變體,,包括SNVs和SVs,,因此可以使用適當(dāng)?shù)纳镄畔W(xué)軟件對(duì)多倍體基因組及其他單倍型解析進(jìn)行定相分析。當(dāng)進(jìn)行轉(zhuǎn)錄組分析時(shí),,ONT reads可以被聚集和組裝以重建全長(zhǎng)基因亞型或與參考基因組比對(duì)以表征復(fù)雜的轉(zhuǎn)錄事件,,已開發(fā)了專門用于容易出錯(cuò)的長(zhǎng)reads的轉(zhuǎn)錄組裝器(例如Traphlor、FLAIR,、StringTie和TALON)以及基于混合測(cè)序數(shù)據(jù)的組裝器(IDP127),,但相關(guān)生物信息學(xué)工具,特別是定量分析工具的開發(fā)仍然不足,。圖3. ONT測(cè)序數(shù)據(jù)分析流程,。ONT設(shè)備的長(zhǎng)reads長(zhǎng)度、可移植性和直接RNA測(cè)序能力支持多種應(yīng)用(圖4),。作者回顧了ONT最主要的11種應(yīng)用,。(1)完善參考基因組序列。基因組組裝是ONT測(cè)序的主要用途之一,。ONT測(cè)序已被用于完善人類參考基因組中的12個(gè)缺口,,檢測(cè)端粒重復(fù)序列的長(zhǎng)度并組裝人類Y染色體的著絲粒區(qū)域。此外,,ONT還實(shí)現(xiàn)了人類X染色體首個(gè)無間隙端粒-端粒組裝,。在其他模式生物和密切相關(guān)物種(例如大腸桿菌、釀酒酵母,、擬南芥和15種果蠅)以及非模式生物中的應(yīng)用也取得了新進(jìn)展,。(2)建立新的參考基因組。ONT長(zhǎng)reads已被廣泛用于組裝許多非模式生物的初始參考基因組,,例如,,僅使用ONT數(shù)據(jù)組裝茄絲核菌的第一個(gè)基因組,并使用混合測(cè)序數(shù)據(jù)(ONT加Illumina)組裝Maccullochella Peelii和Amphiprion ocellaris的基因組草圖,。此外,,ONT直接RNA測(cè)序已被用于構(gòu)建RNA病毒基因組,同時(shí)無需常規(guī)逆轉(zhuǎn)錄步驟,。在SARS-CoV-2大流行中,,ONT測(cè)序被用于通過cDNA和直接RNA測(cè)序重建全長(zhǎng)SARS-CoV-2基因組序列,提供了有關(guān)病毒生物學(xué),、進(jìn)化和致病性的寶貴信息,。(3)鑒別較大的SVs,例如乳腺癌細(xì)胞系HCC1187,、急性髓系白血病個(gè)體,,兩個(gè)先天性異常個(gè)體的第一個(gè)單倍型分辨SV譜的構(gòu)建。(4)表征全長(zhǎng)轉(zhuǎn)錄組和復(fù)雜的轉(zhuǎn)錄事件,。(6)檢測(cè)RNA修飾。ONT直接RNA測(cè)序?yàn)橹苯幼R(shí)別具有關(guān)鍵生物學(xué)功能的RNA 修飾和RNA編輯提供了機(jī)會(huì),,并且可以使用ONT直接RNA測(cè)序和人工化學(xué)修飾的組合來探索RNA二級(jí)結(jié)構(gòu),。(7)ONT測(cè)序已應(yīng)用于多種癌癥類型(例如白血病、乳腺癌,、結(jié)腸直腸癌,、胰腺癌等)以識(shí)別感興趣的基因組變異,尤其是大而復(fù)雜的變異,。ONT全基因組測(cè)序可用于快速檢測(cè)染色體易位,,并精確確定急性髓系白血病患者的斷裂點(diǎn)。(8)由于具備快速實(shí)時(shí)測(cè)序能力且體積小,,MinION已被用于快速病原體檢測(cè),,包括細(xì)菌性腦膜炎、細(xì)菌性下呼吸道感染,、感染性心內(nèi)膜炎等,。除了病原體檢測(cè)外,ONT測(cè)序還可以加速分析細(xì)菌和其他微生物對(duì)抗生素/抗菌藥物的耐藥性,。(9)ONT長(zhǎng)reads已被應(yīng)用于表征遺傳疾病個(gè)體的復(fù)雜基因組重排,,例如,人類基因組的ONT測(cè)序顯示,,ABCA7基因串聯(lián)重復(fù)序列的擴(kuò)展與阿爾茨海默病風(fēng)險(xiǎn)的增加相關(guān),。(10)便攜式MinION設(shè)備可對(duì)新出現(xiàn)的傳染病進(jìn)行現(xiàn)場(chǎng)和實(shí)時(shí)基因組監(jiān)測(cè),協(xié)助進(jìn)行系統(tǒng)發(fā)育分析和流行病學(xué)調(diào)查,,如確定進(jìn)化率,、診斷目標(biāo)、治療反應(yīng)和傳播率,。隨著ONT測(cè)序通量的增加,,實(shí)時(shí)監(jiān)測(cè)已應(yīng)用于具有更大基因組的病原體,,從幾千堿基的病毒到幾兆堿基的細(xì)菌,再到基因組大于10 Mb的人類真菌病原體,。(11)便攜式ONT設(shè)備也被用于現(xiàn)場(chǎng)宏基因組學(xué)研究,。綜上所述,,納米孔測(cè)序通過實(shí)時(shí)提供單個(gè)DNA/RNA分子的超長(zhǎng)reads,,使許多生物醫(yī)學(xué)研究成為可能。同時(shí),,ONT測(cè)序技術(shù)仍存在一些局限性,,包括錯(cuò)誤率較高,對(duì)核酸材料的需求量較高,??朔@些挑戰(zhàn)需要在納米孔技術(shù)、分子實(shí)驗(yàn)和生物信息學(xué)軟件方面取得進(jìn)一步的突破,。Wang Y, Zhao Y, Bollas A, Wang Y, Au KF. Nanopore sequencing technology, bioinformatics and applications. Nat Biotechnol. 2021 Nov;39(11):1348-1365. doi: 10.1038/s41587-021-01108-x. Epub 2021 Nov 8. PMID: 34750572.· END ·
|