從1977年Sanger發(fā)明“雙脫氧鏈終止法”DNA測序技術(shù)起,,基因組神秘的面紗一點(diǎn)一點(diǎn)的被揭露,從小至幾千堿基的噬菌體基因組到數(shù)百萬堿基的細(xì)菌基因組,,再到三十億堿基的人類基因組,,每一步都值得記錄在人類探索自然、認(rèn)識自身的篇章中,。而這些成果背后的重要一環(huán)——基因組組裝,,無疑是一個(gè)在研究中足夠”美”的問題:既足夠簡明,可用短短的一段話來描述,;又足夠深刻,,值得數(shù)十年的持續(xù)研究。小編今天和大家分享基因組組裝的歷史以及前沿的發(fā)展,。 Part 1.白云生處上面是計(jì)算機(jī)學(xué)家Staden關(guān)于序列拼接的描述,,從中可以引申出我們?nèi)缃窠?jīng)常使用的幾個(gè)術(shù)語:reads/overlap/contig。對于序列拼接的概念Staden進(jìn)行了簡明的定義:通過讀取片段(reads)間的連接關(guān)系(overlap)構(gòu)建出更長的連續(xù)性片段(contig),。 更進(jìn)一步的組裝研究中,,序列拼接問題被轉(zhuǎn)化為圖論中的路徑尋找問題:以點(diǎn)(node)代表測序序列,以邊(edge)代表連接關(guān)系,以路徑(path)代表的圖上點(diǎn)的定向行走(walk),。這里面,,最有代表性的兩種構(gòu)圖方式即string圖和de Brujin圖。下面奉上兩張小編收藏多年的圖,,非常好的闡述了string圖和de Brujin圖在基因組組裝中的應(yīng)用原理,。 圖1. Strings Graph in genome assembly[2] 圖2. De Brujin Graph in genome assembly[3] Part 2.一往而深提起基因組,最廣為人知的應(yīng)該是人類基因組計(jì)劃了,,2001年公布的人類基因組是這一計(jì)劃的里程碑事件,。其中,大放光彩的Celera Assembler也成為基因組組裝的”初代機(jī)“[4],,whole genome shotgun的測序策略結(jié)合Overlap Layout Consensus的組裝策略,,攻克了基因組學(xué)研究上的第一座高峰。 但是一代測序由于高昂的測序成本以及較低的測序通量,,限制了其在更多,、更大規(guī)模的基因組學(xué)研究中的應(yīng)用。隨著二代高通量測序的應(yīng)運(yùn)而生,,全基因組測序才成為科研人員廣泛使用的工具,。以2005年出現(xiàn)的454測序儀和2008年出現(xiàn)的illumina測序儀為代表,短讀長,、高通量的測序數(shù)據(jù)成為主流,。而對于基因組組裝而言,與之而來的卻是短至幾十堿基的測序片段帶來的拼接困境,。 為此,,研究人員發(fā)明了不同的文庫構(gòu)建方法,以及改變了序列拼接的算法,。高深度+多文庫的雙端測序策略結(jié)合de Brujin圖的組裝策略,,成為新一代的組裝標(biāo)桿。在這一風(fēng)起云涌的時(shí)代,,華大基因以其SOAPdenovo[5],,以快打慢,打下了一片大大的江山(大霧),。 所謂一代版本一代神,,雖然通過二代測序繪制了多物種的基因組草圖,但整體的連續(xù)性和完整性上仍存在較大不足,。隨著三代單分子測序技術(shù)的出現(xiàn),,又再次煥發(fā)了OLC組裝策略的新春?;贑elera Assembler,,研究人員適應(yīng)三代測序數(shù)據(jù)形成了Hierarchical Genome Assembly Process(HGAP)的先糾錯(cuò)再組裝的策略[6],。而二代測序并沒有因此退出組裝舞臺,采用巧妙的文庫構(gòu)建方法如全基因組染色體構(gòu)象捕獲測序技術(shù)(Hi-C),、在DNA片段上加入高通量的barcode標(biāo)簽測序技術(shù)(10X)等,,能夠進(jìn)一步對基因組進(jìn)行完善升級,甚至使組裝結(jié)果達(dá)到染色體水平,。 說起來,,小編最初接觸組裝時(shí)深入研究的就是Celera Assembler,當(dāng)時(shí)還是三代測序出現(xiàn)之初的7.0版本,,見證了諸多版本的更新,,不得不說,開發(fā)人員確實(shí)是一往而深(大霧),,當(dāng)為吾輩楷模,。 Part 3.滄海云帆組裝的終極目標(biāo)是得到一個(gè)沒有間隙(gap)的,、單倍體精度的組裝結(jié)果,,但是目前為止,還沒有一個(gè)高等動植物的基因組實(shí)現(xiàn)這樣的目標(biāo),。即使是研究最完善的人類基因組,,目前仍存在800余個(gè)gaps。但是這個(gè)目標(biāo)的實(shí)現(xiàn)距離我們已經(jīng)是觸目可及了:測序技術(shù)不斷發(fā)展,,一代,、二代、三代,、光學(xué)等數(shù)據(jù)優(yōu)勢互補(bǔ),,使組裝如虎添翼;建庫方法不斷改進(jìn),,Hi-C,、10X等方法畫龍點(diǎn)睛,助組裝錦上添花,。 圖3. 測序組裝策略[7] 如果問小編,,組裝的未來是什么呢?小編最想看到的是沒有組裝,!一條DNA從頭測到尾,,0 gap,不組裝,,測出即用,。有可能實(shí)現(xiàn)嗎?讓我們一起拭目以待吧,。 參考文獻(xiàn)1. Adam M. Phillippy. New advances in sequence assembly. 2. Eugene W. Myers. The fragment assembly string graph. 3. Phillip Compeau. How to apply de Bruijn graphs to genome assembly. 4. Venter et al. The Sequence of the Human Genome. 5. Luo R, Liu B, Xie Y, et al. SOAPdenovo2: an empirically improved memory-efficient short-read de novo assembler. 6. Chin CS, Alexander DH, Marks P, et al. Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data. 7. Seo J-S, et al. De novo assembly and phasing of a Korean human genome. |
|