3 月 31 日,,Science 連發(fā) 6 篇論文,,公布迄今為止最完整的人類基因組測序結(jié)果,這也是第一個完整無間隙的人類基因組序列,,將徹底改變我們對人類基因組變異、疾病和演化的理解,。
(來源:Science)
該人類參考基因組被命名為 T2T-CHM13,,是因為該基因組代表的是完全性葡萄胎細胞系 13(complete hydatidiform mole, CHM13) 的“單倍體”基因組。該基因組包含 22 條常染色體和 X 染色體的無縫組裝,, 共含有 30.55 億對堿基,。比之前的人類模版基因組(GRCh38)增加了近 2 億堿基的遺傳信息,約等于整個基因組的 8% 的序列信息,。該增加的堿基數(shù)目近乎相當于一條人類染色體能夠包含的遺傳信息,,其中大部分序列是重復(fù)序列或復(fù)雜區(qū)域的序列。 (來源:Science)
借助該成果,,過往人類基因組序列里的錯誤也得到糾正,,人類基因組中結(jié)構(gòu)最為復(fù)雜的部分區(qū)域也得以解鎖。研究團隊還以該完整的基因組序列為參考,在已發(fā)表的人類基因組中發(fā)現(xiàn) 200 多萬新的變異位點,,借此可提供 622 個基因組變異的更準確信息,。
據(jù)悉,該系列研究主要由國際科學(xué)團隊端粒到端粒聯(lián)盟(T2T,,Telomere-to-Telomere)完成,,聯(lián)盟成員包括美國國家人類基因組研究所、加州大學(xué)圣克魯茲分校,、華盛頓大學(xué)等,。與此同時,Nature Methods 也發(fā)表了多篇相關(guān)論文,。
(來源:Science)
一日連發(fā) 6 篇 Science 和多篇 Nature 子刊論文
這一系列工作起始于 2018 年,,并在 2019 年官宣。而今天發(fā)布的是一個葡萄胎細胞系的 22 條常染色體加 X 性染色體基因組,。在本次全基因組之前已經(jīng)發(fā)表了兩條染色體完整基因組,。X 染色體的完整基因組相關(guān)論文于 2020 年發(fā)表在 Nature 上;即將加入上海交通大學(xué)擔任長聘教軌副教授的毛亞飛,,參與了第一條常染色體(8號染色體)的部分工作,,相應(yīng)論文于 2021 年發(fā)表在 Nature 上。
此次成果,,得益于 DNA 測序技術(shù)的發(fā)展,。過去十年間,兩種新型長讀長 DNA 測序技術(shù)問世,,它們均能產(chǎn)生更長的序列讀取,。牛津納米孔 DNA 測序方法可以一次讀取多達 100 萬個堿基序列,而 PacBioHiFiDNA 測序方法可以讀取大約 20000 個堿基序列,。 T2T 聯(lián)盟主要使用這兩種 DNA 測序方法輔以其他測序手段,,最終組裝出完整的人類基因組序列。T2T-CHM13 完整基因組構(gòu)建是基因組學(xué)上的又一個里程碑,。
打包發(fā)表 6 篇 Science 論文的背后,,是一個 long story。2021 年,,論文就已放在預(yù)印本平臺上,。本來希望在慶祝 2001 年人類基因組計劃完成 20 周年之際發(fā)表,但是由于審稿等因素,,直到今天才正式發(fā)表,。
研究人員分別來自不同團隊,但是各團隊成員相互交叉,,即同時隸屬于 T2T 聯(lián)盟,。T2T 聯(lián)盟由美國國立衛(wèi)生研究院和加利福尼亞大學(xué)圣克魯茲分校的兩位科學(xué)家主持,,后又邀請到華盛頓大學(xué)醫(yī)學(xué)院基因組科學(xué)系教授埃文·E·艾希勒(Evan E. Eichler)的加入,而埃文正是毛亞飛的博后導(dǎo)師,。上述三位科學(xué)家將聯(lián)盟組織起來之后,,又聯(lián)合美國人類遺傳學(xué)方面的各個實驗室一起公關(guān),通過不同視角去解讀該完整基因組,。 (來源:Science)
6 篇論文中,,第一篇是主論文、并由三位聯(lián)盟牽頭人擔任通訊作者,。其他 5 篇論文分別從 5 個方面探討了該完整基因組在人類遺傳學(xué)上的重要性,。5 篇論文中的第一篇主要研究 segmental duplication 等復(fù)雜區(qū)域;第二篇論文重點介紹中心粒的結(jié)構(gòu)和其表觀圖譜,;第三篇討論的是該完整基因組如何提高對人類遺傳變異多樣性的分析,;第四篇介紹了人類基因組重復(fù)序列中的基因表達和其表觀圖譜;第五篇主要介紹該完整基因組的表觀圖譜,。這些分析都離不開方法學(xué)上的創(chuàng)新,,所以研究人員同時在 Nature Methods 上發(fā)了多篇伴隨論文。
西北工業(yè)大學(xué)生態(tài)環(huán)境學(xué)院教授王文表示,,這項研究補齊了人類 DNA 遺傳密碼圖的缺損部分,,意味著“有個完整的圖了”,可幫助人類更深刻地理解染色體的結(jié)構(gòu),、著絲粒區(qū),、端粒區(qū)、高重復(fù)異染色質(zhì)區(qū)的結(jié)構(gòu)組成等,。
圖 | 王文(來源:王文) 但是,,即便如此這依然是一個“曠日持久”的研究。
為何時隔 21 年人類基因組測序領(lǐng)域才迎來新里程,?
浙江大學(xué)生命演化研究中心求是講席教授張國捷表示,,2000 年美、英,、日,、法、德,、中等六國同時宣布人類基因組“工作框架圖(草圖)”,,當時大概只覆蓋人類基因組 90% 左右的區(qū)域,。盡管在第二代測序技術(shù)出現(xiàn)之后,,可對一些用第一代測序技術(shù)不能檢測的序列進行補全,可仍然有至少 8% 的序列漏洞,。詳細來說,,每個人含有兩套基因組,,每套含有 23 條染色,即 22 條常染色體 +1 條性染色體 X/Y,。每條染色體就是一條有 ATCG 四種堿基組成的字符串,,理想的完整基因組應(yīng)該從頭到尾把 23 條染色體完整的排序出來。但是,,基因組上彌散著許多相同字符串組成的重復(fù)序列,,由于過去測序讀長比較短,很難一次性把這些重復(fù)序列測出來,,通過計算分析也很難把重復(fù)序列的完整序列進行完整排序,。 圖 | 張國捷(來源:張國捷)
西北工業(yè)大學(xué)教授王文表示,通過原來的一代和二代測序技術(shù)無法讀通著絲粒等重復(fù)序列區(qū),。直至最近,,高保真的長讀長三代測序技術(shù)出現(xiàn)之后,才基本解決上述問題,。
張國捷同時指出,,即便測序技術(shù)出現(xiàn)革新性進步,有些超長的重復(fù)序列仍然很棘手,,因此需要借助計算機組裝算法,、對測序數(shù)據(jù)進行精準排序。所以,,該工作綜合了多種測序技術(shù),、以及新型組裝算法,才完成了所有常染色體和 X 染色體的組裝,。他還表示,,在過去人類基因組草圖存在的 8% 的未測區(qū)域,影響了我們對染色體完整結(jié)構(gòu)的認識,,比如對于端粒和著絲粒等區(qū)域的認識,,而它們對維持基因組穩(wěn)定、染色體復(fù)制和許多細胞過程都有著至關(guān)重要的意義,。這些區(qū)域往往含有許多重復(fù)序列,,因此大部分沒有被解析出來?;蚪M上的重復(fù)元件往往在人群里存在廣泛的拷貝數(shù)差異,,對現(xiàn)代人類的分化和人類疾病有深遠影響。此外,,這些未測的區(qū)域含有大量過去未知的基因,、或者調(diào)控基因表達的調(diào)控元件。因此,,解析出完整的基因組,,為我們?nèi)胬斫馊祟惢蚪M結(jié)構(gòu)和功能奠定重要基礎(chǔ),。
但是張國捷表示,這次公布的人類基因組并非真正意義完整的基因組,,因為這個工作所用的材料是個女性來源的細胞系,,Y 染色體的完整序列仍未被被解析出來。而且,,一個個體完整的基因組序列應(yīng)該包含兩套基因組信息,,一個來自父本一個來自母本,也即我們每個人身上有 2 套染色體:23X2,。而這次公布的序列也沒有將父母本基因組分開,。因此,未來還有很長的路要走,。
王文也表示,,目前仍然難以讀通一些物種中重復(fù)序列較長的區(qū)域,而本次成果亦是使用一個人類葡萄胎衍生的單倍體細胞系,。這說明,,直接測通二倍體正常人的高度重復(fù)染色體區(qū)域還需更多努力。
(來源:Science)
填補最后 8% 的空白,,解鎖最復(fù)雜的區(qū)域
在人類基因組中,,大約 50% 的片段都由重復(fù)序列構(gòu)成。部分重復(fù)序列聚集的基因組片段(如:端粒,,中心粒和segmental duplication等)具有相當復(fù)雜的結(jié)構(gòu),。如前所述,在該研究中,,研究人員利用最新三代測序技術(shù)解決了之前未能解決的 8% 的人類基因組復(fù)雜區(qū)域,。
那么,為什么要關(guān)心復(fù)雜區(qū)域,?因為很多人類遺傳性疾病或癌癥,,它們的真正致病位點恰恰和這 8% 的基因組片段息息相關(guān)。如果沒有這部分的人類基因組模板序列,,自然無法對其進行研究,。同時,我們也不可能真正的理解這 8% 基因組片段的遺傳多樣性和演化歷史,。因此,,該 8% 的重復(fù)序列在遺傳學(xué)和演化生物學(xué)上都至關(guān)重要。
舉例來說,,人類 1q21.1 基因組上有一段極為復(fù)雜的人類特有基因組片段,。如果該基因片段出現(xiàn)丟失或重復(fù),可能會導(dǎo)致小腦癥等疾病。我們之前對該片段在人類基因組的多樣性和復(fù)雜性都不甚了解,。但是,有了該完整的基因組,,就能進一步研究該片段在人類種群中的多樣性以及它導(dǎo)致疾病的精細遺傳位點,。所以本次工作的意義之一,在于通過長讀長測序技術(shù)去解決復(fù)雜區(qū)域的序列結(jié)構(gòu),,為后續(xù)的精準醫(yī)療和分子診斷提供更為精細的藍圖,。 (來源:Science)
未來還將完成 350 個人類基因組測序
該完整基因組的構(gòu)建不僅僅是一個人類基因組模板,更重要是該技術(shù)手段將迅速被應(yīng)用到以基因組學(xué)為手段的生物學(xué)研究中,。 (來源:Science)
對于演化基因組學(xué)研究來說,,此后可擁有較好的人類基因組學(xué)模板來研究人類特有的基因片段和人類復(fù)雜區(qū)域的遺傳多樣性。特別是對于靈長類演化研究來說,,對于我們理解人類和非人靈長類在復(fù)雜區(qū)域的基因組異質(zhì)性,,有著重要的意義。同時,,對于演化研究和基因組學(xué)研究來說,,研究人員以后可以在單核苷酸水平上去觀察中心粒的完整結(jié)構(gòu),理解中心粒的結(jié)構(gòu)變異和演化,。進一步探究中心粒在基因組穩(wěn)定性中的作用,,以及不同疾病中基因組不穩(wěn)定性和這些復(fù)雜區(qū)域的關(guān)系。
中科院北京基因組研究所博導(dǎo)蔣嵐表示,,國家二孩三孩政策的相繼推出,,使得提高人口出生率和人口健康成為國民關(guān)注的問題。高齡產(chǎn)婦生育能力下降,、難受孕,、易流產(chǎn),與卵細胞和早期胚胎的著絲粒區(qū)域異常的表觀遺傳學(xué)狀態(tài)密切相關(guān),。著絲粒區(qū)域富含復(fù)雜的高度重復(fù)序列,,在之前的基因組參考序列中留下許多空洞。因此,,我們對于人類基因組著絲粒區(qū)域的表觀遺傳學(xué)的理解是不完整的,。而此次報道的無縫隙人類基因組參考序列,結(jié)合三代測序等新技術(shù)來研究表觀遺傳學(xué)修飾特別是 DNA 甲基化,,有望克服這個瓶頸,。故該成果對于推動輔助生殖技術(shù)的發(fā)展,也具有重要意義,。
對于植物農(nóng)業(yè)基因組學(xué)研究來說,,該成果也可得到相關(guān)應(yīng)用。作為重要的農(nóng)業(yè)生產(chǎn)國,,中國的農(nóng)業(yè)基因組及作物基因編輯都在全球處于領(lǐng)先地位,。如果利用該技術(shù)去組裝棉花基因組,、水稻基因組等會能幫助到未來的分子育種。
此外,,科學(xué)家也能免費使用該數(shù)據(jù)去研究其他生物學(xué)問題,。事實上,在本論文正式發(fā)表之前,,就已經(jīng)惠澤更多課題組,,日本科研團隊已使用 T2T 聯(lián)盟此前發(fā)表在預(yù)印本上的論文數(shù)據(jù)做出了研究成果。
同時毛亞飛表示,,該 6 篇論文還是其次,,主要是這些研究加強了我們對于人類基因組的基本認識,同時該技術(shù)的創(chuàng)新給我們帶來更多的研究方向,。未來通過獲得不同人類種群 T2T 基因組來進一步精細研究人類起源和人類基因組多樣性將會是很重要的課題,。因此,美國國立衛(wèi)生研究院專門撥款 3000 萬美元經(jīng)費支持研究團隊完成 350 個人類 T2T 水平的二倍體基因組測序組裝工作,。該工作將構(gòu)建非洲,、亞洲、歐洲和美洲等各個不同人群的泛基因組圖譜,。這個一泛基因組圖譜將會極大影響我們對人類演化和人類遺傳多樣性的理解,,同時該圖譜也會對各類疾病的研究起到至關(guān)重要的作用。
-End- 特別鳴謝:中科院基因組所研究員趙文明,、中國科學(xué)院動物所研究員張勇 參考: S.J. Hoyt et al. From telomere to telomere: The transcriptional and epigenetic state of human repeat elements. Science. Vol. 376, April 1, 2022, p. 57. doi: 10.1126/science.abk3112. S. Aganezov et al. A complete reference genome improves analysis of human genetic variation. Science. Vol. 376, April 1, 2022, p. 54. doi: 10.1126/science.abl3533. S. Nurk et al. The complete sequence of a human genome. Science. Vol. 376, April 1, 2022, p. 44. doi: 10.1126/science.abj6987. N. Altemose et al. Complete genomic and epigenetic maps of human centromeres. Science. Vol. 376, April 1, 2022, p. 56. doi: 10.1126/science.abl4178. M.R. Vollger et al. Segmental duplications and their variation in a complete human genome. Science. Vol. 376, April 1, 2022, p. 55. doi: 10.1126/science.abj6965. A. Gershman et al. Epigenetic patterns in a complete human genome. Science. Vol. 376, April 1, 2022, p. 58. doi: 10.1126/science.abj5089. A.M. McCartney et al. Chasing perfection: validation and polishing strategies for telomere-to-telomere genome assemblies. Nature Methods. Published online March 31, 2022. doi: 10.1038/s41592-022-01440-3. G. Formenti et al. Merfin: improved variant filtering, assembly evaluation and polishing via k-mer validation. Nature Methods. Published online March 31, 2022. doi: 10.1038/s41592-022-01445-y
|