解碼20年,,人類基因組計劃帶來哪些成果?虎嗅 2021/06/16 17:26 本文來自微信公眾號:Nature Portfolio(ID:nature-portfolio),,作者:Alexander J. Gates ,, Deisy Morselli Gysi , Manolis Kellis & Albert-László Barabási,,題圖來自:《超體》 在人類基因組計劃第一份草圖發(fā)布的20周年[1,,2] ,這是一個回顧該項目種種的契機(jī):它如何推動人類疾病遺傳根源的相關(guān)研究,、改變了藥物發(fā)現(xiàn),,以及幫助我們修訂對基因這一概念本身的認(rèn)識。 Credit: SciePro / Science Photo Library 本文中,,我們將這些影響和趨勢進(jìn)行了提煉,結(jié)合了一些數(shù)據(jù)集來量化已發(fā)現(xiàn)和發(fā)表的不同類型的遺傳因子,,以及這些年來基因發(fā)現(xiàn)和論文發(fā)表模式的改變,。我們的分析涵蓋了38546個RNA轉(zhuǎn)錄本,,大約100萬個單核苷酸多態(tài)性位點(SNP),,1660種有報道遺傳起源的人類疾病,,7712種已批準(zhǔn)的和實驗性的藥品,以及在1900年至2017年間共發(fā)表的704515篇科學(xué)論文(見附件),。 這些結(jié)果強調(diào)了人類基因組計劃(下稱HGP)及其全面的蛋白質(zhì)編碼基因目錄是如何開啟了闡明基因組非編碼部分功能的新時代,,并為治療方法的建立鋪平了道路。重要的是,,隨著研究者繪制了細(xì)胞構(gòu)件的相互作用,,在傳統(tǒng)單基因視角外,這項結(jié)果跟進(jìn)了系統(tǒng)層次上生物學(xué)視角的出現(xiàn)(參見“研究團(tuán)隊規(guī)模并非突然增大”),。 我們的分析存在局限性,。例如,關(guān)于基因的起始和結(jié)束位置,,甚至編碼某些基因的確切序列并無定論[3],。一些基因組元件使用多種命名,我們的方法可能未能將其中一些聯(lián)系起來,。此外,,作者可能沒有將論文和這些基因元件之間的聯(lián)系添加到數(shù)據(jù)庫中。最后,,我們的圖表截至2017年,,因為一篇文章從發(fā)表到被納入我們用的數(shù)據(jù)庫之間可能存在時間滯后。 不過我們不認(rèn)為這些問題會影響在此提到的趨勢,,即基因組研究隨時間發(fā)生的變化,。當(dāng)控制同時期生物學(xué)論文數(shù)的增長時,這種趨勢仍然存在(參見附圖6),。我們沒有控制自基因發(fā)現(xiàn)以來的時間這一變量,,但估計這不會改變我們的結(jié)論。 這些關(guān)聯(lián),,讓我們看到了HGP前后研究領(lǐng)域變化的縮影,。研究開始集中關(guān)注少數(shù)“超級巨星”蛋白編碼基因,這也許有損于那些原本可以在其他基因上進(jìn)行的有趣工作,。基因組的非蛋白質(zhì)編碼部分,,以及理解遺傳物質(zhì)和蛋白質(zhì)之間的相互作用,開始成為研究重點,。而藥物發(fā)現(xiàn)也僅限于少數(shù)蛋白靶點,。 生物學(xué)家很熟悉其中某些趨勢,但對其進(jìn)行量化和可視化,,則是一種新思考,。 由于不存在一個沒有HGP的世界作為對照,因此,,我們不能確定這些趨勢是否無論如何都會發(fā)生,。這些進(jìn)展中也有其他因素的作用,從增強的計算能力到復(fù)雜的測序方法,。不管怎么說,,HGP還是明顯促進(jìn)了持續(xù)的基因革命。 Source: Barabási Lab 一,、超級巨星基因 人們普遍認(rèn)為HGP是深入研究蛋白質(zhì)編碼基因的開始,。事實上,,2001年的HGP草圖,標(biāo)志著對基因的數(shù)十年搜尋告一段落[1,,2],。其實首個蛋白質(zhì)編碼基因的證據(jù)出現(xiàn)于1902年,當(dāng)時發(fā)現(xiàn)了激素促胰液素(SCT基因)[4],,這是DNA結(jié)構(gòu)被發(fā)現(xiàn)的50年前,,基因組測序普及的75年前。我們的分析表明,,從1990年HGP開始,,到2003年完成(2001年草圖發(fā)表后),發(fā)現(xiàn)(或注釋)的人類基因數(shù)量急劇增長,。到21世紀(jì)00年代中期,,蛋白質(zhì)編碼基因的數(shù)量忽然趨于平穩(wěn),約在2萬個左右(參見“垃圾,、明星和藥物的20年:非編碼元件”),,遠(yuǎn)遠(yuǎn)低于科學(xué)界許多人此前所估計的10萬個左右[2],。 雖然蛋白質(zhì)編碼基因的發(fā)現(xiàn)到達(dá)了平臺期,但人們對單個基因的興趣在HGP之后迅速增長。自2001年以來,,每年都有1萬到2萬篇與蛋白質(zhì)編碼基因有關(guān)的論文發(fā)表(參見附圖3),。 然而,,這種興趣主要集中在少數(shù)幾個基因上,。在1990年之前,HBA1是研究最多的,,因為它編碼成人血紅蛋白中的一種蛋白質(zhì),。從1990年開始,人們的注意力轉(zhuǎn)向了CD4(根據(jù)發(fā)表的出版物的累積數(shù)量判斷),,因為這種蛋白參與T細(xì)胞免疫并作為HIV的細(xì)胞受體,。然而,與2001年HGP草圖發(fā)布之后對單個基因的關(guān)注激增相比,,對這兩個基因的關(guān)注則顯得微不足道,。針對一些超級明星基因,包括TP53,、TNF和EGFR,,每年都有數(shù)百篇文章發(fā)表,而其他大多數(shù)基因卻很少受到關(guān)注(參見“深度影響”和“垃圾,、明星和藥物的20年:明星基因”),。我們發(fā)現(xiàn),截至2017年,22%的基因相關(guān)論文只關(guān)注了1%的基因,。 Source: Barabási Lab 當(dāng)然,,對具有重要生物學(xué)意義的基因進(jìn)行深入研究是合理的。TP53就是一個很好的例子——它對細(xì)胞的生長和死亡至關(guān)重要,,倘若被抑制或改變則會導(dǎo)致癌癥,。在超過50%的腫瘤序列中都發(fā)現(xiàn)了這種基因的變異。從1976年到2017年,,共有9232篇文獻(xiàn)提及了TP53(參見附圖4)。 人們可能會認(rèn)為,,對同一基因了解得越多,,就越有動力去探索基因組的其余部分。然而,,過去20年所發(fā)生的卻恰恰相反,,更多關(guān)注被加諸于少數(shù)的基因。盡管這一問題在基因組草圖發(fā)布十周年[5]之際已被提出,,但仍未得到根本方向上的改變,。 我們先前對從人類社會網(wǎng)絡(luò)到萬維網(wǎng)等其他截然不同的系統(tǒng)所做的研究表明,基于社會因素的“富者越富”動態(tài)理論[6,,7],,可以解釋這種巨大的不平衡。隨著關(guān)注TP53的論文數(shù)量增加,,進(jìn)一步的TP53相關(guān)工作越能保證獲得資金,、指導(dǎo)、工具和引用,,因為這是一個安全的賭注(參見附圖4),。在網(wǎng)絡(luò)科學(xué)中,這種現(xiàn)象被稱為偏好依賴,。事實上我們發(fā)現(xiàn),,關(guān)注特定基因的年度新論文數(shù)量,與先前有關(guān)該基因的文獻(xiàn)數(shù)量成線性關(guān)系(參見附圖6),。 生物學(xué)目前面臨的一個挑戰(zhàn)是理清下一步研究什么的動機(jī),。研究人員的資金、時間和精力投入,,是投到最重要或最緊迫的事情上,,還是投到有望贏得更多資金和贊譽的雷同領(lǐng)域? 二,、垃圾基因并非垃圾 早在HGP之前,,就存在激烈的辯論:繪制基因組中被稱為“垃圾DNA”或“暗物質(zhì)”的大量非編碼區(qū)域是否有價值?在很大程度上這要感謝HGP:現(xiàn)在人們認(rèn)識到,,人類基因組中的大多數(shù)功能序列并不編碼蛋白質(zhì),。相反,,諸如長鏈非編碼RNA、啟動子,、增強子和無數(shù)基因調(diào)控序列等元件共同作用,,使基因組能夠發(fā)揮功能。發(fā)生在這些區(qū)域的突變不會改變蛋白質(zhì),,但會擾亂蛋白表達(dá)的調(diào)控網(wǎng)絡(luò),。 獲得人類基因組草圖之后,非蛋白編碼元件的發(fā)現(xiàn)驟增,。到目前為止,,其增長已經(jīng)超過了蛋白質(zhì)編碼基因發(fā)現(xiàn)的五倍之多,而且沒有放緩的跡象,。同樣,,在我們數(shù)據(jù)集覆蓋的時間段內(nèi)(1900年至2017年;參見附圖3a),,有關(guān)這些元件的論文也在增加,。例如,關(guān)于調(diào)節(jié)基因表達(dá)的非編碼RNA的論文就有數(shù)千篇,。 HGP還提供了一種人類遺傳變異(包括單核苷酸多態(tài)性)編目的方法,。其他一些主要工作也大幅削減了分析數(shù)千個個體間共同差異的成本;其中包括國際HapMap項目[8](第三階段和最后階段于2010年完成)和千人基因組組項目[9](于2015年完成),。這些數(shù)據(jù)集,,加之統(tǒng)計分析的進(jìn)展,開拓了對無數(shù)特征的全基因組關(guān)聯(lián)研究(GWAS),,包括身高[10],、肥胖[11]和對復(fù)雜疾病(如精神分裂癥)的易感度[12],。 現(xiàn)在每年有超過3萬篇文章將單核苷酸多態(tài)性和某種特征聯(lián)系起來,。這些關(guān)聯(lián)的很大一部分位于曾被忽略的非編碼區(qū)域(參見附表3)。 細(xì)胞功能依賴于遺傳物質(zhì)和蛋白質(zhì)之間或強或弱的聯(lián)系,。繪制出關(guān)聯(lián)網(wǎng)絡(luò)是對孟德爾觀點的補充,。迄今為止,已經(jīng)有超過30萬個調(diào)控網(wǎng)絡(luò)相互作用被繪制出來,,涉及蛋白質(zhì)與非編碼區(qū)或與其他蛋白質(zhì)的結(jié)合,。 三、藥物發(fā)現(xiàn) 大約在20世紀(jì)80年代之前,,藥物的發(fā)現(xiàn)很大程度上是出于偶然,。它們的分子和蛋白質(zhì)靶點通常是未知的。直到2001年之前的任何一年,清楚知道某種藥物所有蛋白質(zhì)靶點的概率都不超過50%,。HGP改變了這一點,。目前在美國,每年獲得許可的幾乎所有藥物靶點都是已知的(參見 “垃圾,、明星和藥物的20年:藥物靶點”),。 Source: Barabási Lab HGP揭示了大約20000個蛋白質(zhì)可作為潛在藥物靶點,我們發(fā)現(xiàn)到目前為止其中只有大約10%——2149個——是已獲批藥物的靶點(參見附表4和附圖1),。其余90%的蛋白質(zhì)組,,藥理學(xué)尚未涉及[13]。我們數(shù)據(jù)集中,,實驗藥物將這個數(shù)字增加到3119(參見附圖2),。同樣,這些靶點所受到的關(guān)注也是不均衡的,。目前批準(zhǔn)的所有藥物中有5%(99種不同分子)以參與細(xì)胞生長和增殖的蛋白質(zhì)ADRA1A為靶點。 正如前文所提到的,,這種傾斜有其緣由,。有些蛋白質(zhì)可能對人類健康更重要,或更可能作為藥物靶點,。有些可能無法成藥,。但還是有可能,如果研究人員,、資金提供者和出版商不那么厭惡風(fēng)險的話,,會有更多的蛋白質(zhì)值得作為藥物靶點進(jìn)行探索。 也就是說,,大多數(shù)成功的藥物并不直接針對個別疾病基因[14],。相反,它們的靶點在蛋白質(zhì)一兩次相互作用之后,,調(diào)控的是發(fā)生錯誤部分的后果,。例如,對可用于治療COVID-19的現(xiàn)有藥物進(jìn)行大規(guī)模篩選發(fā)現(xiàn),,只有1%有希望的候選藥物針對病毒蛋白,,大多數(shù)調(diào)控的是不直接參與SARS-CoV-2病毒活性的人類蛋白[15]。這類網(wǎng)絡(luò)中的藥物具有巨大的潛力,。 四,、窺見生命的網(wǎng)絡(luò) 總之,我們認(rèn)為HGP更重要之處在于開創(chuàng)了基因組學(xué)的新時代,,甚于蛋白質(zhì)目錄本身,。正如復(fù)雜系統(tǒng)理論所表明的那樣,對組件的精確調(diào)查是必要的,但尚不足以充分理解任一系統(tǒng),。復(fù)雜性來自于組件之間交互的多樣性,。經(jīng)過20年以HGP為基礎(chǔ)的研究,生物學(xué)家目前對定義生命的網(wǎng)絡(luò)結(jié)構(gòu)和動態(tài)有了初步的認(rèn)知,。 附件: 參考文獻(xiàn): 1.Venter,, J. C. et al. Science 291, 1304–1351 (2001). 2.International Human Genome Sequencing Consortium. Nature 409,, 860–921 (2001). 3.Portin,, P. & Wilkins, A. Genetics 205,, 1353–1364 (2017). 4.Bayliss,, W. M. & Starling, E. H. J. Physiol. 28,, 325–353 (1902). 5.Edwards,, A. M. et al. Nature 470, 163–165 (2011). 6.Bianconi,, G. & Barabási,, A.-L. Europhys. Lett. 54, 436 (2001). 7.Barabási,, A.-L. & Albert,, R. Science 286, 509–512 (1999). 8.The International HapMap Consortium. Nature 426,, 789–796 (2003). 9.The 1000 Genomes Project Consortium. Nature 526,, 68–74 (2015). 10.Lango Allen, H. et al. Nature 467,, 832–838 (2010). 11.Speliotes,, E. K. et al. Nature Genet. 42, 937–948 (2010). 12.Lencz,, T. et al. Mol. Psychiatry 12,, 572–580 (2007). 13.Wishart, D. S. et al. Nucleic Acids Res. 46,, D1074–D1082 (2018). 14.Yildirim,, M. A., Goh,, K.-Il,, Cusick, M. E.,, Barabási,, A. L. & Vidal,, M. Nature Biotechnol. 25, 1119–1126 (2007). 15.Gysi,, D. M. et al. Preprint at (2020). 原文以A wealth of discovery built on the Human Genome Project — by the numbers標(biāo)題發(fā)表在2021年2月10日的《自然》的評論版塊上 本文來自微信公眾號:Nature Portfolio(ID:nature-portfolio),,作者:NaturePortfolio |
|