人類基因組計(jì)劃(Human Genome Project, HGP)是一項(xiàng)規(guī)模宏大,、跨國跨學(xué)科的科學(xué)探索工程,。其宗旨在于測定組成人類染色體(指單倍體)中所包含的由30億個(gè)堿基對所組成的核苷酸序列,從而繪制人類基因組圖譜,、辨識其載有的基因及其序列,,達(dá)到破譯人類遺傳信息的最終目的。2021年2月11日,,在人類基因組圖譜發(fā)布20周年之際,,Nature刊登的一篇網(wǎng)絡(luò)科學(xué)學(xué)者Albert-László Barabási等人的評論文章,分析了自2001年以來基因組研究領(lǐng)域的發(fā)表刊物,、研發(fā)藥物與人類疾病的影響關(guān)系,,旨在為未來基因組研究提供新的視角。 Alexander J. Gates, Deisy Morselli Gysi, Manolis Kellis, Albert-László Barabási | 作者 胡一冰 | 譯者 趙雨亭,、劉培源 | 審校
鄧一雪 | 編輯
人類基因組圖譜第一版[1,2]發(fā)表20周年是一個(gè)契機(jī),,讓我們能回溯該項(xiàng)目如何促進(jìn)了人類疾病的基因根源研究、如何改變了藥物研發(fā)以及如何協(xié)助修正我們對基因本身的理解,。在這里,,我們根據(jù)現(xiàn)有資料預(yù)測關(guān)于人類基因組未來研究的影響和趨勢。研究者們結(jié)合多個(gè)數(shù)據(jù)集來量化已經(jīng)發(fā)現(xiàn)并被發(fā)表的不同類型的遺傳因素(genetic element),;以及這些年來,,發(fā)現(xiàn)和發(fā)表的模式是如何變化的。分析利用的數(shù)據(jù)具體包括38546個(gè)RNA轉(zhuǎn)錄物(transcripts),、約100萬個(gè)單核苷酸多態(tài)性(Single Nucleotide Polymorphisms, SNPs),、1660種有記載的受遺傳影響的人類疾病、7712種已批準(zhǔn)和試驗(yàn)的藥物和704515篇1900至2017年間的科研著作,。圖1. Nature和Science為紀(jì)念HGP20周年的特別封面 研究結(jié)果強(qiáng)調(diào)了人類基因組計(jì)劃(Human Genome Project , HGP)及其全面的蛋白質(zhì)編碼基因清單如何開辟展示基因組非編碼部分功能的新時(shí)代,,并為未來的醫(yī)藥開發(fā)鋪平道路。關(guān)鍵的是,,研究人員繪制亞細(xì)胞結(jié)構(gòu)(cellular building blocks)之間的相互作用圖時(shí),,研究結(jié)果可追溯到生物學(xué)系統(tǒng)層視圖與傳統(tǒng)單基因視圖的出現(xiàn),。本項(xiàng)分析也存在局限性。例如,,學(xué)界對部分基因的起始位點(diǎn),、終止位點(diǎn),甚至是某些基因的確切編碼序列都沒有達(dá)成共識[3],。一些基因元件使用多種命名規(guī)則,,因此有時(shí)研究人員無法將它們統(tǒng)一起來。此外,,有些作者沒有將學(xué)術(shù)著作和基因序列之間的聯(lián)系添加到數(shù)據(jù)庫中,。最后,考慮到文章的發(fā)表和進(jìn)入我們使用的數(shù)據(jù)庫之間可能會(huì)存在時(shí)間差,,我們用來構(gòu)造相互作用圖表的數(shù)據(jù)截止于2017年,。視頻:人類基因組計(jì)劃20年研究分析的可視化 然而,我們并不認(rèn)為這些問題會(huì)影響我們在基因組計(jì)劃研究中所發(fā)現(xiàn)的整體趨勢,。當(dāng)我們歸一化同期生物學(xué)出版物的增長數(shù)目時(shí),,趨勢仍然存在(如圖2所示)。本項(xiàng)研究沒有控制基因發(fā)現(xiàn)后的進(jìn)程,,但作者判斷這樣假設(shè)處理之下,,結(jié)論依然成立。圖2. 基因研究中的“偏好依附”現(xiàn)象這些聯(lián)系提供了人類基因組計(jì)劃前后研究格局演變的快照,。它表示了學(xué)術(shù)界對少數(shù)“超級明星”蛋白質(zhì)編碼基因的強(qiáng)烈關(guān)注,,這可能會(huì)減少潛在的、對其它基因的研究,?;蚪M的非蛋白質(zhì)編碼部分以及遺傳物質(zhì)和蛋白質(zhì)之間的互作一直是研究的重點(diǎn)。事實(shí)是,,藥物研發(fā)更多基于少數(shù)某些蛋白質(zhì)靶點(diǎn),。其中一些趨勢被生物學(xué)家們所熟悉,但要量化和形象化這些趨勢,,就必須以全新的方式研究它們,。圖3. 1950年至2020年基因研究合作項(xiàng)目成員規(guī)模變化世界上沒有可與人類基因組計(jì)劃比肩的對照組。因此,,不能表明上述趨勢是否必然會(huì)隨著人類基因組計(jì)劃而出現(xiàn),。從計(jì)算能力的提高到復(fù)雜的排序方法的發(fā)明,種種外部因素也在這些發(fā)展中發(fā)揮了作用,。唯一可以確定的是,,人類基因組計(jì)劃目錄推動(dòng)了基因革命的進(jìn)行。學(xué)術(shù)界普遍認(rèn)為,人類基因組計(jì)劃是對蛋白質(zhì)編碼基因深入研究的開始,。2001年發(fā)表的人類基因組計(jì)劃草圖標(biāo)志著長達(dá)數(shù)十年的探索工作的結(jié)束[1,2],。事實(shí)上,最早的蛋白質(zhì)編碼基因的證據(jù)出現(xiàn)在1902年——即激素分泌素(SCT基因)的發(fā)現(xiàn)[4],。此時(shí)早于DNA結(jié)構(gòu)發(fā)現(xiàn)50年,、基因組測序普遍化75年。本項(xiàng)分析表明,,從1990年人類基因組計(jì)劃的開始到2003年完成(2001年草圖發(fā)表后),,人類基因的發(fā)現(xiàn)(或“注釋”)數(shù)量急劇增長。而在2000年代中期,,這個(gè)數(shù)量突然穩(wěn)定下來——約有2萬個(gè)蛋白質(zhì)編碼基因被發(fā)現(xiàn),,遠(yuǎn)低于此前許多科學(xué)家提出的10萬這一海量的估計(jì)數(shù)。雖然蛋白質(zhì)編碼基因的發(fā)現(xiàn)數(shù)量進(jìn)入了平臺期,,但在人類基因組計(jì)劃開始之后,,人們對單個(gè)基因功能的興趣迅速增長。自2001年以來,,每年都有1萬至2萬篇關(guān)于蛋白質(zhì)編碼基因的論文發(fā)表,。然而,科學(xué)界的興趣主要集中在少數(shù)幾個(gè)基因上,。1990年以前,HBA1是研究最多的——它是編碼成人血紅蛋白中的一種蛋白質(zhì),。從1990年起,,由于CD4蛋白參與T細(xì)胞免疫且作為HIV的細(xì)胞受體,人們的注意力轉(zhuǎn)移到了CD4(結(jié)論基于累計(jì)發(fā)表的文獻(xiàn)數(shù)量得出),。然而,,在2001年人類基因組計(jì)劃序列草圖之后,人們對這兩個(gè)基因的興趣與對其它基因的關(guān)注度相比就相形見絀了,。一些“明星”基因——如TP53,、TNF和EGFR——成為了每年數(shù)百篇論文的主題,而其它的大多數(shù)基因卻很少受到關(guān)注,。統(tǒng)計(jì)發(fā)現(xiàn),,2017年,1%的基因覆蓋了22%的基因相關(guān)出版物主題,。圖4. HGP問世前后對基因的研究情況,。圖中的平面標(biāo)志著2001年人類基因組計(jì)劃草圖的公布,在其之下的長度表示為草圖發(fā)表后有關(guān)基因的文章數(shù)量有關(guān),;在其之上表示先前的出版物,。每個(gè)峰值底部的寬度反映了與每個(gè)基因相關(guān)的疾病數(shù)量。 當(dāng)然,對具有深遠(yuǎn)生物學(xué)意義的基因進(jìn)行深入研究是必需的,。TP53就是一個(gè)很好的例子——它對細(xì)胞的生長和死亡至關(guān)重要,,一旦它失活或變異就會(huì)導(dǎo)致癌癥:從1976年至2017年間,9232篇學(xué)術(shù)論文提出超過50%的腫瘤序列中都發(fā)現(xiàn)了該基因突變,。我們的直觀感受可能會(huì)認(rèn)為,,對同一基因了解得越多,就越有動(dòng)力去探索基因組的其余部分,。然而,,在過去20年事實(shí)卻相反:大部分的關(guān)注聚焦于少數(shù)基因。盡管在人類基因組計(jì)劃草圖發(fā)表十周年之際(即2011年)[5],,該問題就已經(jīng)被廣泛報(bào)道,,但目前仍沒有對該問題其進(jìn)行實(shí)質(zhì)性的修正。之前關(guān)于人類社會(huì)網(wǎng)絡(luò)到萬維網(wǎng)等不同系統(tǒng)的研究表明,,這種巨大的失衡可以用根植于社會(huì)因素的“富者越富”來解釋[6,7],。的確,隨著關(guān)于TP53的論文數(shù)量的增加,,后續(xù)有關(guān)TP53的研究工作更容易獲得資金,、指導(dǎo)、工具和引用——因?yàn)檫@是一個(gè)安全保險(xiǎn)的投資,。在網(wǎng)絡(luò)科學(xué)中,,這種現(xiàn)象被稱為“偏好依附(preferential attachment)”[7]。事實(shí)上,,我們發(fā)現(xiàn)關(guān)注特定基因的年度新出版物數(shù)量與先前有關(guān)該基因的文獻(xiàn)數(shù)量成線性比例,。現(xiàn)在生物學(xué)面臨的一個(gè)重大挑戰(zhàn)是理清下一步研究的方向。研究人員是該是把經(jīng)費(fèi),、時(shí)間及精力投入到最重要或最緊迫的工作上,,還是因?yàn)槟芸煽康孬@得資助和喝彩而投入到更多重復(fù)的工作上? 在人類基因組計(jì)劃開始之前有一場大型辯論:是否值得繪制基因組中被稱為垃圾DNA(junk DNA)或基因組暗物質(zhì)的大量非編碼區(qū),?在很大程度上歸功于人類基因組計(jì)劃,,現(xiàn)在人們認(rèn)識到,人類基因組中的大多數(shù)功能序列并不編碼蛋白質(zhì),。相反,,是諸如長鏈非編碼RNA(long noncoding RNA,lncRNA),、啟動(dòng)子,、增強(qiáng)子和無數(shù)基因調(diào)控序列等元件共同作用使基因組復(fù)雜但有序地指導(dǎo)生命活動(dòng)。這些區(qū)域的變異不會(huì)改變蛋白質(zhì),,但通過擾亂控制蛋白質(zhì)表達(dá)的網(wǎng)絡(luò)來影響生命活動(dòng)的進(jìn)行,。人類基因組計(jì)劃草圖發(fā)布后,,非蛋白編碼元件的發(fā)現(xiàn)如雨后春筍般爆發(fā)。到目前為止,,這種增長數(shù)量已經(jīng)超過了蛋白質(zhì)編碼基因發(fā)現(xiàn)量的五倍,,且仍沒有放緩的跡象。同時(shí),,在本項(xiàng)研究所用數(shù)據(jù)集涵蓋的時(shí)期(1900至2017年)內(nèi),,關(guān)于這些調(diào)控元件的發(fā)表物數(shù)量也在增長——例如,關(guān)于調(diào)節(jié)基因表達(dá)的非編碼RNA的論文數(shù)以千計(jì),。圖5. 關(guān)于非編碼RNA的研究呈現(xiàn)明顯遞增趨勢人類基因組計(jì)劃還提供了一種編目人類遺傳變異(包括單核苷酸多態(tài)性,, Single Nucleotide Polymorphism, SNP)的方法。其它一些重大舉措能大幅削減了對數(shù)千人的共同差異進(jìn)行分析的成本,;其中包括國際HapMap項(xiàng)目[8]和國際千人基因組計(jì)劃[9],。這些數(shù)據(jù)集和之前的統(tǒng)計(jì)分析等帶來了無數(shù)關(guān)于性狀的全基因組關(guān)聯(lián)研究(genome-wide association studies, GWAS),具體如身高[10],、肥胖程度[11]和對復(fù)雜疾病(精神分裂癥等)的易感度[12],。現(xiàn)在每年有超過3萬篇文章將單核苷酸多態(tài)性與生物性狀聯(lián)系起來。很大一部分關(guān)聯(lián)存在于曾經(jīng)被忽略的非編碼區(qū)域,。細(xì)胞功能依賴于遺傳物質(zhì)和蛋白質(zhì)之間的強(qiáng)弱聯(lián)系,。目前,已有超過30萬個(gè)基因調(diào)節(jié)網(wǎng)絡(luò)(regulatory network)的相互作用關(guān)系被表示出來,,即蛋白質(zhì)與非編碼序列互作或蛋白之間互作,。大約在20世紀(jì)80年代之前,大多數(shù)藥物的發(fā)現(xiàn)源自偶然,。藥物分子與其分子靶點(diǎn)通常是未知的,。2001年之前,了解藥物所有蛋白質(zhì)靶點(diǎn)的概率均小于50%,。在人類基因組計(jì)劃出現(xiàn)后,一切發(fā)生了轉(zhuǎn)機(jī),。近年來,,美國幾乎所有獲得許可的藥物都能清楚知曉其蛋白質(zhì)靶點(diǎn)。圖6. 自基因組計(jì)劃問世20年來“明星”基因,、“垃圾”DNA和藥物的研究趨勢 研究同時(shí)發(fā)現(xiàn),,在人類基因組計(jì)劃提供的約20000個(gè)可作為潛在藥物靶點(diǎn)的蛋白質(zhì)序列中,到目前為止只有約10%,,即2149個(gè)是被批準(zhǔn)的藥物靶點(diǎn),,這表明其余90%的蛋白質(zhì)組不受藥理學(xué)的影響[13]。在我們的數(shù)據(jù)集中,,實(shí)驗(yàn)藥物將這個(gè)數(shù)字增加到3,119,。同樣,人們對這些問題的關(guān)注度也是不盡相同。目前批準(zhǔn)的所有藥物(99種不同的分子)中,,有5%是以參與細(xì)胞生長和增殖的蛋白質(zhì)ADRA1A為靶點(diǎn),。同樣地,這種“不平衡”也有其存在的理由,。有一些蛋白質(zhì)可能對人類健康更重要,,或更傾向于成為新的藥物靶點(diǎn),而有些蛋白質(zhì)可能無法有助于藥物研發(fā),。但換言之,,如果研究人員、贊助方和出版商不那么規(guī)避風(fēng)險(xiǎn),,則可能有更多的蛋白質(zhì)被人們探索,,從而成為新興藥物靶點(diǎn)。也就是說,,大多數(shù)被成功研發(fā)的藥物并不直接針對個(gè)別疾病基因[14],。相反,它們的目標(biāo)是一兩個(gè)相互作用的蛋白質(zhì)調(diào)控錯(cuò)誤組成的結(jié)果,。例如,,我們對現(xiàn)有可治療COVID-19的藥物進(jìn)行大規(guī)模篩查后發(fā)現(xiàn),只有1%的藥物有希望針對病毒蛋白,,而大多數(shù)臨床藥物旨在用于調(diào)節(jié)人類蛋白,,且這些蛋白并不直接影響SARS-CoV-2病毒的活性[15]。綜上所述,,我們認(rèn)為人類基因組計(jì)劃比蛋白質(zhì)目錄本身更值得關(guān)注,,因?yàn)樗_創(chuàng)了基因組學(xué)的新時(shí)代。正如復(fù)雜系統(tǒng)理論所表明的那樣:理解任何一個(gè)系統(tǒng),、對其中每個(gè)元素進(jìn)行精確調(diào)查是必要的,,但又遠(yuǎn)遠(yuǎn)不能止步于此。網(wǎng)絡(luò)的復(fù)雜性恰恰來自于元素之間相互作用的多樣性,。經(jīng)過20年以人類基因組計(jì)劃為基礎(chǔ)的研究,,生物學(xué)們家現(xiàn)在對定義生命的網(wǎng)絡(luò)結(jié)構(gòu)和動(dòng)力學(xué)有了初步了解。未來,,我們也希望有更長足的進(jìn)步,。[1]Venter, J. C. et al. Science 291, 1304–1351 (2001).[2]International Human Genome Sequencing Consortium. Nature 409, 860–921 (2001).[3]Portin, P. & Wilkins, A. Genetics 205, 1353–1364 (2017).[4]Bayliss, W. M. & Starling, E. H. J. Physiol. 28, 325–353 (1902).[5]Edwards, A. M. et al. Nature 470, 163–165 (2011).[6]Bianconi, G. & Barabási, A.-L. Europhys. Lett. 54, 436 (2001).[7]Barabási, A.-L. & Albert, R. Science 286, 509–512 (1999).[8]The International HapMap Consortium. Nature 426, 789–796 (2003).[9]The 1000 Genomes Project Consortium. Nature 526, 68–74 (2015).[10]Lango Allen, H. et al. Nature 467, 832–838 (2010).[11]Speliotes, E. K. et al. Nature Genet. 42, 937–948 (2010).[12]Lencz, T. et al. Mol. Psychiatry 12, 572–580 (2007).[13]Wishart, D. S. et al. Nucleic Acids Res. 46, D1074–D1082 (2018).[14]Yildirim, M. A., Goh, K.-Il, Cusick, M. E., Barabási, A. L. & Vidal, M. Nature Biotechnol. 25, 1119–1126 (2007).[15]Gysi, D. M. et al. Preprint at https:///abs/2004.07229 (2020).原文鏈接: https://www./articles/d41586-021-00314-6網(wǎng)絡(luò)科學(xué)新課推薦:網(wǎng)絡(luò)動(dòng)力學(xué)
集智學(xué)園特邀陳關(guān)榮、項(xiàng)林英,、樊瑛,、宣琦、李翔,、史定華,、李聰,、榮智海、周進(jìn),、王琳等網(wǎng)絡(luò)科學(xué)專家作為導(dǎo)師,,依托汪小帆、李翔,、陳關(guān)榮的經(jīng)典教材《網(wǎng)絡(luò)科學(xué)導(dǎo)論》,,自2月27日起開展系列上線課程,以網(wǎng)絡(luò)動(dòng)力學(xué)為主線構(gòu)建網(wǎng)絡(luò)科學(xué)知識體系,。歡迎希望進(jìn)入網(wǎng)絡(luò)科學(xué)領(lǐng)域,、提高網(wǎng)絡(luò)分析能力、與一線專家探討問題的朋友報(bào)名參加,!
|