久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

英國(guó)50萬(wàn)人研究的大型健康表型與基因型數(shù)據(jù)公開可申請(qǐng)了,!

 生物_醫(yī)藥_科研 2018-12-15


文章題目:The UK Biobank resource with deep phenotyping and genomic data

研究人員:Clare Bycroft團(tuán)隊(duì)

發(fā)表時(shí)間:2018. 10

期刊名稱:Nature

影響因子:41.577


研究亮點(diǎn)

英國(guó)生物數(shù)據(jù)庫(kù)(UK Biobank)是一個(gè)前瞻性的隊(duì)列研究項(xiàng)目,。該項(xiàng)目收集了來(lái)自英國(guó)的約50萬(wàn)人的深度遺傳和表型數(shù)據(jù),人群的年齡在40-69歲之間,。該項(xiàng)目所開放的資源的規(guī)模和范圍都是明顯超過(guò)其他相關(guān)開放資源的,。在這50萬(wàn)人的大型健康數(shù)據(jù)中,每個(gè)參與者都有豐富的表型和健康相關(guān)信息,,包括生物測(cè)量,、生活方式指標(biāo)、血液和尿液中生物標(biāo)志物以及軀干,、大腦的成像圖,。 該項(xiàng)目通過(guò)將健康和醫(yī)療記錄聯(lián)系起來(lái),提供追蹤研究(follow-up)時(shí)的資料,。可貴的是,,UK Biobank竟然對(duì)所有參與者都收集了全基因組(genome-wide)基因型數(shù)據(jù)。這為尋找新的遺傳相關(guān)性與復(fù)雜性狀的遺傳基礎(chǔ)提供了許多機(jī)會(huì),。

在本文里研究者描述了對(duì)遺傳數(shù)據(jù)的集成式分析,,包括基因型質(zhì)量、種群結(jié)構(gòu)特性和遺傳數(shù)據(jù)的相關(guān)性,,以及高效的階段化和基因型估算,可測(cè)變異數(shù)量增加到約9600萬(wàn),。同時(shí),,作者總結(jié)了UK Biobank所有表型資源的現(xiàn)有內(nèi)容,以及他們的一些研究計(jì)劃,。同時(shí)也描述了全部50萬(wàn)參與者的基因型數(shù)據(jù)集,。UKB采用了一系列質(zhì)控程序,并進(jìn)行了諸多分析,,解釋了遺傳數(shù)據(jù)的特性,,例如人口結(jié)構(gòu)和相關(guān)性,這對(duì)于下游分析非常重要,。此外,,研究者還估計(jì)了單倍型和推斷基因型,放進(jìn)數(shù)據(jù)集,,這使得可測(cè)試的變異數(shù)量增加100倍以上,,達(dá)到約9600萬(wàn)個(gè)變體。


UK Biobank 介紹

在大約50萬(wàn)名UK Biobank參與者中,,研究者團(tuán)隊(duì)對(duì)每個(gè)參與者都收集了各種各樣的表型信息和生物樣本,。在招募參與者時(shí),,每個(gè)參與者提供電子簽名同意書,并回答關(guān)于社會(huì)人口特征,、生活方式和健康相關(guān)因素的問(wèn)題等,。他們還提供了血液、尿液和唾液樣本,,這些樣本可以儲(chǔ)存起來(lái)進(jìn)行許多不同類型的研究(例如:基因組,、蛋白質(zhì)組和代謝組學(xué)分析)。一旦招募工作完全展開,,更深一步的評(píng)估訪問(wèn)將會(huì)進(jìn)行,,包括一系列的眼部測(cè)量,心電圖測(cè)量,,動(dòng)脈僵硬度和聽力的測(cè)試,。

如圖1所示,采集的數(shù)據(jù)類型包括社會(huì)人口特征和生活方式因素,、腦部成像(MRI)認(rèn)知測(cè)試,、聽力和視力測(cè)量、體育活動(dòng)監(jiān)控(采用健康手環(huán)),、心臟與軀體成像(MRI),、心臟和肺部功能測(cè)量、生物樣本采集(血液,、唾液,、尿液采集,用于生化標(biāo)記和基因組分析),,骨骼和關(guān)節(jié)的全身雙能X光吸收,、身體尺寸和阻抗測(cè)量。數(shù)據(jù)采集將與電子病例,、死亡登記,、癌癥記錄同步。與此同時(shí),,進(jìn)行UK Biobank Axiom基因芯片的分析,,得到的數(shù)據(jù)包括全基因組的覆蓋的63萬(wàn)芯片位點(diǎn),,稀有變異及編碼變異125000個(gè)位點(diǎn),目標(biāo)區(qū)域生物標(biāo)記47000個(gè)位點(diǎn),,與特異性表型相關(guān)聯(lián)的生物標(biāo)記45000個(gè)位點(diǎn)。基線的信息將以幾種方式繼續(xù)追蹤擴(kuò)展,。例如,,在一部分群體中每隔幾年進(jìn)行重復(fù)評(píng)估,,以便能校準(zhǔn)測(cè)量數(shù)據(jù),調(diào)整回歸稀釋偏移和估計(jì)時(shí)間線上的變化,。截止20185月,,共有1萬(wàn)4千多人死亡,,7.9萬(wàn)名人患癌,,40萬(wàn)參與者至少住院一次,。目前正在采集其他國(guó)家數(shù)據(jù)庫(kù)的數(shù)據(jù),包括初級(jí)醫(yī)護(hù),,篩查方案與針對(duì)特別疾病的登記,,同時(shí)也聯(lián)系參與和進(jìn)行在線問(wèn)卷調(diào)查,。

此外,各種研究興趣指標(biāo)也得到了測(cè)量,,包括與疾病相關(guān)的(例如影響血管病的脂類和影響癌癥的性激素),,與診斷價(jià)值相關(guān)的(例如糖尿病的HbA1c酶和與關(guān)節(jié)炎有關(guān)的風(fēng)濕因子),以及去評(píng)估其他沒(méi)有被透徹評(píng)估的一些表型(例如肝功能和腎功能的標(biāo)記物),。UKB不僅規(guī)模龐大,,它之所以在學(xué)界飽譽(yù)盛名,還是因?yàn)樗且粋€(gè)開放性的資源,,它鼓勵(lì)全世界的研究人員申請(qǐng)數(shù)據(jù),,包括學(xué)術(shù)目的,、慈善目的和公共部門與商業(yè)部門,,為任何符合公眾利益的健康相關(guān)研究來(lái)獲取數(shù)據(jù),。


全基因組基因分型

UKB包含了488,377個(gè)參與者的基因型。如此龐大的人群基因型數(shù)據(jù),是用兩個(gè)很相似的基因分型芯片來(lái)測(cè)定的,。分別是UK BiLEVE Axiom芯片(807,411個(gè)標(biāo)記分型)和Applied Biosystems UK Biobank Axiom芯片(825,927個(gè)標(biāo)記分型),,二者95%的標(biāo)記物內(nèi)容是一樣的,,后者應(yīng)用到絕大多數(shù)參與者,。芯片是用來(lái)捕獲SNP和INDEL的,,如圖1中的總結(jié),。另外該芯片還包括了次等位基因頻率(MAF)的變體,,包括稀有標(biāo)記( 頻率<1%)。另外在歐洲人群中常見(>5%)和低頻(1-5%)的MAF范圍下,,這些標(biāo)記物提供了良好的基因組范圍的覆蓋以便推測(cè),。

與此同時(shí),本研究項(xiàng)目對(duì)于人種也有專門的設(shè)計(jì),。參與者須報(bào)告他們的人種背景,。然而大多數(shù)(94%)的參與者報(bào)告為白人,僅有少數(shù)歐洲以外的族裔,。

研究通過(guò)統(tǒng)計(jì)測(cè)試來(lái)篩出質(zhì)量較差的芯片標(biāo)記,,通過(guò)統(tǒng)計(jì)測(cè)試后,研究者將檢測(cè)基因型缺失率設(shè)為0.97%,,跟昂飛芯片相比,。同時(shí),基因型性別(X,Y染色體的芯片標(biāo)記的相對(duì)強(qiáng)度)與報(bào)告的性別若有不符,,可以作為依據(jù)來(lái)檢測(cè)樣本處理錯(cuò)誤或其他類型的錯(cuò)誤,。當(dāng)然,除了人為的錯(cuò)誤外,,也可能會(huì)出現(xiàn)一些特例,,如變性者、兩性人,,或者罕見的基因突變,、染色體變異等。但總的來(lái)說(shuō),,檢測(cè)出與報(bào)告性別不一樣的參與者對(duì)于后續(xù)的研究而言還是必要的,。

 

圖2 基因型數(shù)據(jù)質(zhì)量控制情況匯總

圖a表示MAF(次等位基因頻率)在UK Biobank中的大小分布直方圖,。如圖所示,頻率越低,,直方柱越高,。這也符合研究的邏輯,MAF實(shí)際上是多態(tài)性和突變的一種體現(xiàn),,而大多數(shù)位點(diǎn)出現(xiàn)的變體,,其等位基因頻率是很低的,很多SNP變體也許只在一個(gè)參與者身上發(fā)生,。圖a中嵌套的小圖只體現(xiàn)了MAF值小于0.01的部分,,可以看出較多的生物標(biāo)記抓取到的次等位基因的計(jì)數(shù)在1000-10000之間;圖b 主要是描述質(zhì)控過(guò)濾掉的標(biāo)記的情況,,可以看出絕大多數(shù)批次都通過(guò)質(zhì)控(橫坐標(biāo)為零),;圖c對(duì)比了UK Biobank和另一個(gè)歐洲數(shù)據(jù)庫(kù)ExAC的次等位基因頻率分布對(duì)比,發(fā)現(xiàn)了相似性,,研究者應(yīng)該是以此來(lái)證明UK Biobank MAF值總體的可靠性,;圖d主要是體現(xiàn)質(zhì)控中報(bào)告性別和測(cè)得基因型性別相符以及不服的情況,不符的各自情況分類并進(jìn)行在圖上進(jìn)行了標(biāo)記,。


研究成果

UK Biobank隊(duì)列研究的人群結(jié)構(gòu),,是采用主成分分析進(jìn)行測(cè)算的。研究者使用的算法叫做fastPCA,,該算法通過(guò)近似出只在最頂端的n個(gè)可以解釋最多變異的主成分,,來(lái)在數(shù)據(jù)集上運(yùn)作。此次研究中主成分分析表現(xiàn)良好,。這個(gè)算法只使用最頂端的n主成分來(lái)解釋最多的變異,,所以需要事先指定好n值。在本次研究中,,研究者用了通過(guò)最小化連鎖不平衡(minimise linkage disequilibrium)得到的407219個(gè)互不相干的高質(zhì)量樣本和147604個(gè)高質(zhì)量標(biāo)記,,來(lái)計(jì)算出40個(gè)頂端主成分。之后研究者計(jì)算了主成分負(fù)荷,,并把所有樣本投入到主成分中,,從而形成了一個(gè)集合,包含所有樣本的主成分得分,。

正如研究預(yù)期一樣,,主成分分?jǐn)?shù)相近的個(gè)體,也存在相似的民族背景(自我報(bào)告),。背景資料與基因型結(jié)果的一致性,,在該研究中實(shí)際上起到了互相印證的效果,同時(shí)提高了背景調(diào)查,、芯片測(cè)序結(jié)果,、主成分分析算法這三者的置信能力,。

圖3 祖先多樣性和家族關(guān)系

圖a 的每個(gè)點(diǎn)表示一個(gè)樣本,共488,377個(gè)點(diǎn),。每個(gè)樣本根據(jù)主成分分析的4項(xiàng)主要成分的得分的不同,在二維平面上排列成兩張圖,。每個(gè)點(diǎn)的顏色根據(jù)自我報(bào)告的民族/國(guó)家/人種而不同,,例如華裔就用紅色指代,最終在圖上也富集成了紅色區(qū)域,。反之,,如果自我報(bào)告結(jié)果和主成分分析結(jié)果不吻合,是無(wú)法形成純色的區(qū)域的,;圖b表示的是參與者的親屬分布數(shù)量,,例如親兄弟姐妹用藍(lán)色表示??梢钥吹皆谡碛H緣關(guān)系后,,只有1位親屬一起參與了該研究的參與者比較多。其實(shí)有的分析是要排除掉有親緣關(guān)系的個(gè)體的,,因?yàn)榭赡芴岣邩颖局g的關(guān)聯(lián)性,,造成偏差。所以做這項(xiàng)分析對(duì)下游分析來(lái)說(shuō)也是必要的,;圖c表示了一些通過(guò)家庭關(guān)系分析以后,,得出的家庭關(guān)系的例子。點(diǎn)代表參與者,,線代表他們之間的推斷關(guān)系,,線的顏色同圖b,每個(gè)網(wǎng)絡(luò)上的數(shù)顯示的是忽略了三級(jí)對(duì)后的同類型的家庭網(wǎng)絡(luò)在總樣本中有多少個(gè),。

根據(jù)HLA*IMP: 02的報(bào)告,,研究者將每個(gè)位點(diǎn)(loci)上的HLA基因型定義為具有最大后驗(yàn)概率的等位基因?qū)ΑK麄冎饕褂玫姆治鱿嚓P(guān)性的方法是對(duì)HLA等位基因和每種疾?。ㄈ?型糖尿病和心肌梗死等)使用邏輯回歸,,結(jié)果是沒(méi)有發(fā)現(xiàn)顯著性的相關(guān)性。

另外,,研究者還對(duì)參與者的站立高度,,即身高進(jìn)行了全基因組關(guān)聯(lián)分析(GWAS)。這項(xiàng)分析的目的是評(píng)估直接測(cè)出的基因型與推斷出的數(shù)據(jù)(如HLA基因型)的使用潛力,。研究者對(duì)34萬(wàn)個(gè)歐洲血統(tǒng)的互不相關(guān)(根據(jù)上文的血緣分析)的個(gè)體進(jìn)行了全基因組關(guān)聯(lián)分析,。他們將分析結(jié)果與歐洲GIANT聯(lián)盟數(shù)據(jù)庫(kù)的25萬(wàn)個(gè)體的薈萃分析(meta-analysis)結(jié)果進(jìn)行對(duì)比。結(jié)果則很喜人,,兩個(gè)數(shù)據(jù)庫(kù)的身高指標(biāo)的全基因組關(guān)聯(lián)分析的z-score是相似的,。而且UK Biobank的統(tǒng)計(jì)功效(power)還要超過(guò)GIANT,。這可以說(shuō)是UK Biobank數(shù)據(jù)有效性的一個(gè)有力證據(jù)。


文章總結(jié)

除了諸多表型外,,UK Biobank早已臨時(shí)公布了15萬(wàn)參與者的基因型數(shù)據(jù),,這些數(shù)據(jù)通過(guò)外部的研究者,向UK Biobank 反饋研究結(jié)果,。并且該隊(duì)列研究還在逐漸添加一些表型信息,。這些結(jié)果已匯成成千上萬(wàn)的表型GWAS結(jié)果。與此同時(shí),,另一篇牛津大學(xué)基于UK Biobank數(shù)據(jù)的腦成像遺傳性研究也同時(shí)在Nature期刊上發(fā)布了,。而如今,全部基因數(shù)據(jù)的可申請(qǐng)獲取性,,將加速這一領(lǐng)域發(fā)展,。

本研究中介紹的UK Biobank遺傳及表型數(shù)據(jù)集可通過(guò)訪問(wèn)申請(qǐng)使用。(參見http://www./register-apply/


小編評(píng)論

UK Biobank的公開對(duì)于流行病學(xué)研究,、大型遺傳學(xué)研究來(lái)說(shuō),,都意義重大。很多等位基因,,由于頻率低的緣故,,許多小樣本研究難以分析。而50萬(wàn)人的大數(shù)據(jù),,增加了很多分析可能性,。可以說(shuō)推動(dòng)了整個(gè)健康領(lǐng)域發(fā)展也不為過(guò),。當(dāng)然,,前提是研究者想申請(qǐng)的數(shù)據(jù),在UK Biobank中存在,。這也體現(xiàn)出UK Biobank數(shù)據(jù)可贊之處,,該項(xiàng)目是前瞻性的隊(duì)列研究,這意味著數(shù)據(jù)類型,、數(shù)據(jù)隊(duì)列和數(shù)據(jù)質(zhì)量是可以被補(bǔ)充和修正的,。這使得UKB的數(shù)據(jù)潛力巨大。而為了證明這大量的數(shù)據(jù),,并沒(méi)有太大噪聲和偏差,,UKB不僅做了詳盡的過(guò)濾和質(zhì)量控制,還做了配套的分析和對(duì)比,,例如身高的GWAS與其他數(shù)據(jù)庫(kù)來(lái)進(jìn)行對(duì)比,,交叉驗(yàn)證。此外,,還同步與牛津大學(xué)合作發(fā)表了一篇高質(zhì)量的大腦成像遺傳學(xué)相關(guān)文章,,算是小試牛刀,,驗(yàn)證該數(shù)據(jù)的潛力,真的是可以應(yīng)用在非常多的醫(yī)療健康亞領(lǐng)域,。臨床基礎(chǔ)研究,、流行病學(xué)研究到遺傳學(xué)研究、生物信息學(xué)研究都可以從中獲利,。美中不足的是英國(guó)人群的祖源分布較為單調(diào),,文章也有指出,大多數(shù)祖先被驗(yàn)證為歐洲白人,。這使得研究人群基于其他人種甚至混合人種的研究能獲取的等位基因頻率和疾病的參考性較低。不過(guò)好處是,,這也使得UKB可以被視為歐洲白人人群的數(shù)據(jù)庫(kù),,沒(méi)有因人群混合而帶來(lái)太多不可預(yù)判的偏差。總之,,UK Biobank使其數(shù)據(jù)公開可申請(qǐng)這一舉措,,將會(huì)使全世界的健康領(lǐng)域研究者從中受益。



參考文獻(xiàn)

[1] Peter Donnelly, Jonathan Marchini, et al. The UK Biobank resource with deep phenotyping and genomic data[J]. Nature, 2018,562: 203–209.

 

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多