遺傳資源數(shù)據(jù)庫之1000genomes

微笑如酒 2017-11-13

展開全文

引入

提起1000genomes，就不得不提轟動(dòng)一時(shí)的千人基因組計(jì)劃。國際千人基因組計(jì)劃”自2008年啟動(dòng)，旨在繪制迄今為止最詳盡、最有醫(yī)學(xué)應(yīng)用價(jià)值的人類基因組遺傳多態(tài)性圖譜,。，其參與者包括了包括英國的Sanger研究所,，中國的深圳華大基因研究院（BGI Shenzhen）,，以及美國的國立衛(wèi)生研究院（NIH）下屬的美國人類基因組研究所（NHGRI）。

背景簡介

2010年6月21日,，由中國深圳華大基因研究院,、英國桑格研究所和美國國立人類基因組研究所等共同發(fā)起并主導(dǎo)的“國際千人基因組計(jì)劃”協(xié)作組對(duì)外宣布：該計(jì)劃第一階段的“3個(gè)先導(dǎo)項(xiàng)目”已圓滿完成，全部數(shù)據(jù)已存儲(chǔ)于該計(jì)劃所設(shè)立的公共數(shù)據(jù)庫,，公眾可免費(fèi)獲取和瀏覽第一階段產(chǎn)生的全部數(shù)據(jù) ,。這就是現(xiàn)在的1000genomes數(shù)據(jù)庫。

第一個(gè)先導(dǎo)項(xiàng)目運(yùn)用多種下一代高通量測(cè)序技術(shù)平臺(tái),，完成了兩個(gè)核心家庭共6人的高覆蓋度全基因組測(cè)序,，每個(gè)基因組的測(cè)序深度在20～60倍,。通過此項(xiàng)目，可以評(píng)價(jià)多種主要測(cè)序方法的優(yōu)缺點(diǎn),，為“國際千人基因組計(jì)劃”的后續(xù)項(xiàng)目掃清技術(shù)障礙,。
第二個(gè)先導(dǎo)項(xiàng)目完成了179人的低覆蓋度全基因組測(cè)序，平均測(cè)序深度在3倍,。數(shù)據(jù)表明,，大樣本低覆蓋度測(cè)序在降低成本的同時(shí)，仍然能有效識(shí)別人群中的基因多樣性,。
第三個(gè)先導(dǎo)項(xiàng)目通過對(duì)700人的1000個(gè)基因外顯子的測(cè)序,，獲得了占人類基因組全部序列2%的蛋白質(zhì)編碼基因名錄。前所未有的大樣本量有助于研究人群罕見變異的表達(dá)圖譜,。

該數(shù)據(jù)庫最終將包含來自全球27個(gè)族群的2500個(gè)人的全部基因組信息,。目前產(chǎn)生的數(shù)據(jù)量已達(dá)到50TB（5萬GB），包含8萬億個(gè)DNA堿基對(duì),。這一數(shù)據(jù)資源是一個(gè)開放的公共資源,，為各種疾病的關(guān)聯(lián)分析提供詳細(xì)的基礎(chǔ)數(shù)據(jù)；為解釋人類重大疾病發(fā)病機(jī)理,、開展個(gè)性化預(yù)測(cè),、預(yù)防和治療打下基礎(chǔ)。此外,，該項(xiàng)目還加深了人們對(duì)人類群體遺傳學(xué)的理解,，促進(jìn)人類進(jìn)化史的研究。目前已完成的3個(gè)先導(dǎo)項(xiàng)目是為了驗(yàn)證多種測(cè)序方法對(duì)于東亞,、歐洲和非洲人群中遺傳多態(tài)性頻率不低于1%的鑒別能力，這將大大高于之前完成的國際單倍體型計(jì)劃（HapMap計(jì)劃）5%～10%的遺傳多態(tài)性的檢出能力,。

FTP結(jié)構(gòu)

FTP 結(jié)構(gòu)(README.ftp_structure) 千人基因組計(jì)劃有兩個(gè)主要的 ftp 站點(diǎn)鏡像： ftp://ftp.1000genomes.ebi.ac.uk ftp://ftp-trace.ncbi.nih.gov/1000genomes/ ftp 的遵循一些基本的結(jié)構(gòu)：

1.在頂層有 6 個(gè)目錄,，分別是 data、 release,、 sequence_indices,、 alignment_indices、 technical 和 changelog_details,。還有一個(gè) pilot_data 目錄,，它包含來自初步研究（pilot study）的數(shù)據(jù)，以及Index files,。

1) data：data 目錄包含主要工程的每個(gè)個(gè)體的子目錄,，每個(gè)單獨(dú)的子目錄也包含一系列的子目錄--包含不同的數(shù)據(jù)集，例如 sequence reads 和 sequence alignments 等,。 individual id 或 coriell sample names /technical/working/20140502_ sample_ summary_ info/以及/technical/working/20130606_ sample_ info/中有 individual id 與 population 對(duì)應(yīng)的信息,。

2) release：包含日期命名的目錄,，這些目錄又包含發(fā)布于那個(gè)日期的分析結(jié)果集，并且也包含 readme 用于解釋這些數(shù)據(jù)集是怎么產(chǎn)生的,。release 目錄以后（此 readme 文件創(chuàng) 建日期為 20110404 ）將基于 YYYYMMDD.sequence.index（這一文件保存在 ftp/sequence_indices/目錄下）中的日期格式進(jìn)行命名,。在這些 YYYYMMDD 目錄中的 SNP 和 indel calls 等是基于 YYYYMMDD.sequence.index 文件所列出的數(shù)據(jù)比對(duì)產(chǎn)生的。例如：目錄 ftp/release/20100804/中包含的 SNP 和 indels calls 的發(fā)布版本是基于 ftp/sequence_indices/20100804.sequence.index 文件產(chǎn)生的,。

3) technical：這一目錄包含許多的子目錄--包含諸如模擬產(chǎn)生的數(shù)據(jù)集或方法開發(fā)產(chǎn)生的interm 數(shù)據(jù)集文件等,。注意：technical/working 目錄--這一目錄包含的數(shù)據(jù)有 experimental status（未公開發(fā)表），適合內(nèi)部項(xiàng)目使用,。請(qǐng)小心使用,。

4) sequence_indices：這個(gè)目錄包含所有先前產(chǎn)生的 sequence.index 文件。每個(gè)文件以 YYYYMMDD 開頭,，表明了它的發(fā)布日期,。出現(xiàn)在主要項(xiàng)目 bam 文件名字中日期將這些 bam 文件連接到了相應(yīng)的序列，因?yàn)?sequence.index 文件名中包含相同的日期,。最近的文件也應(yīng)該與 ftp/sequence.index 文件相匹配,。例子：NA10851.unmapped.ILLUMINA.bwa.CEU.low_coverage.20101123.bam 文件被創(chuàng)建是使用了 ftp/sequence_indices/20101123.sequence.index 文件中列出的 NA12878 low_coverage sequence 文件，每個(gè) sequence.index 文件都伴隨著兩種類型的統(tǒng)計(jì)文件（stats.cvs 和 .stats）,，每個(gè) YYYMMDD_sequence.index.stats 文件包含 summary 信息--關(guān)于序列數(shù)據(jù) 的 Study/Population/Center/Sample coverage 統(tǒng)計(jì)量,。

.stats 文件名中包含測(cè) 序策略名稱 (exome,low_coverage) ，這些名稱包含 summary 信息的一個(gè)子集（只與 exome/low_coverage 信息有關(guān)） ,，而 summary 信息包含在 YYYMMDD_sequence.index.stats 中,。例如： 20101123.sequence.index.exome.stats 20101123.sequence.index.low_coverage.stats .cvs 統(tǒng) 計(jì) 文件給出了來自 sequence.index 文件的 Population, Center 和 Sequencing platform 發(fā)生的增量變化。例如：文件 20101101_ 20101123.exome_ stats.csv 20101101_ 20101123.low_ coverage_stats.csv 給出了 2010110.sequence.index 文件和 20101123.sequence.index 文件中列出數(shù)據(jù)的摘要信息差異,。

5) alignment_indices：這個(gè) 目錄包含所有先前產(chǎn) 生的 alignment.index 文件 ,，每個(gè) 文件開頭的 YYYMYDD 表明所基于的 sequence.index 文件的比對(duì)。最近的文件也應(yīng)該與 ftp/sequence.index 文件相匹配,。你可能也會(huì)發(fā)現(xiàn) stats 文件,，例如 20101123.alignment.index.bas.gz These contain all the .bas files for the bam files in the release concatenated into a single file. 也有 stats 文件，如 20101123_ 20100901.alignment_ stats.low_ coverage.csv,，這種類型的文件包含與 sequence_ indices 目錄中的 stats 文件類似的信息,。

6) changelog_details：為了保證主要的 root-level CHANGELOG 可讀性和滾動(dòng)性，任何 ftp 站點(diǎn)內(nèi)容的改變會(huì)被總結(jié)在此目錄中,。這些文件的命名可反映了 when 和 what 改變發(fā)生了,，例如'new', 'moved', 'replacement' or 'withdrawn'。例子： changelog_details_ 20110216_ new changelog_ details20110216replacement changelog_ details_ 20110216_ withdrawn changelog_ details_ 20110216_ moved,。

7) pilot_data：這代表一個(gè)凍結(jié)版本的 pilot 數(shù)據(jù),。它包含了與主要 ftp 目錄具有相同目錄形式大部分的目錄。

8) Index files：千人基因組產(chǎn)生的數(shù)據(jù)量是前所未有的。為確保所有數(shù)據(jù)都能易于定位到最近更新的序列和比對(duì) 文件 ,，因此有了 index files ,。 ftp/sequence.index 文件和 ftp/alignment.index 文件。這些文件的格式說明在： ftp/README.sequence.index 文件和 ftp/README.alignment.index 文件中,。這些 index files 應(yīng)該可以為你提供足夠的信息下載文件 subsets(基于 study, individual or technology),。它們也包含文件的 md5s。主要項(xiàng)目的比對(duì)文件名中也包含相似的信息： data/NA12878/alignment/NA12878.chromY.SOLID.bfast.CEU.high_coverage.20100 125.bam data/NA12878/alignment/NA12878.chrom20.LS454.ssaha2.CEU.exon_targetted.201 00311.bam data/NA12878/alignment/NA12878.unmapped.LS454.ssaha2.CEU.exon_targetted.20 100311.bam data/NA12878/alignment/NA12878.nonchrom.ILLUMINA.bwa.CEU.exon_targetted. 20100311.bam 文件名組分：

文件名以來自 Corelli/Hapmap 的 sample 名開始,。
如果比對(duì)過程已經(jīng)利用染色體 split,，那么文件命中會(huì)包含染色體名。
測(cè)序技術(shù)為 next, ILLUMINA for illumina, LS454 for 454 and SOLID for SOLiD,。
the aligner used 名字縮寫（bwa, bfast 等）,。
population 縮寫為三個(gè)字符。
The analysis group of the sequence, this reflects sequencing strategy - sequence.index 文件的發(fā)布日期包含序列文件的列表用于構(gòu)建 alignment 文件,。（對(duì)于 ftp/pilot_data 中的 alignment 文件 SLX for illumina, 454 for 454 and SOLID for SOLiD,。 The SRP is the study identifier, 31 is pilot1 low coverage, 32 is pilot2 high coverage, 33 is pilot3 gene targetted sequencing。）如果文件名包含“ unmapped ” ,， bam 代表與個(gè)體相關(guān)的 reads 沒有 map the reference. 每個(gè) bam 文件都伴隨一個(gè) index 文件（.bai）和一個(gè)統(tǒng)計(jì)文件（.bas）可以查看 ftp/README.alignment_data 文件中找到關(guān)于.bas 文件的描述,。所有比對(duì)都與 the reference（ftp/technical/reference/）進(jìn)行了比較。 pilot/data alignments are against the NCBI Build 36 reference. Main project alignments are against the GRCh37 reference.

2.頂層還包含兩個(gè)主要的 index 文件： ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/sequence.index ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/alignment.index 序列數(shù)據(jù)（README.sequence_data）這一 readme 文件描述了 ftp 站點(diǎn)上的序列數(shù)據(jù),，它是如何處理以及序列數(shù)據(jù)中哪些信息是可用的,。目錄結(jié)構(gòu)和 sequence index 文件：所有的序列數(shù)據(jù)都是 fastq 格式，它給出了一段序列以及每個(gè) read 的質(zhì)量字符串,。序列文件存在/data/XXXXXX/sequence_read 目錄中（ XXXXXX 代表樣本名,， this should be in the form or coriell sample names HGXXXXX or NAXXXXX）。與 meta 數(shù)據(jù)相關(guān)的一個(gè)特殊文件（包含 meta 數(shù)據(jù) md5sum）可以在 sequence.index 文件中找到,。這是一個(gè) tab 分割的文件,，它的每一列都包含一塊不同的 meta 信息。

下載

千人基因組數(shù)據(jù)庫：1092人基因庫,，250T左右

介紹：http://www./
下載：

uk：ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/

NCBI FTP Site : ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp

Amazon S3 : s3://1000genomes

補(bǔ)充

如何在該數(shù)據(jù)庫下載某段區(qū)域SNP,？

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：微笑如酒 > 《數(shù)據(jù)庫》

舉報(bào)/認(rèn)領(lǐng)