引入提起1000genomes,就不得不提轟動(dòng)一時(shí)的千人基因組計(jì)劃。國際千人基因組計(jì)劃”自2008年啟動(dòng),旨在繪制迄今為止最詳盡、最有醫(yī)學(xué)應(yīng)用價(jià)值的人類基因組遺傳多態(tài)性圖譜,。,其參與者包括了包括英國的Sanger研究所,,中國的深圳華大基因研究院(BGI Shenzhen),,以及美國的國立衛(wèi)生研究院(NIH)下屬的美國人類基因組研究所(NHGRI) 。 背景簡介2010年6月21日,,由中國深圳華大基因研究院,、英國桑格研究所和美國國立人類基因組研究所等共同發(fā)起并主導(dǎo)的“國際千人基因組計(jì)劃”協(xié)作組對(duì)外宣布:該計(jì)劃第一階段的“3個(gè)先導(dǎo)項(xiàng)目”已圓滿完成,全部數(shù)據(jù)已存儲(chǔ)于該計(jì)劃所設(shè)立的公共數(shù)據(jù)庫,,公眾可免費(fèi)獲取和瀏覽第一階段產(chǎn)生的全部數(shù)據(jù) ,。這就是現(xiàn)在的1000genomes數(shù)據(jù)庫。
該數(shù)據(jù)庫最終將包含來自全球27個(gè)族群的2500個(gè)人的全部基因組信息,。目前產(chǎn)生的數(shù)據(jù)量已達(dá)到50TB(5萬GB),包含8萬億個(gè)DNA堿基對(duì),。這一數(shù)據(jù)資源是一個(gè)開放的公共資源,,為各種疾病的關(guān)聯(lián)分析提供詳細(xì)的基礎(chǔ)數(shù)據(jù);為解釋人類重大疾病發(fā)病機(jī)理,、開展個(gè)性化預(yù)測(cè),、預(yù)防和治療打下基礎(chǔ)。此外,,該項(xiàng)目還加深了人們對(duì)人類群體遺傳學(xué)的理解,,促進(jìn)人類進(jìn)化史的研究。目前已完成的3個(gè)先導(dǎo)項(xiàng)目是為了驗(yàn)證多種測(cè)序方法對(duì)于東亞,、歐洲和非洲人群中遺傳多態(tài)性頻率不低于1%的鑒別能力,這將大大高于之前完成的國際單倍體型計(jì)劃(HapMap計(jì)劃)5%~10%的遺傳多態(tài)性的檢出能力,。 FTP結(jié)構(gòu)FTP 結(jié)構(gòu)(README.ftp_structure) 千人基因組計(jì)劃有兩個(gè)主要的 ftp 站點(diǎn)鏡像: ftp://ftp.1000genomes.ebi.ac.uk ftp://ftp-trace.ncbi.nih.gov/1000genomes/ ftp 的遵循一些基本的結(jié)構(gòu): 1.在頂層有 6 個(gè)目錄,, 分別是 data、 release,、 sequence_indices,、 alignment_indices、 technical 和 changelog_details,。還有一個(gè) pilot_data 目錄,,它包含來自初步研究 (pilot study)的數(shù)據(jù),以及Index files,。 1) data:data 目錄包含主要工程的每個(gè)個(gè)體的子目錄,, 每個(gè)單獨(dú)的子目錄也包含一系列 的子目錄--包含不同的數(shù)據(jù)集,例如 sequence reads 和 sequence alignments 等,。 individual id 或 coriell sample names /technical/working/20140502_ sample_ summary_ info/以及/technical/working/20130606_ sample_ info/中有 individual id 與 population 對(duì)應(yīng)的信息,。 2) release:包含日期命名的目錄,, 這些目錄又包含發(fā)布于那個(gè)日期的分析結(jié)果集,并且也 包含 readme 用于解釋這些數(shù)據(jù)集是怎么產(chǎn)生的,。release 目 錄 以 后 ( 此 readme 文 件 創(chuàng) 建 日 期 為 20110404 ) 將 基 于 YYYYMMDD.sequence.index(這一文件保存在 ftp/sequence_indices/目錄下)中 的日期格式進(jìn)行命名,。在這些 YYYYMMDD 目錄中的 SNP 和 indel calls 等是基 于 YYYYMMDD.sequence.index 文件所列出的數(shù)據(jù)比對(duì)產(chǎn)生的。 例如:目錄 ftp/release/20100804/中包含的 SNP 和 indels calls 的發(fā)布版本是基于 ftp/sequence_indices/20100804.sequence.index 文件產(chǎn)生的,。 3) technical:這一目錄包含許多的子目錄--包含諸如模擬產(chǎn)生的數(shù)據(jù)集或方法開發(fā)產(chǎn)生的interm 數(shù)據(jù)集文件等,。 注意:technical/working 目錄--這一目錄包含的數(shù)據(jù)有 experimental status(未公 開發(fā)表) ,適合內(nèi)部項(xiàng)目使用,。請(qǐng)小心使用,。 4) sequence_indices:這個(gè)目錄包含所有先前產(chǎn)生的 sequence.index 文件。 每個(gè)文件以 YYYYMMDD 開頭,,表明了它的發(fā)布日期,。出現(xiàn)在主要項(xiàng)目 bam 文件名字中日期將這些 bam 文件連接到了相應(yīng)的序列,因?yàn)?sequence.index 文件名中包含相同的日期,。 最近的文件也應(yīng)該與 ftp/sequence.index 文件相匹配,。 例子:NA10851.unmapped.ILLUMINA.bwa.CEU.low_coverage.20101123.bam 文 件被創(chuàng)建是使用了 ftp/sequence_indices/20101123.sequence.index 文件中列出的 NA12878 low_coverage sequence 文件,每個(gè) sequence.index 文件都伴隨著兩種類型的統(tǒng)計(jì)文件(stats.cvs 和 .stats),,每個(gè) YYYMMDD_sequence.index.stats 文件包含 summary 信息--關(guān)于序列數(shù)據(jù) 的 Study/Population/Center/Sample coverage 統(tǒng)計(jì)量,。 .stats 文 件 名 中 包 含 測(cè) 序 策 略 名 稱 (exome,low_coverage) , 這 些 名 稱 包 含 summary 信息的一個(gè)子集(只與 exome/low_coverage 信息有關(guān)) ,,而 summary 信 息包含在 YYYMMDD_sequence.index.stats 中,。 例如: 20101123.sequence.index.exome.stats 20101123.sequence.index.low_coverage.stats .cvs 統(tǒng) 計(jì) 文 件 給 出 了 來 自 sequence.index 文 件 的 Population, Center 和 Sequencing platform 發(fā)生的增量變化。 例如:文件 20101101_ 20101123.exome_ stats.csv 20101101_ 20101123.low_ coverage_stats.csv 給出了 2010110.sequence.index 文件和 20101123.sequence.index 文件中列出數(shù)據(jù)的摘要信息差異,。 5) alignment_indices:這 個(gè) 目 錄 包 含 所 有 先 前 產(chǎn) 生 的 alignment.index 文 件 ,, 每 個(gè) 文 件 開 頭 的 YYYMYDD 表明所基于的 sequence.index 文件的比對(duì)。 最近的文件也應(yīng)該與 ftp/sequence.index 文件相匹配,。 你可能也會(huì)發(fā)現(xiàn) stats 文件,,例如 20101123.alignment.index.bas.gz These contain all the .bas files for the bam files in the release concatenated into a single file. 也有 stats 文件,如 20101123_ 20100901.alignment_ stats.low_ coverage.csv,,這種類型的 文件包含與 sequence_ indices 目錄中的 stats 文件類似的信息,。 6) changelog_details:為了保證主要的 root-level CHANGELOG 可讀性和滾動(dòng)性,任何 ftp 站點(diǎn)內(nèi)容 的改變會(huì)被總結(jié)在此目錄中,。這些文件的命名可反映了 when 和 what 改變發(fā)生 了,,例如'new', 'moved', 'replacement' or 'withdrawn'。 例子: changelog_details_ 20110216_ new changelog_ details20110216replacement changelog_ details_ 20110216_ withdrawn changelog_ details_ 20110216_ moved,。 7) pilot_data:這代表一個(gè)凍結(jié)版本的 pilot 數(shù)據(jù),。 它包含了與主要 ftp 目錄具有相同目錄形式 大部分的目錄。 8) Index files:千人基因組產(chǎn)生的數(shù)據(jù)量是前所未有的。 為確保所有數(shù)據(jù)都能易于定位到最近 更 新 的 序 列 和 比 對(duì) 文 件 ,, 因 此 有 了 index files ,。 ftp/sequence.index 文 件 和 ftp/alignment.index 文件。 這 些 文 件 的 格 式 說 明 在 : ftp/README.sequence.index 文 件 和 ftp/README.alignment.index 文件中,。 這些 index files 應(yīng)該可以為你提供足夠的信息下載文件 subsets(基于 study, individual or technology),。它們也包含文件的 md5s。 主要項(xiàng)目的比對(duì)文件名中也包含相似的信息: data/NA12878/alignment/NA12878.chromY.SOLID.bfast.CEU.high_coverage.20100 125.bam data/NA12878/alignment/NA12878.chrom20.LS454.ssaha2.CEU.exon_targetted.201 00311.bam data/NA12878/alignment/NA12878.unmapped.LS454.ssaha2.CEU.exon_targetted.20 100311.bam data/NA12878/alignment/NA12878.nonchrom.ILLUMINA.bwa.CEU.exon_targetted. 20100311.bam 文件名組分:
2.頂層還包含兩個(gè)主要的 index 文件: ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/sequence.index ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/alignment.index 序列數(shù)據(jù)(README.sequence_data) 這一 readme 文件描述了 ftp 站點(diǎn)上的序列數(shù)據(jù),, 它是如何處理以及序列數(shù)據(jù)中哪 些信息是可用的,。 目錄結(jié)構(gòu)和 sequence index 文件: 所有的序列數(shù)據(jù)都是 fastq 格式, 它給出了一段 序列以及每個(gè) read 的質(zhì)量字符串,。 序列文件存在/data/XXXXXX/sequence_read 目錄中( XXXXXX 代表樣本名,, this should be in the form or coriell sample names HGXXXXX or NAXXXXX)。與 meta 數(shù)據(jù)相關(guān)的一個(gè)特殊文件(包含 meta 數(shù)據(jù) md5sum)可以在 sequence.index 文件中找到,。這是一個(gè) tab 分割的文件,,它的每一列都包含一塊不同的 meta 信息。 下載千人基因組數(shù)據(jù)庫:1092人基因庫,,250T左右
uk:ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/ NCBI FTP Site : ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp Amazon S3 : s3://1000genomes 補(bǔ)充 如何在該數(shù)據(jù)庫下載某段區(qū)域SNP,? |
|