這是個簡短的教程,,目的是介紹幾種比較方便快捷的下載SRA、SAM及Fastq文件的方法,。 SRA數(shù)據(jù)庫: Sequence Read Archive:隸屬NCBI (National Center for Biotechnology Information),,它是一個保存高通量測序原始數(shù)據(jù)以及比對信息和元數(shù)據(jù) (metadata) 的數(shù)據(jù)庫,所有已發(fā)表的文獻中高通量測序數(shù)據(jù)基本都上傳至此,,方便其他研究者下載及再研究,。其中的數(shù)據(jù)則是通過壓縮后以.sra文件格式來保存的。 ENA數(shù)據(jù)庫:European Nucleotide Archive:隸屬EBI (European Bioinformatics Institute),功能同SRA,,并且對數(shù)據(jù)做了注釋,,界面更友好,當然對于我們來說,,最誘人的當屬可直接下載fastq (.gz)文件這一項了,。 多數(shù)情況下,我們下載sra文件是為了獲取相應(yīng)的fastq或者sam文件,,這樣可以和自己的pipeline對接上,,直接分析,所以 1. 找地方:用手頭上的SRR (SRA Run)序列號去ENA搜索,,如果有,,就在這兒下;如果沒有,,就去SRA數(shù)據(jù)庫下載 2. 選方法:
警告:不要用wget或curl去下載sra文件,這會導(dǎo)致下載的文件不完整,! 首先,,進入Aspera Connect的下載頁面,,選擇linux版本,,復(fù)制下載地址 wget http://download./download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gztar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz# 安裝bash aspera-connect-3.7.4.147727-linux-64.sh# 查看是否有.aspera文件夾cd # 去根目錄ls -a # 如果看到.aspera文件夾,代表安裝成功# 永久添加環(huán)境變量echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrcsource ~/.bashrc# 查看幫助文檔ascp --help 至此,,安裝完成,,下面介紹如何利用
在線文檔(https://download./download/docs/ascp/2.6/html/index.html?https://download./download/docs/ascp/2.6/html/fasp/ascp.html) 先了解幾個
ASCP使用案例 SRA數(shù)據(jù)庫下載:首先記住,,數(shù)據(jù)的存放地址是
ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m [email protected]:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra ~/biostar/aspera/
ENA數(shù)據(jù)庫下載:這里和上面不同,,數(shù)據(jù)的存放地址是
ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh [email protected]:/vol1/fastq/SRR949/SRR949627/SRR949627_1.fastq.gz ~/biostar/aspera/
參考資料 使用速鉑Aspera下載NGS數(shù)據(jù) |
|