久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

SRA,、SAM以及Fastq文件高速下載方法

 微笑如酒 2018-01-04

生信媛又強勢加入了一位作者,wenhu,他的博客是 http://, 歡迎圍觀,。

這是個簡短的教程,,目的是介紹幾種比較方便快捷的下載SRA、SAM及Fastq文件的方法,。

NCBI-SRA和EBI-ENA數(shù)據(jù)庫

SRA數(shù)據(jù)庫: Sequence Read Archive:隸屬NCBI (National Center for Biotechnology Information),,它是一個保存高通量測序原始數(shù)據(jù)以及比對信息和元數(shù)據(jù) (metadata) 的數(shù)據(jù)庫,所有已發(fā)表的文獻中高通量測序數(shù)據(jù)基本都上傳至此,,方便其他研究者下載及再研究,。其中的數(shù)據(jù)則是通過壓縮后以.sra文件格式來保存的。

ENA數(shù)據(jù)庫:European Nucleotide Archive:隸屬EBI (European Bioinformatics Institute),功能同SRA,,并且對數(shù)據(jù)做了注釋,,界面更友好,當然對于我們來說,,最誘人的當屬可直接下載fastq (.gz)文件這一項了,。

sra文件下載方式

多數(shù)情況下,我們下載sra文件是為了獲取相應(yīng)的fastq或者sam文件,,這樣可以和自己的pipeline對接上,,直接分析,所以


1. 找地方:用手頭上的SRR (SRA Run)序列號去ENA搜索,,如果有,,就在這兒下;如果沒有,,就去SRA數(shù)據(jù)庫下載

2. 選方法

首選Aspera Connect軟件,,這是IBM旗下的商業(yè)高速文件傳輸軟件,與NCBI和EBI有協(xié)作合同,,我們可以免費使用它下載高通量測序文件,,體驗飛一般的感覺,速度可飚至300-500M/s,。下載完成后,,本地用fastq-dump提取fastq文件,用sam-dump提取SAM文件,。

其次,,如果上述方法不奏效,優(yōu)先使用sratoolkit中的prefetch命令,。

最后,,使用sratoolkit中的fastq-dump和sam-dump命令下載,如果fastq-dump不穩(wěn)定,,推薦大家嘗試Biostar Handbook中的wonderdump腳本,。

警告:不要用wget或curl去下載sra文件,這會導(dǎo)致下載的文件不完整,!

Aspera Connect命令行工具ascp的安裝

首先,,進入Aspera Connect的下載頁面,,選擇linux版本,,復(fù)制下載地址

wget http://download./download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gztar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz# 安裝bash aspera-connect-3.7.4.147727-linux-64.sh# 查看是否有.aspera文件夾cd # 去根目錄ls -a # 如果看到.aspera文件夾,代表安裝成功# 永久添加環(huán)境變量echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrcsource ~/.bashrc# 查看幫助文檔ascp --help

至此,,安裝完成,,下面介紹如何利用 ascp在SRA和ENA中下載數(shù)據(jù)

ascp的用法:ascp [參數(shù)] 目標文件 目標地址

在線文檔(https://download./download/docs/ascp/2.6/html/index.html?https://download./download/docs/ascp/2.6/html/fasp/ascp.html)

先了解幾個 ascp命令的常用參數(shù)

-v verbose mode 嘮叨模式,能讓你實時知道程序在干啥,方便查錯,。有些作者的程序缺乏人性化,,運行之后,只見光標閃,,壓根不知道運行到哪了

-T 取消加密,,否則有時候數(shù)據(jù)下載不了

-i 提供私鑰文件的地址,我也不知道干嘛的,,反正不能少,,地址一般是~/.aspera/connect/etc中的asperawebiddsa.openssh文件

-l 設(shè)置最大傳輸速度,一般200m到500m,,如果不設(shè)置,,反而速度會比較低,可能有個較低的默認值

-k 斷點續(xù)傳,,一般設(shè)置為值1

-Q 不懂,,一般加上它

-P 提供SSH port,一般是33001,,反正我不懂

ASCP使用案例

SRA數(shù)據(jù)庫下載:首先記住,,數(shù)據(jù)的存放地址是 ftp-private.ncbi.nlm.nih.gov,SRA在Aspera的用戶名是 anonftp,,下載舉例:

  • 如果我想下載 SRR949627.sra文件,,首先我需要找到地址,去ncbi ftp-private或者ncbi faspftp,,一層層尋找,,直至找到,然后記下鏈接地址,,就可以開始下載了:

ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m [email protected]:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra ~/biostar/aspera/

注意:[email protected]后面是:號,,不是路徑/!

一般來說,,NCBI的sra文件前面的地址都是一樣的/sra/sra-instant/reads/ByRun/sra/SRR/...,,那么寫腳本批量下載也就不難了!

ENA數(shù)據(jù)庫下載:這里和上面不同,,數(shù)據(jù)的存放地址是 fasp.sra.ebi.ac.uk,,ENA在Aspera的用戶名是 era-fasp,下載舉例:

  • 同樣,,我還是下載 SRR949627,,方便的是ENA中可以直接下載 fastq.gz文件,不用再從sra文件慢吞吞的轉(zhuǎn)換了,,那么地址呢,,可以去ENA搜索,,再復(fù)制下fastq.gz文件的地址,或者可以去ENA的ftp地址 ftp.sra.ebi.ac.uk搜索,,注意,,是ftp,不是fasp,!記下鏈接地址,,就可以下載了:

ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh [email protected]:/vol1/fastq/SRR949/SRR949627/SRR949627_1.fastq.gz ~/biostar/aspera/

注意:[email protected]后面是:號,不是路徑/,!

一般來說,,EBI的sra文件前面的地址也都是一樣的vol1/fastq/...,那么寫腳本批量下載也就不難了,!

參考資料

使用速鉑Aspera下載NGS數(shù)據(jù)

Aspera助力快速下載NCBI基因組與SRA原始數(shù)據(jù)

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多