將速鉑下載工具進(jìn)行封裝,,以便高效方便地批量下載SRA測(cè)序數(shù)據(jù),。 本腳本試圖將速鉑進(jìn)行封裝,實(shí)現(xiàn)只需提供SRA的ID號(hào),,即可完成序列下載和轉(zhuǎn)換,。 參考文章:SRA、SAM以及Fastq文件高速下載方法,。 更新信息
程序安裝與環(huán)境部署獲取程序輸入下面的命令:
若一切安裝就緒,,則會(huì)顯示幫助信息,。若部分組件未部署好,則程序會(huì)有提示,。 依賴(lài)的perl modules安裝需要安裝Parallel::ForkManager和Parallel::Simple兩個(gè)perl module,,以實(shí)現(xiàn)多個(gè)SRA并行下載。命令如下:
或者通過(guò)cpanm安裝(cpanm使用方法看這里):
安裝 aspera connect官網(wǎng)下載最新版:http://downloads./en/downloads/8?list ,。 或者,,點(diǎn)這里通過(guò)百度云盤(pán)下載aspera-connect-3.7.4.147727-linux-64.tar.gz。 下載完成后部署aspera connect,,下面的命令不要使用ROOT賬戶(hù)運(yùn)行:
運(yùn)行結(jié)束,在home文件夾的 ~/.aspera/connect 中可發(fā)現(xiàn)部署的工具: 安裝 NCBI fastq-dump從NCBI的ftp上下載最新的sratoolkit,,或者通過(guò)百度云盤(pán)下載sratoolkit.2.9.0-ubuntu64.tar.gz,。安裝方式按照下面的命令進(jìn)行:
使用示例直接下載Reads
直接將SRR7166333的fastq的序列下載在當(dāng)前目錄。RR71663331.fastq.gz和SRR71663332.fastq.gz兩個(gè)文件,。還有一個(gè)md5文件,。下載結(jié)束,請(qǐng)使用下面的命令校驗(yàn)一下文件:
多個(gè)數(shù)據(jù)下載到指定文件夾中SraAccList.txt中,,兩個(gè)ID都是大腸桿菌的測(cè)序數(shù)據(jù),。其中SRR7167489是雙端數(shù)據(jù),ERR2002452是單端數(shù)據(jù)。
通過(guò)上面的命令,,直接將同時(shí)下載在./data的文件夾當(dāng)中,。-p參數(shù)表示同時(shí)下載多少個(gè)ID的數(shù)據(jù)。 每個(gè)ID都有對(duì)應(yīng)的fastq.gz文件,。還有一個(gè)md5文件,,下載結(jié)束務(wù)必校驗(yàn)一下文件完整性。
SRA數(shù)據(jù)一鍵下載從SRA下載數(shù)據(jù),,需要首先下載.sra格式的文件,,然后再通過(guò)pfastq-dump(并行封裝的fastq-dump)將.sra文件轉(zhuǎn)換為fastq文件。由于不能直接拿到fastq原始數(shù)據(jù),,還要經(jīng)過(guò)二次轉(zhuǎn)換,,這就是我為何在這個(gè)版本中將默認(rèn)的SRA下載源修改成了ENA。
直接將SRR7166333的fastq的序列下載在當(dāng)前目錄,。產(chǎn)生SRR7166333.sra,、SRR71663331.fastq.gz和SRR71663332.fastq.gz三個(gè)文件。 SRA數(shù)據(jù)源沒(méi)有給md5,,因?yàn)橹挥型暾腟RA文件才能夠成功釋放出fastq,。 從SRA數(shù)據(jù)源下數(shù)據(jù),可額外設(shè)定每個(gè)SRA轉(zhuǎn)換fastq的線(xiàn)程數(shù),,通過(guò) -t參數(shù)指定,。
SRA下載單端測(cè)序數(shù)據(jù)目前的版本中,從NCBI SRA源下數(shù)據(jù)的時(shí)候,,單端數(shù)據(jù)跟雙端數(shù)據(jù)必須分放在不同表格中下載,,不能同時(shí)下 針對(duì)SRA數(shù)據(jù)源,添加單端single end數(shù)據(jù),,需添加-single告訴程序這是單端數(shù)據(jù)——否則下載完SRA轉(zhuǎn)換fastq的時(shí)候會(huì)出錯(cuò),。(在將來(lái)的版本更新中,希望將這個(gè)參數(shù)取消,,即讓程序自動(dòng)識(shí)別單端與雙端),。 單端數(shù)據(jù)下載實(shí)例見(jiàn):ERR2002452(SRA,ENA)。
|
|