上周溫度驟降,寒風冽冽,,小伙伴們?yōu)榈挚箛篮贸隽烁鞣N取暖神器:電熱寶,暖寶寶,熱水袋.....除了要備齊這些御寒神器之外,,小編還要為大家再送上一款精神取暖神器——擴增子分析之序列拼接。
測序數據的質控拼接是擴增子分析過程中的重要環(huán)節(jié),,對后續(xù)分析結果的質量起著決定性的作用,,本期要給大家介紹的是擴增子分析中的主流拼接軟件FLASH的使用方法。
FLASH軟件的全稱為Fast Length Adjustment of Short Reads,,自2011年被發(fā)表在《Bioinformatics》期刊上以來,該軟件被引用量累計達到1092次,,其能夠借助PE clean reads之間的overlap,,將測序產生的paired-end reads快速拼接為DNA片段。如果兩條reads的長度總和大于原始測序片段的總長度就可以使用FLASH進行拼接,,但是不能拼接不存在overlap的paired-end reads,。
下載安裝方式有網站鏈接下載和Linux系統(tǒng)下命令安裝兩種方式:
方法一:直接進入網站http://ccb./software/FLASH/index.shtml進行手動下載FLASH-1.2.11-Windows-bin.zip軟件,解壓后的FLASH.exe即為Windows系統(tǒng)下的可執(zhí)行軟件。
方法二:在Linux系統(tǒng)下通過命令行進行下載安裝,。
$wget
http://ccb./software/FLASH/index.shtml/FLASH-1.2.11.tar.gz(通過wget命令下載FLASH-1.2.11.tar.gz壓縮文件)
$tar -zxvf FLASH-1.2.11.tar.gz(解壓縮FLASH-1.2.11.tar.gz)
$cd FLASH-1.2.11/(進入FLASH-1.2.11文件夾工作路徑下)
$make(運行make編譯命令,,自動完成安裝,生成可執(zhí)行文件‘flash’)
$flash read1.fq read2.fq -p 33 -r 250 -f 500 -s 100 -o output
主要參數說明:
-m 拼接時overlap區(qū)的最小長度閾值,,默認10bp,;
-x overlap區(qū)允許的最大堿基錯配比率(最大堿基錯配數目/overlap區(qū)長度),默認為0.25,;
-p 堿基質量值類型,,64或者33;
-r reads長度,;
-f 片段長度,,也就是測序的文庫大小,;
-s 文庫的偏差,;
-o 輸出文件前綴,;
-t 設置線程數,默認為1,,FLASH軟件支持多線程,,速度快;
用$flash --help命令可以輸出所有的參數選項,,且每個選項都給出了詳細的介紹,。
FLASH拼接默認輸出6個結果文件:
output.extendeFrags.fastq 為拼接后的擴增片段序列文件;
output.flash.log 為日志文件,,詳細記錄了拼接過程中的參數和拼接統(tǒng)計的數據,;
output.hist 為拼接后的reads長度的統(tǒng)計信息文件;
output.histogram 為拼接后的reads長度直方圖文件,;
output.notCombined_1.fastq 為拼接不上的reads1序列文件,;
output.notCombined_2.fastq 為拼接不上的reads2序列文件;