fastp是最近新出的一款NGS數(shù)據(jù)質(zhì)量過濾工具,,相比傳統(tǒng)的QC工具,,有兩個主要特點(diǎn),第一個就是運(yùn)行速度快,,第二個就是提供了質(zhì)控前后數(shù)據(jù)詳細(xì)統(tǒng)計(jì)結(jié)果,。github地址如下
安裝過程如下 wget http:///fastp/fastp
chmod a+x fastp 無論是單端測序,還是雙端數(shù)據(jù),,fastp都支持,。對于單端數(shù)據(jù),用 該軟件可以對數(shù)據(jù)進(jìn)行以下幾種過濾 1. 去除adapter 序列默認(rèn)情況下,,該軟件會自動查找序列中的adapter序列并去除,,對于單端測序數(shù)據(jù),根據(jù)起始的1M左右的reads來預(yù)測adapter序列,;對于雙端測序數(shù)據(jù),,根據(jù)overlap部分的reads來推測adapter序列,雖然自動化預(yù)測對于使用者而言比較方便省心,,但是預(yù)測的adaper序列可能不太準(zhǔn)確,,實(shí)際使用時(shí),建議還是自己手動指定具體的adapter序列,。 單端數(shù)據(jù),,通過 如果不希望進(jìn)行去除adapter序列這一步,可以添加 2. 過濾低質(zhì)量的序列默認(rèn)情況下,會過濾掉質(zhì)量較差的序列,, 如果不希望過濾掉低質(zhì)量序列,,可以添加 3. 根據(jù)序列長度進(jìn)行過濾默認(rèn)情況下,,該軟件會根據(jù)長度對序列進(jìn)行過濾,, 4. 去除低質(zhì)量的堿基fastp支持類似trimmomatic滑動窗口的方式,,對序列中的低質(zhì)量堿基進(jìn)行過濾,,但是它的算法運(yùn)行速度更快。 默認(rèn)情況下,,是不會去除低質(zhì)量堿基的,添加 5. 去除reads兩端的部分堿基fastp支持從reads的3’端和5’端去除固定個數(shù)的堿基,,對于單端數(shù)據(jù), 6. 去除polyG/polyXfastp支持去除序列3’端的尾巴,只有對于NextSeq/NovsSeq的數(shù)據(jù),,fastp會自動去除polyG尾,, 7. 過濾掉低復(fù)雜度的序列fastp支持根據(jù)復(fù)雜度對序列進(jìn)行過濾,,序列復(fù)雜度定義如下 seq = 'AAAATTTTTTTTGGGCCC'
complexity = 3/(18-1) = 17.65% 依次比較前后相連的兩個堿基,統(tǒng)計(jì)前后堿基不同的次數(shù),,這個次數(shù)作為分母,,對于上述的例子而言,就是3,,分子是序列長度減一,,二者的商就是序列負(fù)責(zé)度,。 默認(rèn)情況下,是不會根據(jù)序列復(fù)雜度進(jìn)行過濾的,,如果想要進(jìn)行過濾,,需要添加 8. 根據(jù)index 對序列進(jìn)行過濾fastp支持根據(jù)index對序列進(jìn)行過濾,, 9. 對雙端數(shù)據(jù)進(jìn)行校正通常情況下,,reads的3’端質(zhì)量較差,雙端測序的數(shù)據(jù),,可以根據(jù)overlap部分的序列,,對低質(zhì)量的測序結(jié)果進(jìn)行校正。通過添加 10. UMI 預(yù)處理由于文件構(gòu)建過程中,,存在PCR的過程, 會影響定量結(jié)果的準(zhǔn)確性,,最近出現(xiàn)了UMI這樣的技術(shù),,本質(zhì)上對未擴(kuò)增之前的片段進(jìn)行標(biāo)記,建庫之后,,擁有相同UMI標(biāo)記的reads來自于同一份模板,,在數(shù)據(jù)分析時(shí),可以依據(jù)這個標(biāo)記對序列去冗余,,使定量的結(jié)果更加準(zhǔn)確,。 fastp支持對UMI標(biāo)記的序列進(jìn)行預(yù)處理,添加 11. 分析過表達(dá)序列在reads中存在的過表達(dá)序列可能是adapter序列,,分析過表達(dá)序列有助于我們發(fā)現(xiàn)測序和建庫中可能出現(xiàn)的問題,,通過添加 在以上所有操作中,,前3步默認(rèn)都會執(zhí)行,,其他操作可以根據(jù)個人需要,進(jìn)行添加,。fastp支持多線程,,通過 除了輸出質(zhì)控后的clean reads外,,fastp還可以輸出 fastp的基本用法如下,單端數(shù)據(jù) fastp -i input.fastq -o output.fastq -a ATAGCATCA -j report.json -h report.html 雙端數(shù)據(jù) fastp -i R1.fq -o R1.clean.fq -I R2.fq -O R2.clean.fq -a ATAGCATCA -a2 ATAGCATCA -j report.json -h json.html 在報(bào)告文件中,,會給出QC前后的序列統(tǒng)計(jì)信息, "summary": {
"before_filtering": {
"total_reads":90187304,
"total_bases":10477279513,
"q20_bases":9875367665,
"q30_bases":9314029123,
"q20_rate":0.942551,
"q30_rate":0.888974,
"gc_content":0.475662
},
"after_filtering": {
"total_reads":81203730,
"total_bases":9425595563,
"q20_bases":9153628470,
"q30_bases":8762772007,
"q20_rate":0.971146,
"q30_rate":0.929678,
"gc_content":0.472036
}
} fastp的質(zhì)量過濾功能更加的豐富,,速度更快,而且報(bào)告文件給出的統(tǒng)計(jì)信息詳盡有用,,可以算得上是最強(qiáng)大的質(zhì)控軟件了,。 ·end· |
|