久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

使用fastp對NGS數(shù)據(jù)進(jìn)行質(zhì)量過濾

 生信修煉手冊 2019-12-24

fastp是最近新出的一款NGS數(shù)據(jù)質(zhì)量過濾工具,,相比傳統(tǒng)的QC工具,,有兩個主要特點(diǎn),第一個就是運(yùn)行速度快,,第二個就是提供了質(zhì)控前后數(shù)據(jù)詳細(xì)統(tǒng)計(jì)結(jié)果,。github地址如下

https://github.com/OpenGene/fastp

安裝過程如下

wget http:///fastp/fastp chmod a+x fastp

無論是單端測序,還是雙端數(shù)據(jù),,fastp都支持,。對于單端數(shù)據(jù),用-i參數(shù)指定輸入的序列文件,,-o參數(shù)指定輸出的序列文件,;對于雙端數(shù)據(jù),,用-i-I分別指定R1端和R2端的序列。

該軟件可以對數(shù)據(jù)進(jìn)行以下幾種過濾

1. 去除adapter 序列

默認(rèn)情況下,,該軟件會自動查找序列中的adapter序列并去除,,對于單端測序數(shù)據(jù),根據(jù)起始的1M左右的reads來預(yù)測adapter序列,;對于雙端測序數(shù)據(jù),,根據(jù)overlap部分的reads來推測adapter序列,雖然自動化預(yù)測對于使用者而言比較方便省心,,但是預(yù)測的adaper序列可能不太準(zhǔn)確,,實(shí)際使用時(shí),建議還是自己手動指定具體的adapter序列,。

單端數(shù)據(jù),,通過--adapter_sequence指定adapter序列;對于雙端數(shù)據(jù),,通過--adapter_sequence--adapter_sequence_r2指定adapter序列,。當(dāng)手動指定adapter序列時(shí),軟件就不會自動檢測了,,而是按照指定的adapter序列進(jìn)行查找和過濾,。

如果不希望進(jìn)行去除adapter序列這一步,可以添加-A或者--disable_adapter_trimming參數(shù),,這樣軟件就不會去除adapter序列了,。

2. 過濾低質(zhì)量的序列

默認(rèn)情況下,會過濾掉質(zhì)量較差的序列,,-q參數(shù)指定堿基質(zhì)量的閾值,,小于該質(zhì)量的堿基被認(rèn)為是低質(zhì)量的堿基,-u參數(shù)指定一條序列中允許的低質(zhì)量堿基的百分比,,取值范圍從0-100,,如果序列中低質(zhì)量堿基百分比超過了該閾值,這條序列就會被過濾掉,;-n參數(shù)指定一條序列中最多允許的N堿基的個數(shù),,如果超過這個數(shù)值,這條序列會被過濾掉,。

如果不希望過濾掉低質(zhì)量序列,,可以添加-Q參數(shù)。

3. 根據(jù)序列長度進(jìn)行過濾

默認(rèn)情況下,,該軟件會根據(jù)長度對序列進(jìn)行過濾,,--length_required指定最小長度,小于該長度的reads會被過濾掉;--length_limit指定最大長度,,大于該長度的reads也會被過濾掉,,如果不希望進(jìn)行長度過濾,,可以添加-L或者--disable_length_filtering參數(shù)。

4. 去除低質(zhì)量的堿基

fastp支持類似trimmomatic滑動窗口的方式,,對序列中的低質(zhì)量堿基進(jìn)行過濾,,但是它的算法運(yùn)行速度更快。-W參數(shù)定義滑動窗口的長度,,默認(rèn)值為4,-M參數(shù)定義堿基平均質(zhì)量的閾值,,默認(rèn)值為20,。如果一個窗口內(nèi)堿基平均質(zhì)量低于20,該窗口及其之后的堿基都會被過濾掉,。

默認(rèn)情況下,,是不會去除低質(zhì)量堿基的,添加-3參數(shù)可以利用滑動窗口的方式從reads的3’端去除低質(zhì)量的堿基,。

5. 去除reads兩端的部分堿基

fastp支持從reads的3’端和5’端去除固定個數(shù)的堿基,,對于單端數(shù)據(jù),-f指定從5’端去除的堿基數(shù),,-t指定從3’端去除的堿基數(shù),;對于雙端數(shù)據(jù),用-f-F參數(shù)分別指定R1序列5’端去除的堿基數(shù),,用-t-T參數(shù)分別指定R2序列3’端去除的堿基數(shù),。

6. 去除polyG/polyX

fastp支持去除序列3’端的尾巴,只有對于NextSeq/NovsSeq的數(shù)據(jù),,fastp會自動去除polyG尾,,--poly_g_min_len指定ployG的最小長度,-g參數(shù)強(qiáng)制對所有數(shù)據(jù)去除polyG尾,,-G參數(shù)禁止去除polyG尾,。默認(rèn)情況下,fastp不會去除polyX尾,,可以添加-X參數(shù),,同時(shí)使用--poly_x_min_len指定polyX的最小長度,默認(rèn)值都為10,。

7. 過濾掉低復(fù)雜度的序列

fastp支持根據(jù)復(fù)雜度對序列進(jìn)行過濾,,序列復(fù)雜度定義如下

seq = 'AAAATTTTTTTTGGGCCC' complexity = 3/(18-1) = 17.65%

依次比較前后相連的兩個堿基,統(tǒng)計(jì)前后堿基不同的次數(shù),,這個次數(shù)作為分母,,對于上述的例子而言,就是3,,分子是序列長度減一,,二者的商就是序列負(fù)責(zé)度,。

默認(rèn)情況下,是不會根據(jù)序列復(fù)雜度進(jìn)行過濾的,,如果想要進(jìn)行過濾,,需要添加-Y參數(shù),同時(shí)使用-y參數(shù)指定復(fù)雜度的閾值,,取值范圍0-100,, 默認(rèn)值為30,復(fù)雜度低于30%的序列會被過濾掉,。

8. 根據(jù)index 對序列進(jìn)行過濾

fastp支持根據(jù)index對序列進(jìn)行過濾,, --filter_by_index1參數(shù)指定一個index文件,該文件中每行是一個index,,如果序列的index在該文件中,,這條序列會被過濾掉,--filter_by_index_threshold參數(shù)指定實(shí)際index序列與檢測到的index序列之間的最大錯配數(shù),。

9. 對雙端數(shù)據(jù)進(jìn)行校正

通常情況下,,reads的3’端質(zhì)量較差,雙端測序的數(shù)據(jù),,可以根據(jù)overlap部分的序列,,對低質(zhì)量的測序結(jié)果進(jìn)行校正。通過添加-c參數(shù),,fastp可以校正雙端測序的結(jié)果,,--overlap_len_require參數(shù)指定overlap的最小堿基數(shù),--overlap_diff_limit指定overlap區(qū)域允許的最大錯配數(shù),。

10. UMI 預(yù)處理

由于文件構(gòu)建過程中,,存在PCR的過程, 會影響定量結(jié)果的準(zhǔn)確性,,最近出現(xiàn)了UMI這樣的技術(shù),,本質(zhì)上對未擴(kuò)增之前的片段進(jìn)行標(biāo)記,建庫之后,,擁有相同UMI標(biāo)記的reads來自于同一份模板,,在數(shù)據(jù)分析時(shí),可以依據(jù)這個標(biāo)記對序列去冗余,,使定量的結(jié)果更加準(zhǔn)確,。

fastp支持對UMI標(biāo)記的序列進(jìn)行預(yù)處理,添加-U參數(shù)之后,,fastp就可以對UMI數(shù)據(jù)進(jìn)行預(yù)處理,。--umi_loc指定umi 的index 出現(xiàn)的位置,--umi_len指定umi index的長度。

11. 分析過表達(dá)序列

在reads中存在的過表達(dá)序列可能是adapter序列,,分析過表達(dá)序列有助于我們發(fā)現(xiàn)測序和建庫中可能出現(xiàn)的問題,,通過添加-p參數(shù)可以使fastp進(jìn)行過表達(dá)序列的分析。

在以上所有操作中,,前3步默認(rèn)都會執(zhí)行,,其他操作可以根據(jù)個人需要,進(jìn)行添加,。fastp支持多線程,,通過-w參數(shù)指定并行的線程數(shù)。

除了輸出質(zhì)控后的clean reads外,,fastp還可以輸出jsonhtml兩種格式的報(bào)告文件,,-j指定json格式的報(bào)告文件,-h指定html格式的報(bào)告文件,。

fastp的基本用法如下,單端數(shù)據(jù)

fastp -i input.fastq  -o output.fastq  -a  ATAGCATCA  -j report.json -h report.html

雙端數(shù)據(jù)

fastp -i R1.fq  -o  R1.clean.fq -I R2.fq -O R2.clean.fq  -a ATAGCATCA   -a2  ATAGCATCA  -j report.json -h json.html

在報(bào)告文件中,,會給出QC前后的序列統(tǒng)計(jì)信息, json文件示例如下

"summary": {                "before_filtering": {                        "total_reads":90187304,                        "total_bases":10477279513,                        "q20_bases":9875367665,                        "q30_bases":9314029123,                        "q20_rate":0.942551,                        "q30_rate":0.888974,                        "gc_content":0.475662                },                "after_filtering": {                        "total_reads":81203730,                        "total_bases":9425595563,                        "q20_bases":9153628470,                        "q30_bases":8762772007,                        "q20_rate":0.971146,                        "q30_rate":0.929678,                        "gc_content":0.472036                }        }

fastp的質(zhì)量過濾功能更加的豐富,,速度更快,而且報(bào)告文件給出的統(tǒng)計(jì)信息詳盡有用,,可以算得上是最強(qiáng)大的質(zhì)控軟件了,。

·end·

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多