久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

技術貼 | 微生太宏基因組報告解讀 | 第一篇:測序數(shù)據(jù)過濾

 微生態(tài) 2021-04-13

本文由阿童木根據(jù)實踐經(jīng)驗而整理,,希望對大家有幫助。

原創(chuàng)微文,,歡迎轉(zhuǎn)發(fā)轉(zhuǎn)載,。

導讀

本系列的上一篇推文,即開篇中已經(jīng)描述了宏基因組研究的基本思路和方法,。先回顧一下,,首先是收集樣本和樣本信息,然后是抽提樣本中的總DNA,,接著是對DNA進行文庫構建,,最后是將包含微生物群DNA信息的文庫進行高通量測序。通過以上步驟能獲得以G為單位的宏基因組測序數(shù)據(jù),。接下來非常重要的一個工作就是解讀這些數(shù)據(jù),,即利用生物信息學軟件分析測序數(shù)據(jù)中微生物群落的組成、基因,、功能,、通路等等。

為了提高分析的準確性和效率,,在解讀這些數(shù)據(jù)前還要完成一件非常重要的工作——測序數(shù)據(jù)過濾1)除去建庫過程中在樣本DNA上添加測序接頭等序列,;2)除去會影響后續(xù)生物信息學分析準確性的測序過程中產(chǎn)生的低質(zhì)量的堿基和序列,;3)除去樣本中可能混雜的宿主DNA序列。本篇內(nèi)容分為以下三塊:1)認識高通量測序數(shù)據(jù),;2)測序數(shù)據(jù)過濾的具體方法,;3)測序數(shù)據(jù)的質(zhì)量檢查和統(tǒng)計。

高通量測序數(shù)據(jù)

微生太采用Illumina Novaseq平臺對樣本總DNA進行PE150(雙端150bp長度)測序,。測序儀器會把檢測到的DNA序列信息以FASTQ格式的文件保存,,格式如下:

FASTQ文件每四行對應一條測序序列的信息

第一行以符號“@”起始,接著是序列編號信息,;

第二行為實際測得的一條堿基序列,,也稱一條Read

第三行通常是連接符+,,也可以有其他信息,;

第四行第二行中對應的每個堿基測序質(zhì)量

過濾

測序獲得原始數(shù)據(jù)(Raw Data中難免會存在一些低質(zhì)量數(shù)據(jù)和非目的數(shù)據(jù),。為了保證后續(xù)分析結果的準確性和可靠,,需要根據(jù)堿基的質(zhì)量信息對原始數(shù)據(jù)進行處理——過濾:1)首先使用Cutadapt徹底清除原始數(shù)據(jù)中的Illumina接頭序列2再用PrinSEQ去除低質(zhì)量的序列片段和可疑序列,;3)最后通過Bowtie2將序列比對到宿主的基因組,,保留沒有比對到宿主基因組微生物序列做后續(xù)分析。過濾的具體方法和參數(shù)如下:

1) 去除測序接頭序列

建庫時需要在待測序列的兩端加上測序接頭,。測序接頭能和測序試劑中的flowcell結合輔助測序順利進行,。因為測序接頭是人為加上去的序列,所以分析前需要把接頭去掉,。Cutadapt是除接頭最常用的工具,,參數(shù)如下:

2)  prinseq進一步過濾

去除長度小于50bp序列

去除平均質(zhì)量分低于1/1000的序列,;

去除序列復雜度低于70(用entropy的方式計算)的序列,;

去除 N 堿基(未知堿基)達到20bp數(shù)量的序列

去除每條序列5'10bp堿基,,參數(shù)如下:

 

3)  去除宿主序列

從人體,、動物體或植物等宿主中采集的微生物群標本難免會參雜宿主本身的細胞。,、經(jīng)核酸提取,、建庫和測序最終宿主DNA序列會和目的DNA序列混在一起。現(xiàn)在已知的物種基本都有基因組參考數(shù)據(jù)庫,,因此我們可以通過序列比對的方法輕松的識別和去除宿主DNA,。例如,使用Bowtie2和人類基因組參考數(shù)據(jù)庫hg38GRCh38可以識別和去除人體微生物群樣本中的人類DNA,,參數(shù)如下:

質(zhì)量檢查和統(tǒng)計

每份DNA樣品經(jīng)Illumina Novaseq PE150測序都會得到兩份數(shù)據(jù):上游序列Read1.fastq和下游序列Read2.fastq,。序列過濾前和過濾后,,都要用FastQC統(tǒng)計這些序列的堿基質(zhì)量并將結果進行統(tǒng)計和可視化,以便于評價序列質(zhì)量和分析序列過濾有無效果,。高通量測序中常用Q301/1000錯誤率)評價堿基質(zhì)量的好壞,,不同Q值的意義如下

 

1) FastQC堿基質(zhì)量統(tǒng)計:

 上圖是序列過濾前后FastQC質(zhì)檢的統(tǒng)計結果:1)Raw(原始)數(shù)據(jù)中的Read1和Read2的堿基的質(zhì)量值都很高,上下游序列的所有堿基質(zhì)量的中位數(shù)(藍色線)均在Q30以上,;2)Read2的末端個別堿基的質(zhì)量波動較大,,但是經(jīng)過濾所有堿基都能達到很高的質(zhì)量水平。

2) 過濾前后序列統(tǒng)計信息

 上圖是10個示例測序數(shù)據(jù)過濾前后的統(tǒng)計信息,,由圖可見:1)測序采用的PE150測序,;2)所有樣本的測序數(shù)據(jù)量均 > 5G,部分樣本能接近10G,;3)過濾后的Clean數(shù)據(jù)在95%以上,;4)宿主序列占總序列的百分比不到0.2%??梢娫紨?shù)據(jù)的質(zhì)量還是很高的,。

通過序列過濾,我們能獲得更加準確,、可靠的數(shù)據(jù),。拿到這樣的數(shù)據(jù),我們才能放心的進行下游的生物信息學分析和統(tǒng)計學分析,。下期將為大家?guī)砦⑸锓诸愯b定的篇章,。

感謝閱讀~




你可能還喜歡

1 初學者如何深入解讀16S rDNA擴增子測序數(shù)據(jù),從而選擇自己的分析步驟

技術貼 | 16S專題 |基于QIIME2 dada2插件的16S擴增子測序數(shù)據(jù)的分析流程詳解(上)

技術貼 | 16S專題 | 基于QIIME2 dada2插件的16S擴增子測序數(shù)據(jù)的分析流程詳解(中)

技術貼 | 16S專題 | 簡單介紹如何用自己的筆記本處理高通量16S數(shù)據(jù)

16S測序全新分析流程QIIME2的介紹

6 技術貼 | 微生太宏基因組報告解讀(開篇)

7 技術貼 | 宏轉(zhuǎn)錄組專題 | DDBJ數(shù)據(jù)庫:宏轉(zhuǎn)錄組測序數(shù)據(jù)下載


    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多