久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

【直播】我的基因組(十三):了解sam格式比對(duì)結(jié)果

 健明 2021-07-14

很抱歉這么久都沒有推直播給大家了!每到年終的這個(gè)時(shí)候,,小編真的是忙的找不到北大/(ㄒoㄒ)/~~,。這一周的直播應(yīng)該會(huì)每天一更啦,希望大家可以跟著一起學(xué)習(xí),,不要脫粉哦~~

另外還要謝謝大家在生信菜鳥團(tuán)困難時(shí)候的幫助,!再次表達(dá)感激之情!

言歸正傳,,十一講中將我們主要講了如何將下機(jī)數(shù)據(jù)比對(duì)到參考基因組中,。但是很多人對(duì)比對(duì)結(jié)果卻是一頭霧水。那我們現(xiàn)在來了解一下Sam格式的比對(duì)結(jié)果吧,!

比對(duì)工具到現(xiàn)在已經(jīng)多如牛毛了,,見列表: https://en./wiki/List_of_sequence_alignment_software 但是能被大多數(shù)人熟知的,,就是bowtie和bwa(我們?cè)谑恢v中用的才是bwa),,它們把測(cè)序數(shù)據(jù)比對(duì)到參考基因組之后,都會(huì)生成一個(gè)sam格式的文件,。隨后的大部分分析都是基于sam格式進(jìn)行的分析,,雖然Jimmy多次強(qiáng)調(diào)這些基礎(chǔ)知識(shí)的重要性需要大家私下自學(xué)。但是由于這個(gè)sam文件實(shí)在是太重要了?。,。∷裕坏貌挥H自抽出一講來說說它,,后面也會(huì)基于此寫十多篇文章:

目錄

14-把bam文件給按照染色體給分割成小文件

15-提取未比對(duì)的測(cè)序數(shù)據(jù)

16-提取多比對(duì)的測(cè)序數(shù)據(jù)

17-提取左右端測(cè)序數(shù)據(jù)比對(duì)到不同染色體的PE reads

18-去除PCR的duplication情況

19-根據(jù)比對(duì)結(jié)果來統(tǒng)計(jì)測(cè)序深度和覆蓋度

20-覆蓋度累積曲線

因?yàn)檫@個(gè)是基礎(chǔ),,如果你后面的十幾篇有不理解的,請(qǐng)回頭來再仔細(xì)看看sam文件的定義,!

當(dāng)然,,不僅是這些分析是基于對(duì)sam文件的理解,我只是舉幾個(gè)例子,,大家千萬要熟練使用sam格式的比對(duì)結(jié)果,,最權(quán)威的定義見:https://samtools./hts-specs/SAMv1.pdf

記住,我們的雙端測(cè)序的數(shù)據(jù),,一個(gè)paired reads,,有左右兩端兩條reads,,所以在sam文件里面會(huì)有且只有兩條記錄,,除非你設(shè)置特殊參數(shù),允許輸出多比對(duì)情況,。

上面是一個(gè)典型的PEreads輸出的sam比對(duì)結(jié)果,,反正必須要有的就是下面11列,其中第3和第7列,,可以用來判斷某條reads是否比對(duì)成功到了基因組的染色體,,左右兩條reads是否比對(duì)到同一條染色體。而第1,,10,,11列可以提取出來還原成我們的測(cè)序數(shù)據(jù)fastq格式的。第9列是我們建庫(kù)的時(shí)候打斷的片段長(zhǎng)度,,本次是PE150的數(shù)據(jù),,打斷成350bp,所以這里應(yīng)該是350個(gè)字符左右,,但如果是RNA-seq數(shù)據(jù),,就不一樣了。

其中第二列flag是比較反人類的,,一般人用不了二進(jìn)制,,有網(wǎng)頁(yè)可以幫助你http://picard./explain-flags.html我們的sam里面第二列是下面這些二級(jí)制轉(zhuǎn)為十進(jìn)制后的和,!

然后第6列CIGAR是比較重要的,,解釋如下,其中M并不是說match,,所以我們的PE 150的reads,,大部分都會(huì)是150M,但是并不代表著跟參考序列一模一樣。其中S/H是比較特殊的,,很難講清楚,,但是大部分情況下用不到。(soft-clipping堿基是指一條reads未匹配上當(dāng)前基因組位置的部分,,如果有多個(gè)reads在這種情況并且這些reads的soft-clipping堿基都能夠比對(duì)在基因組另一位置,,那么就可能存在SV)

第5列,比對(duì)結(jié)果的質(zhì)量值,,也是因工具而異,。

 a. Match score: Score awarded for a base in a sequence matching a base in another sequence

 b. Alignment score: Cumulative score of the bases of a sequence matching the bases of another sequence (more this score, better the alignment, if all else equal)

 c. Mapping Quality score: Probability that the shorter sequence is mapped to the right spot on the longer sequence.

如果定義某條reads比對(duì)的質(zhì)量值是一個(gè)非常復(fù)雜的問題,我也沒辦法說清楚,,感興趣的朋友可以去查看 http://biofinysics./2014/05/how-does-bowtie2-assign-mapq-scores.html

但是需要記住,,質(zhì)量值越高這個(gè)比對(duì)越可信,如果質(zhì)量值為0,,可能是該序列在參考基因組有多種定位的可能性,。

最后,一般來說,,sam文件肯定是大于11列的,,后面多余的列是各種各樣的 tag。而且只要是你開發(fā)了一個(gè)比對(duì)工具,,你就可以定義一堆tag,,這個(gè)并沒有公認(rèn)的標(biāo)準(zhǔn),因?yàn)閟am文件的定義就是前面的11列,,后面的tag是隨心所欲的,!

但是一般RG代表著你的sam文件比對(duì)來自于哪個(gè)樣本的fastq程序結(jié)果。NM這個(gè)tag是編輯距離,,大概就是你的reads如果想轉(zhuǎn)變成參考基因組,,需要改變多少個(gè)堿基,如果編輯距離是0才說明你的這個(gè)150bp長(zhǎng)度的序列跟參考基因組一模一樣,。

MD這個(gè)tag里面寫明了,,你的序列跟參考基因組不同在哪里,比如下面的截圖里面的,,我的某個(gè)位點(diǎn)相比參考基因組來說,,就變成了G,而其余的堿基都是一樣的,。

AS和XS在兩個(gè)標(biāo)簽貌似沒什么用,,以后再說吧。

如果你用的bowtie或者h(yuǎn)isat等其它比對(duì)工具,,還會(huì)有更多的稀奇古怪的tag,,學(xué)無止境呀,!

文:Jimmy、吃瓜群眾

圖文編輯:吃瓜群眾

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多