對(duì)bam文件進(jìn)行統(tǒng)計(jì),,找到那些富含多比對(duì)reads的區(qū)域bam文件已經(jīng)走完了GATK的best practice啦,,主要是使用 samtools 和 bedtools 挑選那些被多比對(duì)區(qū)域的reads,,然后根據(jù)染色體坐標(biāo)進(jìn)行計(jì)算覆蓋度(測(cè)序深度)即可,,全部的代碼如下: GENOME=$HOME/biosoft/GATK/resources/bundle/hg38/Homo_sapiens_assembly38.fasta 可以看到,每個(gè)樣品的WES數(shù)據(jù)分析時(shí)多比對(duì)區(qū)域都是5M左右,。通常WES設(shè)計(jì)的區(qū)域是45M,,所以這個(gè)比例還算是可以接受啦。全部的文件 wc看一下行數(shù): 5072862 N1_black.list 如果我們把全部的合并起來(lái)去冗余后,是 6073693 個(gè)位點(diǎn),,其實(shí)就是6M區(qū)域,。也就是說(shuō),不同樣本的富含多比對(duì)reads的區(qū)域是類似的,, 這個(gè)區(qū)域具有一定程度的保守性質(zhì),。 學(xué)徒作業(yè):就選擇我4年前的教程:腫瘤全外顯子測(cè)序數(shù)據(jù)分析流程大放送,鏈接是:http://www./2735.html 提到的數(shù)據(jù)集:(SRA) database (accession ID SRA291701),,拿到全部的正常樣品的wes數(shù)據(jù)后走GATK的best practice,,使用我前面的代碼拿到多比對(duì)區(qū)域的black.list,探索同樣的規(guī)律,。 歷年學(xué)徒作業(yè)目錄如下:
如果你也想加入我們的知識(shí)分享團(tuán)隊(duì)還等什么呢,趕快行動(dòng)起來(lái)吧,!發(fā)郵件([email protected])給生信技能樹(shù)創(chuàng)始人jimmy就有驚喜哦,!當(dāng)然了,不能是辣雞或者騷擾郵件啦,,帶上自己的簡(jiǎn)歷和想學(xué)習(xí)交流的誠(chéng)心吧! |
|