4.0G Mar 29 06:18 B_marked_fixed.bam 其中B是正常組織的WES數(shù)據(jù),使用varscan找somatic mutation的時(shí)候作為normal,,然后對(duì)另外兩個(gè)樣本(D和T)計(jì)算。 了解hg19和hg38參考基因組異同需要知道hg38這個(gè)新版參考基因組到底進(jìn)步在哪里。(自行搜索咯) 首先看somatic mutation個(gè)數(shù)統(tǒng)計(jì)得到的統(tǒng)計(jì)學(xué)顯著的somatic mutation個(gè)數(shù)如下: 278 D_varscan.snp.Somatic.hc 如果只看有可能是somatic mutation個(gè)數(shù)如下: 1426 D_varscan.snp.Somatic 其中大寫字母的文件代表是比對(duì)到了hg19,,小寫字母的文件是我比對(duì)到hg38后跑varscan得到的,。可以看到,如果是比對(duì)到hg38參考基因組的,,那么找到的變異位點(diǎn)要稍微少一點(diǎn)點(diǎn),,不過(guò)我意識(shí)到參考基因組的有一些是非染色體的片段,所以我重新看了看染色體個(gè)數(shù)分布情況,。
左邊的是T樣本,,右邊的是D樣本,可以看到,,換成hg38這個(gè)新版人類的參考基因組之后,,找到統(tǒng)計(jì)學(xué)顯著的somatic mutation個(gè)數(shù)顯著減少了。 當(dāng)然了,,僅僅是看個(gè)數(shù),,意義不大,我們需要仔細(xì)分析位點(diǎn),。 然后具體到位點(diǎn)首先可以借用一系列網(wǎng)頁(yè)工具:
其實(shí)如果這個(gè)位點(diǎn)位于dbSNP數(shù)據(jù)庫(kù),,那么接下來(lái)一切查詢都可以基于rs ID號(hào)來(lái)進(jìn)行關(guān)聯(lián),雖然 rs ID號(hào) 也會(huì)有些微變化,。 因?yàn)榫唧w到位點(diǎn),,就涉及到課題組信息了,不便公布,,但是思路給大家了,,可以是坐標(biāo)轉(zhuǎn)換,或者以 rs ID號(hào) 進(jìn)行關(guān)聯(lián)比較,。最終其實(shí)要載入IGV去一對(duì)一比較,,而且varscan軟件給的high confidence的somatic mutation也需要注意,它默認(rèn)P值卡的是0.05,,其實(shí)一刀切并不好,。 更多以上我僅僅是比較了在50X這個(gè)測(cè)序深度下,VARSCAN軟件基于不同參考基因組版本的表現(xiàn)問(wèn)題,。 還可以探索不同的軟件,,或者不同的測(cè)序深度。 我這里只是想說(shuō),,對(duì)配對(duì)的WES數(shù)據(jù)來(lái)說(shuō),,找somatic mutation這件事,值得仔細(xì)檢查,,假陽(yáng)性問(wèn)題比較嚴(yán)重,。 測(cè)序深度太低的數(shù)據(jù),找somatic突變真是頭疼 |
|