而且通常我們是大隊列研究,,幾百個病人的幾百個甚至上萬個突變位點, 研究起來壓力會很大,,通常大家會看一下突變全景圖,,如下: 展現(xiàn)出在病人隊列(上圖是TCGA的食管癌隊列)里面,突變人數(shù)較多的基因,,如TP53等等,。 還有另外一個很常規(guī)的分析點是:突變特征-腫瘤基因組上的指紋信息,首先需要理解突變上下文分類: 腫瘤突變頻譜針對點突變進行定義,,A,T,C,G四種堿基兩兩突變,,共有4X3=12種排列,考慮到正負鏈堿基配對原則,,正鏈上的A->C突變,,對應負鏈上為T->G, 所以進一步轉換成了一個組合的問題,所以某個位點的突變可以劃分為以下6種模式: 1.C>A, 表示C>A和G>T兩種 2.C>G, 表示C>G和G>C兩種 3.C>T, 表示C>T和G>A兩種 4.T>A,表示T>A和A>T兩種 5.T>C,表示T>C和A>G兩種 6.T>G,表示T>G和A>C兩種 進一步考慮突變位點所處的序列上下文環(huán)境,,即上下游各取一個堿基再加上突變位點的堿基,,組成了3個堿基的motif, 可以有4X4X6=96種模式,每種模式的頻率分布就是突變頻譜,。突變頻譜可以當做一個腫瘤樣本的特征,,進行樣本間的比較。 如下圖,;https://en./wiki/Mutational_signatures 這個概念由sanger研究所科學家提出來的:https://software./cancer/cga/msp ,,這96突變頻譜的非負矩陣分解后的30個特征,也是由sanger那邊的人整理,,在cosmic數(shù)據(jù)庫可以學習它,。 不同的特征有不同的生物學含義,https://en./wiki/Mutational_signatures 比如文章 https://www./articles/s41586-019-1056-z 里面,,就是使用了 這些signature區(qū)分生存,! 非負矩陣分解這個算法得到signature具體需要看文獻;
對我們而言,主要是R包deconstructSigs用法: Decomposition of mutational signatures was performed using deconstructSigs based on the set of 30 mutational signatures ('signature.cosmic’) for samples with at least 20 somatic mutations. To increase robustness, the mutations for each sample were bootstrapped 100 times and the mean weights across these 100 iterations were used. 分解后,,cosmic數(shù)據(jù)庫里面的每個signature的比例如下: 但是很多時候,,大家會覺得cosmic數(shù)據(jù)庫30個signature的生物學意義并不好,會嘗試自己分解出來自己的signature,。比如:0元,,10小時教學視頻直播《跟著百度李彥宏學習腫瘤基因組測序數(shù)據(jù)分析》 這個文獻里面的: 每個signature都要各自的96堿基突變比例分布,如下所示: 可以和https://cancer./signatures_v2/Signature_patterns.png的30個signature的96堿基排列組合比例進行對比,。 如果你想知道這個分析如何實現(xiàn),,關注:0元,10小時教學視頻直播《跟著百度李彥宏學習腫瘤基因組測序數(shù)據(jù)分析》 ,,加入一起學習吧,! 文末友情宣傳
|
|