作者:葉子 轉(zhuǎn)載請注明:解螺旋·臨床醫(yī)生科研成長平臺 高通量測序(HTS)或者說下一代測序(NGS)技術(shù)在過去十年中徹底改變了生物醫(yī)學(xué)研究,。這項技術(shù)能夠一次并行對幾十萬到幾百萬條DNA分子進行序列測定,快速生成非常大的基因組學(xué),,表觀基因組學(xué)和轉(zhuǎn)錄組學(xué)研究數(shù)據(jù)集,。 全基因組測序(WGS)是下一代測序技術(shù),用于快速,,低成本地確定生物體的完整基因組序列,。基因組的深度測序?qū)τ谂R床研究的意義重大,,解讀WGS數(shù)據(jù)并了解基因組突變在健康和疾病中的重要性是精準醫(yī)療的基石,。 WGS分析流程能分為三大塊,數(shù)據(jù)處理,、檢測變異和綜合分析,,具體如下圖所示: 由于WGS現(xiàn)在已經(jīng)非常成熟了,,因此這里面的每一步驟都能在網(wǎng)上找到相應(yīng)的工具。 質(zhì)量控制 在高通量測序中,,有時候會出現(xiàn)低質(zhì)量讀數(shù)和污染讀數(shù)等問題,,會影響接下去的分析結(jié)果。因此,,質(zhì)量控制(QC)對于原始NGS數(shù)據(jù)至關(guān)重要,。現(xiàn)在質(zhì)量控制軟件主要用的是 NGS-QC Generator,它可以從與特定NGS概況相關(guān)聯(lián)排序讀數(shù)的分布推斷出質(zhì)量指標,。 基因組對齊 高通量測序分析中需要將生成的讀數(shù)對準(映射)到參考序列。此時,,就需要用到Bowtie和BWA。前者能以每小時超過2500萬個35 bp讀數(shù)的速率將短DNA序列(讀?。┡c人類基因組進行比對,。后者針對大型參考基因組(如人類基因組)繪制低分歧序列。 序列可視化 可視化讀取對齊是使用現(xiàn)有數(shù)據(jù)驗證候選結(jié)構(gòu)變體(SV)的最有效方式,。這可以用IGV來完成,。高性能的查看器可以有效地處理大型異構(gòu)數(shù)據(jù)集,同時在所有基因組分辨率級別提供直觀的用戶體驗,。IGV的一個關(guān)鍵特征是其關(guān)注于基因組研究的綜合性質(zhì),,支持基于陣列和下一代測序數(shù)據(jù),以及臨床和表型數(shù)據(jù)的整合,。 變異檢測 都是各種基因變異的檢測手段,,就放一起說了。種系突變,、體細胞突變和插入缺失檢測這三個的檢測都可以用一個軟件,,SAMtools。這是用于與高通量排序數(shù)據(jù)進行交互的程序,。它可以處理SAM / BAM / CRAM格式的讀取,,寫入,編輯,,索引,,查看和轉(zhuǎn)換SAM / BAM / CRAM格式。SAMtools還可以索引FASTA格式的引用序列或從索引引用序列中提取子序列,。 拷貝數(shù)變異(CNV)是遺傳變異的常見來源,,涉及許多基因組障礙。CNV是基因組中結(jié)構(gòu)變異(SV)的一種形式,。通常,,CNV是指大于1kbp的DNA片段的重復(fù)或缺失,。CNV檢測可以用CNVnator,它可以從家族和群體基因組測序中發(fā)現(xiàn)基因型,、表征典型和非典型CNV的方法,。CNVnator具有靈敏度高(86%-96%),假陽性低(3%-20%),,基因分型準確率高(93%-95%)的特點,。 短串聯(lián)重復(fù)序列(STR)是DNA重復(fù)的一種,重復(fù)單位為2-6bp,,重復(fù)次數(shù)10~60多次,,基因片段,400bp以下,。STR是存在于人類基因組DNA中的一類具有長度多態(tài)性的DNA序列,,不同數(shù)目的核心序列呈串聯(lián)重復(fù)排列,而呈現(xiàn)出長度多態(tài)性,,通常多態(tài)性片段長度在100-300bp,。 STR的長度變異性與許多物種的表型變異有關(guān),一些疾病也是由重復(fù)擴張引起,。分析STR,,特別是長STRs的變化是理解其個體變異性和導(dǎo)致其不穩(wěn)定的機制的重要步驟。 檢測STR比較簡單,,不用下軟件,,直接在線操作。用MISA-web (http://webblast./misa/) 中的MIcroSAtellite identification tool可以通過在輸入字段中指定相應(yīng)的登錄號來從NCBI數(shù)據(jù)庫中檢索序列,。MISA-web支持兩種不同的輸出格式:專有的MISA輸出格式和通用GFF3,。GFF3輸出格式有助于將MISA網(wǎng)頁搜索結(jié)果集成到下游分析中。 功能預(yù)測 現(xiàn)代測序技術(shù)產(chǎn)生越來越詳細的基因組變異數(shù)據(jù),。然而,,鑒于許多疾病性狀復(fù)雜,是多基因聯(lián)合作用,,將單個變體或突變基因與表型相關(guān)聯(lián)的常規(guī)方法已有其局限性,。做功能基因預(yù)測的工具就比較多了。 第一個在線工具是MutationTaster (http://www./),。這個免費的在線應(yīng)用可以快速評估DNA序列改變的致病潛力,。 MutationTaster集成了來自不同生物醫(yī)學(xué)數(shù)據(jù)庫的信息,并使用已建立的分析工具,。分析包括進化保守,,剪接位點變化,蛋白質(zhì)特征的喪失和可能影響mRNA量的變化,。然后通過一個貝葉斯分類器評估測試結(jié)果,,該分析器預(yù)測疾病潛力,,一般的查詢在0.3秒內(nèi)就可完成。 第二個網(wǎng)站是SNPdryad(http://snps.ccbr.:8080/SNPdryad/ ),,可預(yù)測在人類蛋白質(zhì)中氨基酸取代會發(fā)生的有害作用,。而且在準確預(yù)測有害nsSNP方面,SNPdryad優(yōu)于其他算法,。 第三個是個數(shù)據(jù)集,,dbNSFP(https://sites.google.com/site/jpopgen/dbNSFP),為人類非同義單核苷酸變體(nsSNV)和剪接位點變體(ssSNV)的功能預(yù)測和注釋提供一站式資源,,還有從外顯子中發(fā)現(xiàn)的大量SNV篩選和測序研究,。dbNSFP創(chuàng)建了基于人類參考序列的所有潛在nsSNV和ssSNV的列表,并為每個SNV編譯了功能預(yù)測和注釋,。 目前該數(shù)據(jù)集中包括82,832,027 個nsSNV和ssSNV,,附加的數(shù)據(jù)庫dbscSNV編譯所有潛在人類SNV及其有害性預(yù)測,另外增加了的15,030,459個潛在功能SNV,。 驅(qū)動突變 區(qū)分驅(qū)動突變與偶發(fā)突變對于了解致癌分子機制,,以及鑒定預(yù)后和尋找治療靶標至關(guān)重要。MutSig可以分析在DNA測序中發(fā)現(xiàn)的突變列表,,以便識別基因突變是驅(qū)動突變還是偶發(fā)突變。該軟件最初是用于分析體細胞突變,,但也可用于分析種系突變,。MutSig建立了在腫瘤形成期間突變過程的模型,分析每個基因,,以鑒定比預(yù)期突變更頻繁的基因,。 變異注釋 最新的測序儀器與SNP發(fā)現(xiàn)工具結(jié)合可用于識別大量可能的SNP,而在識別后的下一個問題就是注釋和選擇功能重要的SNP,。這項任務(wù)也能用dbNSFP完成,,不過更推薦用ANNOVAR。它可以利用不斷更新的信息來注釋不同基因組(包括人類基因組hg18,,hg19,,hg38以及小鼠,蠕蟲,,蠅,,酵母和許多其他基因組)檢測到的遺傳變異相關(guān)功能。ANNOVAR可以在一天內(nèi)處理數(shù)百種人類基因組,。 另外還有一個在線工具GeneTalk(http://www./),,GeneTalk為分析人類序列變異的遺傳學(xué)家提供了直觀的基于網(wǎng)絡(luò)的界面。它幫助臨床遺傳學(xué)家,,尋找有關(guān)特定序列變異的信息,,并將該用戶與研究相同序列變異的其他用戶連接起來,。 數(shù)據(jù)可視化 基因組瀏覽器不僅用于顯示最終結(jié)果,還能用于改進分析方法,,測試數(shù)據(jù)質(zhì)量和生成結(jié)果草圖,。有助于創(chuàng)建和利用基因組瀏覽器新進展來改進分析結(jié)果并支持基因組數(shù)據(jù)的快速可視化。 ZENBU這個數(shù)據(jù)集,,通過數(shù)據(jù)處理和交互式鏈接實現(xiàn)可視化數(shù)據(jù)挖掘,,使用戶可以用BAM或制表符分隔(BED,GFF)序列對齊數(shù)據(jù),。 當然,,除了這個在線工具外,前面介紹的IGV也能完成這個工作,。 至此,,一個完整WGS測序也就完成了。在臨床研究中,,目前火熱的“精準醫(yī)療”和“個體化醫(yī)學(xué)”都需要準確的基因組參考序列,,來幫助真正“精準”的基因組數(shù)據(jù)分析。WGS測序不論是在科研還是臨床診療上,,今后都大有作為,。 |
|