位于染色體上某一區(qū)域的一組相關(guān)聯(lián)的SNP等位位點(diǎn)被稱(chēng)作單體型(haplotype),,與之相關(guān)的全基因組范圍的組合即為單體型圖譜(Haplotype Map, HapMap),。通過(guò)單體型分析可以發(fā)現(xiàn)兩個(gè)變異是否來(lái)自同一個(gè)等位基因,從而判斷這些變異是否有害;在臨床上,,單體型對(duì)器官移植時(shí)Donor-host的匹配很關(guān)鍵,;此外,單體型還能反映出群體結(jié)構(gòu)和進(jìn)化歷程,。大量研究表明基因表達(dá)存在等位不平衡性(Allelic imbalances),,預(yù)示著等位基因在遺傳或表觀上可能存在差異。 基于單體型的重要性,,國(guó)際單體型圖譜計(jì)劃,、千人基因組計(jì)劃等通過(guò)研究不相關(guān)群體的連鎖不平衡來(lái)系統(tǒng)地構(gòu)建單體型。然而利用這種方法可準(zhǔn)確分型的單體型平均長(zhǎng)度限制在300kb左右,。另一種方法是通過(guò)Parent-child Trios這種組合對(duì)子代進(jìn)行分型,,但是這種方法的成本很大,同時(shí),,生物學(xué)父母本的獲取對(duì)于某些樣本來(lái)說(shuō)也比較困難,。也有一些研究者通過(guò)實(shí)驗(yàn)進(jìn)行分型,,包括長(zhǎng)片段測(cè)序,,Mate-pair測(cè)序,F(xiàn)osmid測(cè)序等,。這種方法可以構(gòu)建幾kb到幾Mb的單體型塊,,但是不能構(gòu)建基因組水平的單體型塊。當(dāng)然也有全基因組跨度的分型,,包括熒光激活細(xì)胞分選(Fluorescence-activated cell sorting),,染色體分離測(cè)序(Chromosome-segregation followed by sequencing),以及基于染色體顯微切割測(cè)序(Chromosome microdissection–based sequencing)方法,,但是這些技術(shù)一方面僅能分型出部分雜合變異,,另一方面存在技術(shù)壁壘,需特殊平臺(tái)和機(jī)構(gòu)才能做到,。 此外,,還可以采用計(jì)算的方法構(gòu)建單體型,對(duì)此,,測(cè)序文庫(kù)的大小是一個(gè)很重要的因素,。如Mate-pair測(cè)序(Insert size約5kb)相比于常規(guī)測(cè)序(Insert size約500bp)可以獲到更長(zhǎng)單體型。然而,,基于Shotgun測(cè)序手段,,即使采用超高的深度,也很難構(gòu)建長(zhǎng)于1M的Haplotype blocks,。 隨著Hi-C技術(shù)的發(fā)展成熟,,人們?cè)?013年就提出了采用Hi-C數(shù)據(jù)構(gòu)建單體型的方法,稱(chēng)作HaploSeq方法[1],并對(duì)應(yīng)開(kāi)發(fā)了一個(gè)叫做HapCUT的軟件,,其原理即是采用Hi-C contact根據(jù)染色體內(nèi)互作強(qiáng)于染色體間互作將檢測(cè)到的變異組合聯(lián)系起來(lái),。 研究者使用了小鼠和人的Hi-C數(shù)據(jù)來(lái)做測(cè)試,并且從完整性(completeness),,分辨率(resolution)和準(zhǔn)確性(accuracy)三個(gè)方面對(duì)分型結(jié)果進(jìn)行了評(píng)估,。這三個(gè)指標(biāo)代表的意義如下: 01 完整性 在分型過(guò)程中,通常不能達(dá)到將一條染色體作為一個(gè)整體完全分開(kāi),,而是常會(huì)有多個(gè)獨(dú)立的haplotype blocks(單體型塊),,haplotype blocks的數(shù)量取決于雜合變異的聯(lián)結(jié)情況。在這些haplotype blocks中已分型的雜合變異最多的那個(gè)haplotype blocks稱(chēng)之為MVP(Most heterozygous variant phased)block,。完整性評(píng)估通常指MVP block中分型的雜合變異的位點(diǎn)數(shù)量,。 02 分辨率 指MVP block分型的變異位點(diǎn)數(shù)除以MVP跨度范圍內(nèi)的所有變異位點(diǎn)數(shù)。如下圖: 圖中紅色線(Chromosome)上的黑色豎線表示已分型的雜合變異位點(diǎn),。A-J這些位點(diǎn)分型后構(gòu)建成了MVP block,。在MVP block外還存在一些位點(diǎn)如圖中X,Y位點(diǎn),計(jì)算分辨率時(shí)這些位點(diǎn)不計(jì)算在內(nèi),。 03 準(zhǔn)確性 準(zhǔn)確性定義為MVP block內(nèi)正確分型的雜合變異位點(diǎn)比例,,測(cè)試結(jié)果表明采用Hi-C數(shù)據(jù)經(jīng)HapCUT軟件對(duì)小鼠和人的基因組分型,其準(zhǔn)確性均達(dá)到99.5%以上,。 看來(lái)僅使用Hi-C數(shù)據(jù),,分型效果已經(jīng)很好了,那么隨之而來(lái)的問(wèn)題是: 問(wèn)題一 Hi-C與其它測(cè)序策略結(jié)合是否可以提高分型指標(biāo),? 通過(guò)比較不同測(cè)序策略與MVP block完整性,,評(píng)估圖如下: 結(jié)果顯示,Hi-C reads + WGS reads沒(méi)有增加分型的haplotypes的完整性,,但是Hi-C reads + WGS reads的分辨率要比單純用Hi-C reads的分辨率更高,。如下圖: 橫坐標(biāo):將所有Block按雜合位點(diǎn)數(shù)從大到小排列后的前100個(gè)Block 縱坐標(biāo):累積校正跨度的百分比。 根據(jù)分辨率的比較評(píng)估可以看出: ① 整體而言,,使用Proximity ligation(即Hi-C連接)的測(cè)序策略最佳(僅需第一條Block就能反映總體情況),,使用Fosmid文庫(kù)的測(cè)序策略次之(需要用前30條Blocks才能反映總體情況),而采用Meta-pair的測(cè)序策略效果非常差(使用了前100條也不能反映總體情況),。 ② 雖然僅用WGS的分型結(jié)果效果遠(yuǎn)差于其它測(cè)序策略的結(jié)果,,但是無(wú)論是Proximity ligation,還是Fosmid,,還是Meta-pair,,同時(shí)再使用WGS,結(jié)果都會(huì)有所提升,。 ③ 所有結(jié)果中Proximity ligation + WGS的測(cè)序策略是最佳組合,。 注意上圖中縱坐標(biāo)采用的是累積校正跨度的百分比,,那么何為“校正跨度”?由于Block之間在跨度上可能存在交集,,如下圖Block1與Block2,,直接用Block的跨度來(lái)反應(yīng)分型情況,意義并不大,,所以研究者對(duì)這個(gè)跨度作了一個(gè)調(diào)整,,即校正跨度(Adjusted span,簡(jiǎn)稱(chēng)AS),,定義為Block的跨度乘以Block內(nèi)分型的雜合位點(diǎn)比例(可理解為Block跨度×分辨率),,如下圖。 問(wèn)題二 哪些因素可以影響分型效果,? 因素1:物種的雜合情況,,即變異位點(diǎn)的密度。 因?yàn)樾∈蟮淖儺愇稽c(diǎn)密度大約是每150bp一個(gè),,是人類(lèi)變異位點(diǎn)密度的7-10倍,。研究者作了一個(gè)測(cè)試:隨機(jī)取樣,將小鼠的變異位點(diǎn)密度取得與人類(lèi)的一致,。使用全部變異位點(diǎn),,各染色體準(zhǔn)確性在99.4%-99.7%范圍內(nèi),隨機(jī)取樣后各染色體準(zhǔn)確性在99.2%-99.6%范圍內(nèi),,說(shuō)明分型準(zhǔn)確性沒(méi)有降低多少,。但是分型分辨率變化卻非常大,,從原來(lái)的95%降到了32%,! 結(jié)論:低的變異位點(diǎn)密度不會(huì)影響完整性和準(zhǔn)確性,但是會(huì)顯著地影響分型分辨率,。 因素2:Hi-C數(shù)據(jù)測(cè)序深度和Hi-C reads長(zhǎng)度 像人類(lèi)這種變異位點(diǎn)密度比較低的基因組,,可以將HaploSeq(其結(jié)果作為'seed haplotype')和局部條件分型(Local conditional phasing,采用Beagle軟件對(duì)千人基因組計(jì)劃里的數(shù)據(jù)進(jìn)行分析)相結(jié)合來(lái)提高分辨率,。兩者結(jié)合使用后分辨率從約22%提高到約81%,,同時(shí)各染色體平均準(zhǔn)確性達(dá)到98%左右。 然而實(shí)際項(xiàng)目中很少有局部分型的數(shù)據(jù),,此時(shí)可以通過(guò)增加測(cè)序深度,,同時(shí)增加read長(zhǎng)度的辦法來(lái)提高'seed haplotype'分型分辨率。當(dāng)測(cè)序覆蓋低時(shí),,Hi-C連接的邊界可靠性會(huì)降低,,同時(shí)準(zhǔn)確性會(huì)下降。例如,,兩個(gè)變異位點(diǎn)如果只有1條Hi-C reads連接,,它們可能在測(cè)序錯(cuò)誤或者比對(duì)錯(cuò)誤等情況下導(dǎo)致單體型分型錯(cuò)誤,,但是當(dāng)這兩個(gè)變異位點(diǎn)有10條Hi-C reads連接時(shí)結(jié)果就比較可靠了。 目前,,采用二代WGS+Hi-C這種簡(jiǎn)單高效的策略已成熟應(yīng)用于對(duì)三代組裝的基因組(尤其是高雜合基因組)進(jìn)行單體型分型,。菲沙基因提供全套單倍體分型技術(shù)服務(wù)(NGS+PacBio Sequel+Hi-C)(鏈接:全球首批Sequel II登陸菲沙,與您共同見(jiàn)證高通量長(zhǎng)片段測(cè)序的魔力),,或者您只需要提供給我們以下數(shù)據(jù),,我們即可返還給您單體型的基因組組裝結(jié)果。 ① PacBio下機(jī)subreads數(shù)據(jù)及組裝完成的基因組數(shù)據(jù)(p-contig和a-contig,,fasta格式),; ② 染色體數(shù)目/核型; ③ 100x Hi-C數(shù)據(jù),; ④ 100x二代WGS數(shù)據(jù)(可使用survey數(shù)據(jù)),。 高雜合基因組分型,不怕,,找菲沙,! |
|
來(lái)自: 生物_醫(yī)藥_科研 > 《待分類(lèi)》