久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

分之有道,,型有所妙,HaploSeq之Hi-C分型

 生物_醫(yī)藥_科研 2019-04-23

位于染色體上某一區(qū)域的一組相關(guān)聯(lián)的SNP等位位點(diǎn)被稱(chēng)作單體型(haplotype),,與之相關(guān)的全基因組范圍的組合即為單體型圖譜(Haplotype Map, HapMap),。通過(guò)單體型分析可以發(fā)現(xiàn)兩個(gè)變異是否來(lái)自同一個(gè)等位基因,從而判斷這些變異是否有害;在臨床上,,單體型對(duì)器官移植時(shí)Donor-host的匹配很關(guān)鍵,;此外,單體型還能反映出群體結(jié)構(gòu)和進(jìn)化歷程,。大量研究表明基因表達(dá)存在等位不平衡性(Allelic imbalances),,預(yù)示著等位基因在遺傳或表觀上可能存在差異。

基于單體型的重要性,,國(guó)際單體型圖譜計(jì)劃,、千人基因組計(jì)劃等通過(guò)研究不相關(guān)群體的連鎖不平衡來(lái)系統(tǒng)地構(gòu)建單體型。然而利用這種方法可準(zhǔn)確分型的單體型平均長(zhǎng)度限制在300kb左右,。另一種方法是通過(guò)Parent-child Trios這種組合對(duì)子代進(jìn)行分型,,但是這種方法的成本很大,同時(shí),,生物學(xué)父母本的獲取對(duì)于某些樣本來(lái)說(shuō)也比較困難,。也有一些研究者通過(guò)實(shí)驗(yàn)進(jìn)行分型,,包括長(zhǎng)片段測(cè)序,,Mate-pair測(cè)序,F(xiàn)osmid測(cè)序等,。這種方法可以構(gòu)建幾kb到幾Mb的單體型塊,,但是不能構(gòu)建基因組水平的單體型塊。當(dāng)然也有全基因組跨度的分型,,包括熒光激活細(xì)胞分選(Fluorescence-activated cell sorting),,染色體分離測(cè)序(Chromosome-segregation followed by sequencing),以及基于染色體顯微切割測(cè)序(Chromosome microdissection–based sequencing)方法,,但是這些技術(shù)一方面僅能分型出部分雜合變異,,另一方面存在技術(shù)壁壘,需特殊平臺(tái)和機(jī)構(gòu)才能做到,。

此外,,還可以采用計(jì)算的方法構(gòu)建單體型,對(duì)此,,測(cè)序文庫(kù)的大小是一個(gè)很重要的因素,。如Mate-pair測(cè)序(Insert size約5kb)相比于常規(guī)測(cè)序(Insert size約500bp)可以獲到更長(zhǎng)單體型。然而,,基于Shotgun測(cè)序手段,,即使采用超高的深度,也很難構(gòu)建長(zhǎng)于1M的Haplotype blocks,。

隨著Hi-C技術(shù)的發(fā)展成熟,,人們?cè)?013年就提出了采用Hi-C數(shù)據(jù)構(gòu)建單體型的方法,稱(chēng)作HaploSeq方法[1],并對(duì)應(yīng)開(kāi)發(fā)了一個(gè)叫做HapCUT的軟件,,其原理即是采用Hi-C contact根據(jù)染色體內(nèi)互作強(qiáng)于染色體間互作將檢測(cè)到的變異組合聯(lián)系起來(lái),。

研究者使用了小鼠和人的Hi-C數(shù)據(jù)來(lái)做測(cè)試,并且從完整性(completeness),,分辨率(resolution)和準(zhǔn)確性(accuracy)三個(gè)方面對(duì)分型結(jié)果進(jìn)行了評(píng)估,。這三個(gè)指標(biāo)代表的意義如下:

01

 完整性

在分型過(guò)程中,通常不能達(dá)到將一條染色體作為一個(gè)整體完全分開(kāi),,而是常會(huì)有多個(gè)獨(dú)立的haplotype blocks(單體型塊),,haplotype blocks的數(shù)量取決于雜合變異的聯(lián)結(jié)情況。在這些haplotype blocks中已分型的雜合變異最多的那個(gè)haplotype blocks稱(chēng)之為MVP(Most heterozygous variant phased)block,。完整性評(píng)估通常指MVP block中分型的雜合變異的位點(diǎn)數(shù)量,。

02

 分辨率

指MVP block分型的變異位點(diǎn)數(shù)除以MVP跨度范圍內(nèi)的所有變異位點(diǎn)數(shù)。如下圖:

圖中紅色線(Chromosome)上的黑色豎線表示已分型的雜合變異位點(diǎn),。A-J這些位點(diǎn)分型后構(gòu)建成了MVP block,。在MVP block外還存在一些位點(diǎn)如圖中X,Y位點(diǎn),計(jì)算分辨率時(shí)這些位點(diǎn)不計(jì)算在內(nèi),。

03

 準(zhǔn)確性

準(zhǔn)確性定義為MVP block內(nèi)正確分型的雜合變異位點(diǎn)比例,,測(cè)試結(jié)果表明采用Hi-C數(shù)據(jù)經(jīng)HapCUT軟件對(duì)小鼠和人的基因組分型,其準(zhǔn)確性均達(dá)到99.5%以上,。

看來(lái)僅使用Hi-C數(shù)據(jù),,分型效果已經(jīng)很好了,那么隨之而來(lái)的問(wèn)題是:

問(wèn)題一

Hi-C與其它測(cè)序策略結(jié)合是否可以提高分型指標(biāo),?

通過(guò)比較不同測(cè)序策略與MVP block完整性,,評(píng)估圖如下:

結(jié)果顯示,Hi-C reads + WGS reads沒(méi)有增加分型的haplotypes的完整性,,但是Hi-C reads + WGS reads的分辨率要比單純用Hi-C reads的分辨率更高,。如下圖:

橫坐標(biāo):將所有Block按雜合位點(diǎn)數(shù)從大到小排列后的前100個(gè)Block

縱坐標(biāo):累積校正跨度的百分比。

根據(jù)分辨率的比較評(píng)估可以看出:

整體而言,,使用Proximity ligation(即Hi-C連接)的測(cè)序策略最佳(僅需第一條Block就能反映總體情況),,使用Fosmid文庫(kù)的測(cè)序策略次之(需要用前30條Blocks才能反映總體情況),而采用Meta-pair的測(cè)序策略效果非常差(使用了前100條也不能反映總體情況),。

雖然僅用WGS的分型結(jié)果效果遠(yuǎn)差于其它測(cè)序策略的結(jié)果,,但是無(wú)論是Proximity ligation,還是Fosmid,,還是Meta-pair,,同時(shí)再使用WGS,結(jié)果都會(huì)有所提升,。

所有結(jié)果中Proximity ligation + WGS的測(cè)序策略是最佳組合,。

注意上圖中縱坐標(biāo)采用的是累積校正跨度的百分比,,那么何為“校正跨度”?由于Block之間在跨度上可能存在交集,,如下圖Block1與Block2,,直接用Block的跨度來(lái)反應(yīng)分型情況,意義并不大,,所以研究者對(duì)這個(gè)跨度作了一個(gè)調(diào)整,,即校正跨度(Adjusted span,簡(jiǎn)稱(chēng)AS),,定義為Block的跨度乘以Block內(nèi)分型的雜合位點(diǎn)比例(可理解為Block跨度×分辨率),,如下圖。

問(wèn)題二

哪些因素可以影響分型效果,?

因素1:物種的雜合情況,,即變異位點(diǎn)的密度。

因?yàn)樾∈蟮淖儺愇稽c(diǎn)密度大約是每150bp一個(gè),,是人類(lèi)變異位點(diǎn)密度的7-10倍,。研究者作了一個(gè)測(cè)試:隨機(jī)取樣,將小鼠的變異位點(diǎn)密度取得與人類(lèi)的一致,。使用全部變異位點(diǎn),,各染色體準(zhǔn)確性在99.4%-99.7%范圍內(nèi),隨機(jī)取樣后各染色體準(zhǔn)確性在99.2%-99.6%范圍內(nèi),,說(shuō)明分型準(zhǔn)確性沒(méi)有降低多少,。但是分型分辨率變化卻非常大,,從原來(lái)的95%降到了32%,!

結(jié)論:低的變異位點(diǎn)密度不會(huì)影響完整性和準(zhǔn)確性,但是會(huì)顯著地影響分型分辨率,。

因素2:Hi-C數(shù)據(jù)測(cè)序深度和Hi-C reads長(zhǎng)度

像人類(lèi)這種變異位點(diǎn)密度比較低的基因組,,可以將HaploSeq(其結(jié)果作為'seed haplotype')和局部條件分型(Local conditional phasing,采用Beagle軟件對(duì)千人基因組計(jì)劃里的數(shù)據(jù)進(jìn)行分析)相結(jié)合來(lái)提高分辨率,。兩者結(jié)合使用后分辨率從約22%提高到約81%,,同時(shí)各染色體平均準(zhǔn)確性達(dá)到98%左右。

然而實(shí)際項(xiàng)目中很少有局部分型的數(shù)據(jù),,此時(shí)可以通過(guò)增加測(cè)序深度,,同時(shí)增加read長(zhǎng)度的辦法來(lái)提高'seed haplotype'分型分辨率。當(dāng)測(cè)序覆蓋低時(shí),,Hi-C連接的邊界可靠性會(huì)降低,,同時(shí)準(zhǔn)確性會(huì)下降。例如,,兩個(gè)變異位點(diǎn)如果只有1條Hi-C reads連接,,它們可能在測(cè)序錯(cuò)誤或者比對(duì)錯(cuò)誤等情況下導(dǎo)致單體型分型錯(cuò)誤,,但是當(dāng)這兩個(gè)變異位點(diǎn)有10條Hi-C reads連接時(shí)結(jié)果就比較可靠了。

目前,,采用二代WGS+Hi-C這種簡(jiǎn)單高效的策略已成熟應(yīng)用于對(duì)三代組裝的基因組(尤其是高雜合基因組)進(jìn)行單體型分型,。菲沙基因提供全套單倍體分型技術(shù)服務(wù)(NGS+PacBio Sequel+Hi-C)(鏈接:全球首批Sequel II登陸菲沙,與您共同見(jiàn)證高通量長(zhǎng)片段測(cè)序的魔力),,或者您只需要提供給我們以下數(shù)據(jù),,我們即可返還給您單體型的基因組組裝結(jié)果。

PacBio下機(jī)subreads數(shù)據(jù)及組裝完成的基因組數(shù)據(jù)(p-contig和a-contig,,fasta格式),;

染色體數(shù)目/核型;

100x Hi-C數(shù)據(jù),;

100x二代WGS數(shù)據(jù)(可使用survey數(shù)據(jù)),。

高雜合基因組分型,不怕,,找菲沙,!

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多