(以下內(nèi)容根據(jù)華大基因?qū)W院慕序精品在線課程《基因組注釋與基因注釋原理及常用軟件使用方法》整理,,未經(jīng)授權(quán),,不得轉(zhuǎn)載) (一)如何判斷基因組的組裝結(jié)果是否可以進(jìn)行注釋,? 成功地進(jìn)行基因組注釋的第一步首先要判斷基因組的組裝結(jié)果是否可以進(jìn)行注釋,有以下三個(gè)衡量指標(biāo):N50,、Gap和Coverage,。 01 N50 (1)N50的定義 指基因組組裝結(jié)果中,一半的scaffolds/ contigs長(zhǎng)度都大于這個(gè)值,。 (2)N50達(dá)到多少,?我們才可以進(jìn)行注釋? Contig N50最少要達(dá)到物種平均基因長(zhǎng)度以上,。 02 Gap (1)Gap的定義 在測(cè)序的時(shí)候,,由于物種本身的限制,導(dǎo)致基因組有些區(qū)域是測(cè)不到的,,或者因?yàn)榛蚪M本身的特點(diǎn),,比如說(shuō)有可能是高重復(fù)或者高雜合,導(dǎo)致基因組上有些序列組裝不出來(lái),。把測(cè)不出來(lái)的或者組裝不出來(lái)的用N去填補(bǔ),,這些填補(bǔ)的區(qū)域就叫Gap,Gap越小越少越好,。 (2)Gap的統(tǒng)計(jì) 統(tǒng)計(jì)Gap平均大小和平均個(gè)數(shù),,通過(guò)以上結(jié)果來(lái)考察組裝的結(jié)果。 03 Coverage (1)基因組的覆蓋度 測(cè)序獲得的序列占整個(gè)基因組的比例,,基因組的本身應(yīng)該是多大,,我們裝出來(lái)多大,這樣一個(gè)比值,。我們拿到一個(gè)物種,,一般會(huì)通過(guò)流式細(xì)胞儀的方式去估計(jì)基因組的大小,然后,,我們得到組裝出來(lái)的這個(gè)值和估計(jì)值的比值,,得出來(lái)的這個(gè)值一般在90%-95%即可拿這個(gè)組裝的結(jié)果去進(jìn)行后續(xù)分析。 (2)基因的覆蓋度 我們所組裝的序列中,,基因被完整組裝出來(lái)的比例,。 (3)如何評(píng)估基因覆蓋度? 給大家推薦兩個(gè)軟件——CEGMA和BUSCO,,CEGMA收集了普遍存在于眾多真核生物中單拷貝的基因,我們可以用CEGMA把我們拿到的基因組序列和單拷貝的基因去比較,,如果比到,,證明這個(gè)普遍存在的單拷貝基因被我們組裝出來(lái)了。通過(guò)這樣一個(gè)比值,,我們可以大致判斷組裝的結(jié)果中基因的覆蓋度是不是符合我們的需求,。另外,BUSCO評(píng)估組裝完整度,Complete比例盡量達(dá)到>80%以上,。 (二)基因組注釋 (1)基因組注釋的定義 指在我們感興趣的序列上找到生物學(xué)信息的一個(gè)過(guò)程,,從這個(gè)定義上看,基因組注釋是包括兩個(gè)步驟: ①我們?cè)诨蚪M序列上找到我們感興趣的,、有特定功能的元件,,這也是我們平時(shí)所說(shuō)的結(jié)構(gòu)注釋(Structural Annotation); ②找到這些元件以后,我們要發(fā)掘這些元件的功能或者它們具有什么生物信息含義,,這也是我們平時(shí)所說(shuō)的功能注釋(Functional Annotation),。 (2)注釋基因組的思路? 以下兩大思路: ①De novo(Ab initio),,意思是從頭預(yù)測(cè),,我們根據(jù)找到的元件本身的結(jié)構(gòu)特征或者功能特征等等來(lái)識(shí)別它; ②Homology-based,,意思是基于同源性的,,我們認(rèn)為具有序列相似性的元件之間,它們一般具有相似的功能,,基于序列的相似性這個(gè)思路去找到我們感興趣的,、跟我們已知序列非常相近的一些元件。 如果您想深入學(xué)習(xí)基因組學(xué)前沿技術(shù) 請(qǐng)關(guān)注華大基因 生物信息學(xué)培訓(xùn)系列 基因組學(xué)前沿技術(shù)專題培訓(xùn)班 舉辦地點(diǎn):中國(guó)·深圳 培訓(xùn)時(shí)間:2017年3月20日-3月24日 重復(fù)序列的分類及特點(diǎn)——根據(jù)在基因組上的分布方式,,可以分為兩類:1,、串聯(lián)重復(fù)序列(Tandem Repeats(Satellite)),它是以特定的單元首尾相接排列在基因組上。2,、散在重復(fù)序列(Dispersed Repeats(Transposons),,TE),它是以特定的單元散在地分布在基因組上,。 (一)串聯(lián)重復(fù)序列 01 串聯(lián)重復(fù)序列的分類 根據(jù)重復(fù)單元的大小分為Satellite(unit>100bp),、Minisatellite(10bp<><><> 02 較常用于注釋分析的軟件 較常用于注釋串聯(lián)重復(fù)序列分析的軟件: (1)TRF(Tandem Repeats Finder):ab initio prediction,從頭預(yù)測(cè)軟件,,可以機(jī)械地統(tǒng)計(jì)基因組上哪些序列符合串聯(lián)重復(fù)序列的特征(以特定的單元首尾相接排列在基因組上),。http://tandem./trf/trf.html (2)RepeatMasker/ RepeatProteinMask:homology-based,同源注釋軟件,,有自帶重復(fù)序列庫(kù),,包含常見(jiàn)真核生物的重復(fù)序列。http://www./ (二)散在重復(fù)序列 根據(jù)散在重復(fù)序列,,也就是我們常說(shuō)的轉(zhuǎn)座子,,它在轉(zhuǎn)座的過(guò)程中是否需要RNA介導(dǎo)分為兩類:Class Ⅰ–(Retrotransposon(RNA intermediate))和Class II – DNA Transposon(non RNA intermediate)。根據(jù)轉(zhuǎn)座過(guò)程中轉(zhuǎn)座的方式,,我們把Class分為Subclass,,然后根據(jù)插入的機(jī)制,,把Subclass分為Order(詳見(jiàn)下圖)。 我們針對(duì)比較常分析的幾個(gè)轉(zhuǎn)座元件,,介紹一下它們的結(jié)構(gòu)特征,。 01 LTR LTR ——長(zhǎng)末端重復(fù)序列(Class I,反轉(zhuǎn)座子, 以復(fù)制和粘貼的形式),,它在植物基因組中比較豐富,,含量比較多,同時(shí)作為基因組大小序列變化主要的因素,。長(zhǎng)末端重復(fù)序列在轉(zhuǎn)座的時(shí)候會(huì)在兩端形成一模一樣比較長(zhǎng)的序列,,中間部分是ORF,編碼轉(zhuǎn)座相關(guān)的酶等等,。 根據(jù)這個(gè)結(jié)構(gòu)特征,,我們可以分析LTR爆發(fā)的時(shí)間,因?yàn)樵谵D(zhuǎn)座的那一刻,,兩端會(huì)形成的一模一樣序列,,但是隨著時(shí)間的流逝,兩端形成的一模一樣序列會(huì)各自發(fā)生突變,,時(shí)間越長(zhǎng),,突變積累就越多,兩端序列差異也就越大,。我們?cè)跍y(cè)得的物種里面如果找到LTR轉(zhuǎn)座元件,,可以通過(guò)分析兩端序列的差異來(lái)判斷LTR爆發(fā)的年代,這是進(jìn)化分析比較常見(jiàn)和熱門(mén)的點(diǎn),。 02 LINE以及SINE LINE以及SINE——分別是長(zhǎng)散在重復(fù)序列/長(zhǎng)散在元件和短散在重復(fù)序列/短散在元件(Class I,,反轉(zhuǎn)座子, 以復(fù)制和粘貼的形式),相對(duì)LTR,,它們?cè)趧?dòng)物基因組中比較常見(jiàn),,含量比較多,尤其是SINE,,它在我們測(cè)的人的基因組有一個(gè)比較常見(jiàn)的子類型叫做Alu,,Alu在人的基因組含量比較豐富,多達(dá)500,000 份拷貝,。 01 從頭預(yù)測(cè)軟件 (1)依據(jù)特征的不同,,我們把軟件分為三大類:ReAS、RepeatScout以及RepeatModeler,。這些軟件可以把基因組打斷為若干個(gè)K-mer,,通過(guò)統(tǒng)計(jì)K-mer的頻數(shù)來(lái)判斷該段序列是否重復(fù)足夠次數(shù),從而找到這些重復(fù)序列,; (2)基于重復(fù)序列特異的結(jié)構(gòu)特征來(lái)預(yù)測(cè)的軟件,,如LTR FINDER,專門(mén)預(yù)測(cè)LTR轉(zhuǎn)座元件,; (3)通過(guò)基因組自身比對(duì)的方式來(lái)搜尋重復(fù)序列,,這類常用的軟件有RECON、PILER和RepeatModeler,。 02 同源注釋軟件 常用的有軟件有RepeatMasker和RepeatProteinMask,,其中,RepeatMasker自帶DNA重復(fù)序列庫(kù),,叫做Repbase,。
我們?cè)谧⑨屢粋€(gè)物種整個(gè)重復(fù)序列數(shù)據(jù)集的時(shí)候,要綜合運(yùn)用以上介紹的軟件,,具體思路請(qǐng)見(jiàn)以下圖片說(shuō)明,。首先,我們拿到基因組序列以后,,先進(jìn)行Tanderm Repeats預(yù)測(cè),,可以使用TRF軟件;接下來(lái),,可以兵分兩路,,第一路:通過(guò)使用De novo軟件(比如:LTR-finder,RepeatModeler, RepeatScout,,Piler等)去預(yù)測(cè)該物種本身特異重復(fù)序列,,然后構(gòu)建出一個(gè)物種本身特異的庫(kù);另外一路是,,通過(guò)RepeatMasker等可以跟已知的重復(fù)序列數(shù)據(jù)庫(kù)Repbase進(jìn)行比較,,找到已知類型的TEs,然后結(jié)合Repbase和TE proteins這兩個(gè)庫(kù),,重新應(yīng)用RepeatMasker進(jìn)行全基因組的掃描,,最后得出的TEs就基本是全基因組上我們找到的比較全面的TE集合。 |
|
來(lái)自: teszsz > 《臨床遺傳學(xué)》