文獻(xiàn)基本介紹文章題目Long noncoding RNAs and their proposed functions in fibre evelopment of cotton (Gossypium spp.) 發(fā)表于15年,,選自New Phytologist (IF在7以上)。從文章題目可以看出是研究棉花莖端發(fā)育長鏈非編碼RNA的鑒定及功能預(yù)測,。該文章的,,可以通過原文鏈接查看。 分析思路overview總體的基本分析思路可以分為:
棉花lncRNA的預(yù)測首先當(dāng)然是要知道怎樣找到哪些片段是lncRNA,。該文章利用利用SOAP2比對軟件將clean (去除adaptors還有低quality的redas) 的RNA-seq 比對到核糖體數(shù)據(jù)上,,去除比對上核糖體的reads,將過濾完rRNA 的reads與棉花參考基因組序列比對,,組裝轉(zhuǎn)錄本,。下面幾點(diǎn)是用以帥選的標(biāo)準(zhǔn):
最后用CPC(coding potential calculator)預(yù)測轉(zhuǎn)錄本的coding潛力,區(qū)分coding和non-coding的部分,,從而初步預(yù)測到lncRNA,。 棉花lncRNA的鑒定預(yù)測完之后,另外一件事當(dāng)然就是鑒定這些“所謂的lncRNA“”是啥,,與什么功能有關(guān),。 表達(dá)分析使用TOPHAT將RNA-seq比對到基因組上。Cufflink 用以估算lncRNA的表達(dá)量,。DESEQ用來尋找差異基因,。 臨近共表達(dá)分析基于基因組共定位的方法,通過分析與其臨近的蛋白編碼基因的功能,,可以對lncRNA 進(jìn)行功能注釋,。皮爾森相關(guān)性被用來探索這些lncRNA /蛋白質(zhì)編碼之間的表達(dá)關(guān)系?;虮倔w論(GO)分析用于富集分析這些鄰近這些lncRNA的基因表達(dá)規(guī)律,。 lncRNA共線性分析使用lastz,將At和Dt亞基因組的scaffolds比對到基因組上,。在At和Dt亞基因組之間至少有五個基因被鑒定共線性塊,。與syntenic塊和這些重疊的同源lncRNA進(jìn)一步使用BLASTN進(jìn)行確認(rèn)(best hits中有90%相似度)。 表達(dá)網(wǎng)絡(luò)構(gòu)造然后就是表達(dá)網(wǎng)絡(luò)構(gòu)造,,這個可以參考一下我們之前發(fā)的文章,。 lncRNA家族預(yù)測Rfam 數(shù)據(jù)庫是一個基于多序列比對和共進(jìn) 化模型建立的ncRNA家族信息庫,利用多序列 比對,,根據(jù)保守序列及二級結(jié)構(gòu)可以對預(yù)測的 lncRNA進(jìn)行分類,,從而在進(jìn)化層面上對lncRNA 進(jìn)行功能注釋。 總結(jié)雖然我沒有太多RNA-seq研究的經(jīng)驗(yàn),,咋一看來,,lncRNA的套路與轉(zhuǎn)錄組的研究有著很相似的地方,。很多研究方法都是同時適用的,。由于沒有太多相關(guān)經(jīng)驗(yàn),本文主要是基于我個人理解,,如果有錯誤歡迎指出,。 References: Long noncoding RNAs and their proposed functions in fibre development of cotton (Gossypium spp.) |
|