同樣的策略,,我們也可以應(yīng)用到lncRNA的學(xué)習(xí),。以前我在:miRNA、LncRNA,、CircRNA靠譜小結(jié) 也提到過一些基礎(chǔ)知識(shí),,但還不夠豐滿!其實(shí)讀一篇綜述是最好的學(xué)習(xí)方式,,不過英文的畢竟難啃,。假如你還是需要深入學(xué)習(xí),建議看2009的CELL雜志的超級(jí)經(jīng)典綜述:Evolution and Functions of Long Noncoding RNAs 當(dāng)然了,,你假如僅僅是分析lncRNA的表達(dá)矩陣,,你其實(shí)是可以不需要耗費(fèi)時(shí)間去理解那么多生物學(xué)背景的,把它當(dāng)做是一個(gè)基因ID即可,,一個(gè)有名字的基因,。 首先lncRNA是Non-coding RNAs的一種而且Non-coding RNAs的別名太多了,"non-protein-coding RNA", "npcRNA", "non-messenger RNA", "nmRNA", "functional RNA", "fRNA", "ncRNA",。而Non-coding RNA 的分類就太多了,,在:https://www./data/genegroup/#!/group/475可以看到信息列表。非編碼RNA(Non-coding RNA)是指不編碼蛋白質(zhì)的RNA,。其中包括rRNA,、tRNA、snRNA,、snoRNA 和microRNA 等多 種已知功能的 RNA,,還包括未知功能的RNA。這些RNA的共同 特點(diǎn)是都能從基因組上轉(zhuǎn)錄而來,,但是不翻譯成蛋白,,在RNA 水平上就能行使各自的生物學(xué)功能,。如果你對(duì)Non-coding RNA 感興趣呢,可以看 https://www./collections/sqtqxdnvdz 里面的合輯:
話說這個(gè)系列的綜述里面的機(jī)制圖,,都畫的好漂亮?。?/p> 長(zhǎng)鏈非編碼RNA(long noncoding RNA,,lncRNA)
再次強(qiáng)調(diào),如果你僅僅是處理數(shù)據(jù),,可以把LncRNA跟其它基因一樣的處理即可,。大部分都是看表達(dá)差異罷了。 在GENCODE Release (version 32)的LncRNA信息據(jù)ENCODE (Encyclopedia of DNA Elements)項(xiàng)目統(tǒng)計(jì),,人類基因 組中約75%區(qū)域都可以轉(zhuǎn)錄,。其中1%為編碼蛋白外顯子,40% 為蛋白編碼基因(外顯子+內(nèi)含子)轉(zhuǎn)錄區(qū)域,,剩下絕大多數(shù)轉(zhuǎn) 錄區(qū)域產(chǎn)生lncRNA,。因?yàn)長(zhǎng)ong non-coding RNA genes數(shù)據(jù)庫(kù)來源太多,研究也不統(tǒng)一,,我比較喜歡GENCODE 數(shù)據(jù)庫(kù)的,。我傾向于把基因分成Protein-coding和Non-coding 兩個(gè)大類,其在 GENCODE 數(shù)量如下: Total No of Genes 60609 這里面的17910個(gè) Long non-coding RNA genes 是需要重點(diǎn)關(guān)注的,。參考:https://www./human/stats.html 所以,,如果你分析LncRNA的數(shù)據(jù),最后最好是輸出的結(jié)果,,以GENCODE數(shù)據(jù)庫(kù)的ID為準(zhǔn),,這樣方便你我他,!再次強(qiáng)調(diào),如果你僅僅是處理數(shù)據(jù),,可以把LncRNA跟其它基因一樣的處理即可,。大部分都是看表達(dá)差異罷了。 lncRNA功能前面我們提到過LncRNA發(fā)揮功 能的方式很廣,,可以與蛋白,、DNA和RNA相互作用,參與多種 生物學(xué)過程的調(diào)控,。同理我們應(yīng)該是看綜述,,這個(gè)時(shí)候推薦的同樣是引用最多的,,發(fā)表在 Mol Cell. 2011 Sep 16; 43(6): 904–914. 的Molecular mechanisms of long noncoding RNAs 如果你覺得不過癮,,也可以繼續(xù)看其它,再比如: Functional Classification and Experimental Dissection of Long Noncoding RNAs LncRNA調(diào)控分析LncRNA順式(cis)調(diào)控基因分析Antisense長(zhǎng)鏈非編碼RNA,,至少其中相當(dāng)多的一部分,,能夠順式調(diào)節(jié)鄰近蛋白編碼基因的轉(zhuǎn)錄,精密控制這些發(fā)育多樣性基因位點(diǎn)的時(shí)空表達(dá),,并參與到與之相關(guān)的發(fā)育和其它生物學(xué)過程,。順式調(diào)控就是指非編碼RNA對(duì)臨近mRNA的一種轉(zhuǎn)錄激活與表達(dá)調(diào)控方式。LncRNA以序列互補(bǔ)為原理結(jié)合在未解鏈的染色質(zhì)大溝中,,或者和解鏈的DNA鏈結(jié)合,,LncRNA位點(diǎn)附近的基因轉(zhuǎn)錄會(huì)受到該LncRNA對(duì)正在轉(zhuǎn)錄或者剪接體的影響,某個(gè)基因的轉(zhuǎn)錄起始元件出現(xiàn)在臨近的LncRNA轉(zhuǎn)錄位點(diǎn)中,。 LncRNA 反式(trans)調(diào)控基因分析反鏈LncRNA反式(trans)調(diào)控,,是對(duì)遠(yuǎn)端mRNA轉(zhuǎn)錄的調(diào)控LncRNA可以調(diào)控遠(yuǎn)距離的基因的表達(dá),例如結(jié)合增強(qiáng)子和啟動(dòng)子等,。LncRNA可以起到支架作用,,組織蛋白復(fù)合物行使功能,充當(dāng)亞細(xì)胞結(jié)構(gòu),,LncRNA以劑量依賴形式在胞質(zhì)或者胞核內(nèi),,調(diào)控結(jié)合的蛋白或者RNA的活性。通過皮爾森相關(guān)系數(shù)(閾值大于0.95)可以判斷LncRNA是否調(diào)控基因,。 lncRNA-miRNA相互作用這個(gè)其實(shí)是目前的數(shù)據(jù)分析重點(diǎn),,就是我們一直說的ceRNA 理論。 lncRNA因其存在Introns等片段組成,,長(zhǎng)度可達(dá)數(shù)千nt,,這就為吸附結(jié)合大量的miRNA提供了良好的物質(zhì)基礎(chǔ),通過競(jìng)爭(zhēng)占有胞內(nèi)大量的miRNA,,像海綿一樣緩沖并削減其干涉靶基因mRNA編碼蛋白的能力,,我們就稱這樣的lncRNA與mRNA互為ceRNA關(guān)系,,因此可見,作為關(guān)聯(lián)節(jié)點(diǎn)的就是miRNA,,它的靶構(gòu)成了ceRNA,,共同組合就是ceRNA網(wǎng)絡(luò)。 lncRNA種類主要是根據(jù)其在參考基因組上的位置,,一個(gè) lncRNA 可以歸于以下五類中的一種或五種:(1)sense(2)antisense (3)bidirectional(4)intronic(5)intergenic,,這個(gè)在很多綜述都可以看到,我建議看最新的,,就是發(fā)表在J Anim Sci Technol. 2018; 的綜述:Long non-coding RNA: its evolutionary relics and biological implications in mammals: a review 參考綜述是:Dhanoa et al. Journal of Animal Science and Technology (2018) 60:25 也可以分成更多類型,,各種各樣的綜述都有:
利用RNA-seq技術(shù)發(fā)現(xiàn)并且鑒定lncRNA做到RNA-seq技術(shù)來鑒定lncRNA比較少,,主要是非模式生物的,,數(shù)據(jù)分析的難點(diǎn)主要在:LncRNA鑒定,可以看一寫公司的結(jié)題報(bào)告: 主要是通過三個(gè)軟件鑒定樣本中的LncRNA,,分別是CPAT,、CPC2和CNCI。但是由于 LncRNA的特征,,單一一種軟件鑒定出來的結(jié)果假陽(yáng)性較多,,因此取三個(gè)軟件得到結(jié)果的交集作為最終結(jié)果,三個(gè)軟件結(jié)果可以做韋恩圖,。 發(fā)現(xiàn)并且鑒定lncRNA就需要命名啦,,也是有一定規(guī)則的。 lncRNA的命名實(shí)際上,,目前l(fā)ncRNA的命名還沒有一個(gè)統(tǒng)一的原則,,但為了讓lncRNA的命名具有唯一性、準(zhǔn)確性并最大程度上反映其功能,,雨果基因命名委員會(huì)(HGNC,,唯一的制定人類基因命名標(biāo)準(zhǔn)的官方授權(quán)機(jī)構(gòu))提供了一個(gè)命名指導(dǎo)指南,以供參考,。參考文獻(xiàn):A short guide tolong non-coding RNA gene nomenclature 作者在發(fā)表新lncRNA時(shí),,可先獲取HGNC的認(rèn)可,如果作者發(fā)布的名字已在其他地方使用過,,HGNC將會(huì)指定一個(gè)新名字供作者選擇,。 lncRNA的名字應(yīng)是描述基因的縮寫,便于人們理解名字的含義,。如BANCR就是BRAF-activatednon-proteincoding RNA的縮寫,。 功能性轉(zhuǎn)錄假基因在命名時(shí)應(yīng)保留它們假基因名稱且不應(yīng)改變其基于功能的名稱,。為了方便搜索,這個(gè)功能應(yīng)加在名字的最后,。eg: PTENP1 是“phosphatase and tensin homolog pseudogene 1 (functional)”. 而對(duì)于未知功能的lncRNA應(yīng)依據(jù)基因組上下文來命名 如果有一個(gè)很接近的蛋白編碼基因,,lncRNA的名字應(yīng)該以這個(gè)編碼基因名字開始,再加后綴即可,。 后綴的分類:
長(zhǎng)鏈基因間lncRNA(Longintergenic lncRNAs,,lincRNAs),以LINC為前綴,,數(shù)字為后綴,eg: LINC00485,。 此外,,有些lncRNA與編碼基因是頭碰頭(headto head),可推斷它們擁有雙向啟動(dòng)子,,HGNC推薦將其命名為反義上游(Antisense upstream,,AU),例如,,GENE2-AU1,。 lncRNA的常用數(shù)據(jù)庫(kù)大全因?yàn)閷?shí)在是太多,介紹起來沒完沒了,,我們這里重點(diǎn)講解一個(gè)即可,,就是:RNAcentral,它整合了多個(gè)數(shù)據(jù)庫(kù),,并且提供4個(gè)重要的功能:text search, sequence similarity search, bulk downloads, and programmatic data access. 如果你確實(shí)感興趣它所整合的那些數(shù)據(jù)庫(kù)本身,,也可以自己慢慢學(xué)習(xí):https:///expert-databases 在Wikipedia可以查到更多:https://en./wiki/List_of_long_non-coding_RNA_databases |
|