啟動(dòng)子是RNA 聚合酶識(shí)別、結(jié)合和開始轉(zhuǎn)錄的一段DNA 序列,,它含有RNA 聚合酶特異性結(jié)合和轉(zhuǎn)錄起始所需的保守序列,,多數(shù)位于結(jié)構(gòu)基因轉(zhuǎn)錄起始點(diǎn)的上游,啟動(dòng)子本身不被轉(zhuǎn)錄,。但有一些啟動(dòng)子(如tRNA啟動(dòng)子)位于轉(zhuǎn)錄起始點(diǎn)的下游,,這些DNA序列可以被轉(zhuǎn)錄。 啟動(dòng)子的簡(jiǎn)介啟動(dòng)子是RNA 聚合酶識(shí)別,、結(jié)合和開始轉(zhuǎn)錄的一段DNA 序列,,它含有RNA 聚合酶特異性結(jié)合和轉(zhuǎn)錄起始所需的保守序列,多數(shù)位于結(jié)構(gòu)基因轉(zhuǎn)錄起始點(diǎn)的上游,,啟動(dòng)子本身不被轉(zhuǎn)錄,。所以一般所說的啟動(dòng)子是DNA序列上的結(jié)構(gòu),在mRNA,、cDNA中它是不存在,;但是也有一些例外,如tRNA啟動(dòng)子就位于轉(zhuǎn)錄起始點(diǎn)的下游,,這些DNA序列是可以被轉(zhuǎn)錄的,,只能說啟動(dòng)子一般位于轉(zhuǎn)錄起始位點(diǎn)的上游。啟動(dòng)子,,一般分為廣譜表達(dá)型啟動(dòng)子,、組織特異性啟動(dòng)子、腫瘤特異性啟動(dòng)子等多種形式,?;虻膯?dòng)子部分發(fā)生改變(突變),則導(dǎo)致基因表達(dá)的調(diào)節(jié)障礙,。啟動(dòng)子本身并不控制基因活動(dòng),,而是通過與轉(zhuǎn)錄因子的結(jié)合而控制基因活動(dòng)的。轉(zhuǎn)錄因子就像一面“旗子”,,指揮著酶(RNA聚合酶polymerases) 的活動(dòng),。真核細(xì)胞含有3類不同的RNA聚合酶,分為RNA聚合酶Ⅰ,、RNA聚合酶Ⅱ,、RNA聚合酶Ⅲ,。幾個(gè)基本概念1. 轉(zhuǎn)錄組起始點(diǎn)(TSS):是指與新生RNA鏈第一個(gè)核苷酸相對(duì)應(yīng)的DNA鏈上的堿基,通常為一個(gè)嘌呤(A 或G),,即5’UTR的上游第一個(gè)堿基,;注意轉(zhuǎn)錄起始點(diǎn)和起始密碼子的區(qū)別。2. 起始密碼子和終止密碼子:mRNA的開放閱讀框架中,,每3個(gè)相鄰的核苷酸編碼一種氨基酸,,這種存在于mRNA開放閱讀框架區(qū)的三聯(lián)體形式的核苷酸序列稱為密碼子(codon);由A,、U,、C、G四種核苷酸可組成64個(gè)密碼子,,其中有61個(gè)密碼子可編碼氨基酸,。AUG既編碼甲硫氨酸,又作為多肽鏈合成的起始信號(hào),,作為起始信號(hào)的密碼子稱為起始密碼子,;而終止翻譯的密碼子稱為終止密碼子,包含3個(gè):UAG,、UAA,、UGA。3. UTR區(qū):UTR(Untranslated Region),,即非翻譯區(qū),;在分子遺傳學(xué)中,是指任意一個(gè)位于mRNA鏈編碼序列兩端的片段,;如果其位于5′端,,則稱為5′非翻譯區(qū)(5'-untranslated region,5'-UTR)(或"前導(dǎo)序列,,leader"),,反之若位于3′端,則稱為3′非翻譯區(qū)(3'-untranslated region,,3'-UTR)(或"尾隨序列,,trailer")。盡管它們被稱為"非翻譯區(qū)",,并且不是構(gòu)成該基因的蛋白質(zhì)編碼區(qū),,但在5′非翻譯區(qū)內(nèi)的上游可讀框可以被翻譯成多肽。4. 5'帽子(cap):真核生物mRNA的5'端有特殊的帽子(cap)結(jié)構(gòu),,它由甲基化鳥苷酸經(jīng)焦磷酸與mRNA的5'末端核苷酸相連,,形成5',5'-三磷酸連接(5',5'-triphosphate linkage);這種結(jié)構(gòu)有抗5'-核酸外切酶的降解作用,;在蛋白質(zhì)合成過程中,,它有助于核糖體對(duì)mRNA的識(shí)別和結(jié)合,,使翻譯得以正確起始。5. PolyA尾巴:真核生物mRNA尾部特有的150-200個(gè)腺苷酸殘基,,保護(hù)mRNA,免受核酸外切酶攻擊,,并且對(duì)轉(zhuǎn)錄終結(jié),、將mRNA從細(xì)胞核輸出及進(jìn)行翻譯都十分重要;PolyA尾巴是mRNA轉(zhuǎn)錄后修飾加上去的,,DNA基因序列中是不存在的,,經(jīng)mRNA反轉(zhuǎn)錄出的cDNA是有PolyA結(jié)構(gòu)的。6. CDS與ORF:這是一個(gè)經(jīng)常被人混淆的兩個(gè)概念,;CDS是Coding sequence的縮寫,,是指編碼一段蛋白產(chǎn)物的序列,是與蛋白質(zhì)密碼子一一對(duì)應(yīng)的序列,,注意其與mRNA序列的差異,;ORF是open reading frame的縮寫,翻譯成開放閱讀框,,是指從一個(gè)起始密碼子開始到一個(gè)終止密碼子結(jié)束的一段序列,,但并不是所有ORF都能表達(dá)出蛋白產(chǎn)物,但CDS必定是一個(gè)ORF,,但也可能包括多個(gè)ORF,,相反,每個(gè)ORF不一定都是CDS,。啟動(dòng)子序列的查找在實(shí)際生信分析中,,一般取轉(zhuǎn)錄組起始位置前1500-2000bp作為啟動(dòng)子區(qū)域序列,擁有生信技能的人提取及批量提取某些基因啟動(dòng)子序列簡(jiǎn)直就是小菜一碟,;但是對(duì)于生信小白來說就難上青天了,;不過還有一些在線數(shù)據(jù)庫是可供我們查找提取啟動(dòng)子序列之用,比如我們之前給大家介紹的真核生物啟動(dòng)子的EPD數(shù)據(jù)庫,,使用方法點(diǎn)此鏈接查看:啟動(dòng)子序列提取-EPD真核生物啟動(dòng)子數(shù)據(jù)庫!不過仍有很多小伙伴的參考基因組EPD數(shù)據(jù)庫沒有收錄怎么辦,?今天我再給大家介紹下利用我們熟悉的NCBI數(shù)據(jù)庫提取啟動(dòng)子序列的方法,,希望對(duì)你有所幫助。NCBI數(shù)據(jù)庫查找啟動(dòng)子序列首先我們?cè)贜CBI中檢索到要提取序列的基因,,如下圖,,本文以擬南芥WRKY家族一個(gè)成員基因:AT1G65680為例進(jìn)行操作演示。檢索到該基因后,,向下拉至基因結(jié)構(gòu)展示區(qū),,如下圖,,點(diǎn)擊GenBank。進(jìn)入GenBank后網(wǎng)頁會(huì)詳細(xì)展示該基因的信息,,如基因長(zhǎng)度,,染色體上物理位置等;向下拉還會(huì)看到如下圖所示的gene,、mRNA的起止位置,、對(duì)應(yīng)的序列等信息。需要注意的是,,該gene的起始位置是1-1408,,mRNA的起始位置也是從1開始的,其實(shí)很多基因mRNA的起始位置不是1,,可能是別的數(shù)字如218/175等等,。結(jié)合該基因在染色體物理位置我們可知,起始位置1指的就是物理位置第24427266堿基,,加上基因長(zhǎng)度,,正好是終止位置24428673堿基。在實(shí)際生信分析中,,一般取轉(zhuǎn)錄起始位置前1500-2000bp作為啟動(dòng)子區(qū)域序列,,所以我們只需將該頁面右上角的Change region shown的起始數(shù)值減小1500-2000,就可以將該基因的轉(zhuǎn)錄起始點(diǎn)前啟動(dòng)子序列在下方序列展示區(qū)顯示出來,。如下圖:改變Change region shown的起始數(shù)值后,,gene、mRNA的起始位置也隨之發(fā)生改變,,由1變成了2001,,所以下方序列中1-2000個(gè)堿基就是我們想要提取的該基因的啟動(dòng)子序列,如下圖:好了,,今天的小技能就寫到這里,,感興趣的小伙伴抓緊試一下吧!祝你新的一周新的收獲,!
|