前言 各位親們,,文獻(xiàn)中的很多名字是否困惑過?別怕,!我們會(huì)用一個(gè)專題來解釋相關(guān)的名詞,,以期給各位帶來一些幫助。 RNA-seq:基于二代測(cè)序技術(shù),,研究特定細(xì)胞在某一功能狀態(tài)下所有RNA 的功能,,主要包括 mRNA 和非編碼RNA。能夠全面快速地獲得某一物種特定組織或器官在某一狀態(tài)下的幾乎所有轉(zhuǎn)錄本序列信息,,已廣泛應(yīng)用于基礎(chǔ)研究,、臨床診斷和藥物研發(fā)等 領(lǐng)域。 Q20,Q30:二代測(cè)序中,,每測(cè)一個(gè)堿基會(huì)給出一個(gè)相應(yīng)的質(zhì)量值,,這個(gè)質(zhì)量值是衡量測(cè)序準(zhǔn)確度的,。堿基的質(zhì)量值20的錯(cuò)誤率為1%,30的錯(cuò)誤率為0.1%,。Q20與Q30表示質(zhì)量值≧20或30的堿基所占百分比,,如堿基質(zhì)量值為20則表示該堿基的錯(cuò)誤率為10^(20/(-10))=0.01=1%(根據(jù)Q=-10lgP計(jì)算,P為錯(cuò)誤率) intron:內(nèi)含子,,是真核生物細(xì)胞DNA 中的間插序列,。這些序列被轉(zhuǎn)錄在前體RNA 中,經(jīng)過剪接被去除,,最終不存在于成熟RNA 分子中,。術(shù)語內(nèi)含子也指編碼相應(yīng)RNA 內(nèi)含子的DNA 中的區(qū)域。 exon:外顯子,,是真核生物基因的一部分,,它在剪接(Splicing)后仍會(huì)被保存下來,并可在蛋白質(zhì)生物合成過程中被表達(dá)為蛋白質(zhì),。外顯子是最后出現(xiàn)在成熟RNA 中的基因序列,,又稱表達(dá)序列。既存在于最初的轉(zhuǎn)錄產(chǎn)物中,,也存在于成熟的RNA 分子中的核苷酸序列,。術(shù)語外顯子也指編碼相應(yīng)RNA 外顯子的DNA 中的區(qū)域。 intergenic:基因間區(qū),,指基因與基因之間的間隔序列,,不屬于基因結(jié)構(gòu),不直接決定氨基酸,,可能通過轉(zhuǎn)錄后調(diào)控影響性狀的區(qū)域。 UTR:Untranslated Regions, 非翻譯區(qū)域,。是信使RNA(mRNA)分子兩端的非編碼片段,。5'-UTR 從mRNA 起點(diǎn)的甲基化鳥嘌呤核苷酸帽延伸至AUG 起始密碼子,3'-UTR 從編碼區(qū)末端的終止密碼子延伸至多聚A 尾巴(Poly-A)的前端,。 transcript:轉(zhuǎn)錄本,,是由一條基因通過轉(zhuǎn)錄形成的一種或多種可供編碼蛋白質(zhì)的成熟的mRNA。一條基因通過內(nèi)含子的不同剪接可構(gòu)成不同的轉(zhuǎn)錄本,。 isoform:同一個(gè)基因經(jīng)可變剪切或內(nèi)含子選擇機(jī)制產(chǎn)生不同的轉(zhuǎn)錄本,,這些不同轉(zhuǎn)錄本即稱isoform。 reconstruction:重組,,由于不同DNA 鏈的斷裂和連接而產(chǎn)生DNA片段的交換和重新組合,,從而形成新DNA 分子。 plus strand/minus strand:正鏈/負(fù)鏈,。對(duì)于一個(gè)基因來說,,DNA的兩條鏈中有一條鏈作為RNA 合成時(shí)的模板,,這條鏈叫負(fù)鏈,另一條叫正鏈,。 antisense strand/sense strand:無義鏈/有義鏈,。模板鏈在雙鏈DNA中,用來轉(zhuǎn)錄mRNA 的DNA 鏈稱為模板鏈(template strand),,不用于轉(zhuǎn)錄的鏈則稱為非模板鏈(nontemplate strand),。根據(jù)堿基互補(bǔ)配對(duì)原則,轉(zhuǎn)錄出的mRNA 鏈的堿基序列與非模板鏈的堿基序列一致,,惟一不同的是,,非模板鏈中的T 在mRNA 鏈中全部置換成了U。正是由于非模板鏈的堿基序列實(shí)際上代表了mRNA 的堿基序列(只不過在mRNA 中T 換成了U),,因此非模板鏈又被稱為編碼鏈(codingstrand),有義鏈(sense strand)和克里克鏈(crick strand),,而用來轉(zhuǎn)錄mRNA 的DNA 鏈被稱為非編碼鏈(anticoding strand)或無義鏈(antisense strand)或沃森鏈(watson strand)。 gene family:基因家族,。真核細(xì)胞中,,許多相關(guān)的基因常按功能成套組合,被稱為基因家族,。它們來源于同一祖先,,由一個(gè)基因通過基因重復(fù)產(chǎn)生兩個(gè)或更多的拷貝而構(gòu)成的一組基因,它們?cè)诮Y(jié)構(gòu)和功能上具有明顯的相似性,,編碼相似的蛋白質(zhì)產(chǎn)物,。 gtf/gff:基因結(jié)構(gòu)注釋文件。gtf(gene transfer format)指包含基因特征的注釋文件,,而gff(general feature format)是指包含基因組特征的注釋文件,。 ORF:open reading frame,開放閱讀框或開放讀碼框,。是結(jié)構(gòu)基因的正常核苷酸序列,,從起始密碼子到終止密碼子的閱讀框可編碼完整的多肽鏈,其間不存在使翻譯中斷的終止密碼子,。 reference genome/ reference:參考基因組,。RNA-seq 有參分析的基礎(chǔ)。 small RNA:是長度大約在18-30bp 的非編碼RNA 分子,,包括microRNAs,、siRNAs 和 piRNAs,是生命活動(dòng)重要的調(diào)控因子,,在基因表達(dá)調(diào)控,、生物個(gè)體發(fā)育、代謝及疾病的發(fā)生等生理過程中起著重要作用,。 ncRNA:non-coding RNA,,非編碼RNA,。指不編碼蛋白質(zhì)的RNA。其中包括rRNA,,tRNA,,snRNA,snoRNA 和microRNA 等多種已知功能的 RNA,,及未知功能的RNA,。其共同特點(diǎn)是都能從基因組上轉(zhuǎn)錄而來,不需要翻譯成蛋白即可在RNA 水平上行使各自的生物學(xué)功能,。 lncRNA:long noncoding RNA,,長鏈非編碼RNA。長度在200-100000nt之間,,不具有編碼蛋白功能的轉(zhuǎn)錄本,。根據(jù)與編碼基因的位置關(guān)系可分為:Antisense lncRNA (反義長非編碼RNA)、Intronic lncRNA (內(nèi)含子長非編碼RNA),、Long intergenic noncoding RNA (基因間區(qū)長非編碼RNA),、Sense lncRNA(正義長非編碼RNA)、Bidirectional lncRNA(雙向長非編碼RNA),。 未完待續(xù)... |
|