▼生信學習的正確姿勢(第三版) NGS系列文章包括NGS基礎(chǔ),、轉(zhuǎn)錄組分析 (Nature重磅綜述|關(guān)于RNA-seq你想知道的全在這)、ChIP-seq分析 (ChIP-seq基本分析流程),、單細胞測序分析 (重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程 (原理,、代碼和評述))、DNA甲基化分析,、重測序分析,、GEO數(shù)據(jù)挖掘(典型醫(yī)學設(shè)計實驗GEO數(shù)據(jù)分析 (step-by-step) - Limma差異分析、火山圖,、功能富集)等內(nèi)容,。 最后2周 | 高級轉(zhuǎn)錄組分析和R語言數(shù)據(jù)可視化第十一期 (報名線上課還可免費參加線下課) 摘要RNA測序( 前言RNA測序(RNA-seq)自誕生起就應用于分子生物學,,幫助理解各個層面的基因功能。現(xiàn)在的RNA-seq更常用于分析差異基因(
早期的RNA-seq實驗從細胞群(如來源于某個組織或器官的細胞)中得到DGE數(shù)據(jù),,并可以應用于很多物種,,如玉米( RNA-seq的廣泛應用促進了對許多生物層面的理解,如揭示了mRNA剪接的復雜性,、非編碼RNA和增強子RNA調(diào)控基因表達的機制,。RNA-seq的發(fā)展和進步一直離不開技術(shù)發(fā)展的支持(濕實驗方面和計算分析方面),且與先前的基于基因芯片的技術(shù)比起來,,獲得的信息更多,、偏好性更小。到目前為止,,已從標準的RNA-seq流程中衍生出多達100種不同的應用。大部分應用都是基于 本文中,我們先熟悉'baseline'流程,,用short-read RNA-seq技術(shù)分析DGE,。先描述短讀長測序的文庫構(gòu)建過程、實驗設(shè)計注意事項和計算分析流程,,探究其應用如此廣泛的原因,。然后描述單細胞轉(zhuǎn)錄組和空間轉(zhuǎn)錄組的發(fā)展和應用。我們會舉例說明RNA-seq在RNA生物學關(guān)鍵研究中的應用,,包括轉(zhuǎn)錄和翻譯的動力學分析,,RNA結(jié)構(gòu),RNA-RNA和RNA-蛋白質(zhì)間相互作用等,。最后我們小小地展望一下RNA-seq的未來,,如單細胞和空間轉(zhuǎn)錄組是否也會是以后的常規(guī)分析,在什么情況下long reads會替代short reads RNA-seq,。不過篇幅有限,,本文對RNA-seq分析還是有照顧不到的地方,比如典型的有非編碼轉(zhuǎn)錄組,,原核轉(zhuǎn)錄組和表觀轉(zhuǎn)錄組,。 圖一:short-read,long-read和direct RNA-seq技術(shù)和工作流程圖一:A3種RNA測序方式的建庫方法概覽:short-read測序(黑色),long-read cDNA測序(綠色)和long-read direct RNA-seq(藍色),。根據(jù)不同的應用目的,,文庫構(gòu)建的復雜性和偏好性不同,。short-read和long-read cDNA的建庫方案在很多步驟是一樣的,比如在所有建庫方案中 圖一:B三種主要測序技術(shù)的比較。
圖一:C
人體中,,超過90%的基因(gene n)會發(fā)生可變剪接,,并生成至少兩種不同的表達形式(轉(zhuǎn)錄本x,y)。相比于long-read測序可以直接測到每一種不同的轉(zhuǎn)錄本,,從而獲得更全面的信息,,short-read的測序在檢測轉(zhuǎn)錄本上受限于短reads比對的模糊性。在short-read cDNA測序中,,有很多reads比對回兩個不同轉(zhuǎn)錄本共享的外顯子上導致無法確定其真實來源,。跨越2個或多個外顯子的 而以上這些方法都依賴于cDNA轉(zhuǎn)換,這一過程抹去了有關(guān)RNA堿基修飾的信息,而且也只能粗略估計多聚腺苷酸(poly(A))尾巴的長度,,而direct RNA-seq可以直接分析全長轉(zhuǎn)錄本異構(gòu)體,、度量堿基修飾(比如N6-甲基腺苷(M6A))和檢測poly(A)尾巴長度。 RNA-seq技術(shù)的進步在NCBI Short Read Archive (SRA)數(shù)據(jù)共享平臺中多于95%的數(shù)據(jù)來自于Illumina short-read測序技術(shù)(表2),。目前幾乎所有已發(fā)布的mRNA-seq數(shù)據(jù)都是short-read測序所得,,所以我們認為這是RNA-seq技術(shù)的常規(guī)操作,接下來討論它的主要流程和限制,。不過在轉(zhuǎn)錄異構(gòu)體檢測的研究(圖一,;表1)方面,不斷進步的long-read cDNA測序和dRNA-seq技術(shù)將向short-read測序技術(shù)的主導地位發(fā)起挑戰(zhàn),。
表1short-read cDNA測序用于差異基因分析short-read測序是檢測和定量轉(zhuǎn)錄組范圍基因表達的最常見方式,,部分原因是因為它比表達芯片更便宜、更易于應用,,但更主要的是它可以獲得全轉(zhuǎn)錄組水平高質(zhì)量的表達數(shù)據(jù),。采用Illumina的short-read測序做DGE分析的核心步驟包括RNA提取,cDNA合成,接頭連接,,PCR擴增,,測序和數(shù)據(jù)分析(圖一)。由于mRNA片段化和基于beads的文庫純化過程中偏好 long-read cDNA 測序盡管Illumina是目前主流的RNA-seq平臺,,但Pacific Biosciences(PacBio)和Oxford Nanopore(ONT)能在完整的RNA分子反轉(zhuǎn)錄為cDNA后進行單分子長讀長測序,。因為消除了short RNA-seq reads需要的組裝步驟,可以解決short reads測序相關(guān)的一些問題,。例如:序列比對的模糊性降低,,可以鑒定更長的轉(zhuǎn)錄本,這些有助于更好地檢測轉(zhuǎn)錄異構(gòu)體的多樣性,。同時還可以降低許多short-read RNA-seq計算工具引入的剪接位點檢測的高假陽性率,。 基于PacBio技術(shù)的Iso-Seq能夠檢測長達 ONT cDNA測序也可以測序全長轉(zhuǎn)錄本,而且適用于單細胞測序,。同樣使用模板置換逆轉(zhuǎn)錄來制備全長cDNA,,在加接頭制備測序文庫之前,可以自己決定是否進行PCR擴增,。Direct cDNA測序可消除PCR偏差,,獲得的測序結(jié)果質(zhì)量更高 ;PCR擴增的cDNA文庫的測序產(chǎn)出(測序獲得的reads數(shù))更高,,適用于樣本中RNA含量較少的情況,。而目前還未在ONT cDNA測序中發(fā)現(xiàn)PacBio測序存在的轉(zhuǎn)錄本長短選擇偏好。 這些long-read cDNA方法都受模板置換逆轉(zhuǎn)錄酶限制,。這個酶可以把全長和截斷的RNA都轉(zhuǎn)換成cDNA,。反轉(zhuǎn)錄酶只將5’-capped mRNA轉(zhuǎn)換成cDNA,這樣就降低了由于RNA降解,、RNA斷裂導致的轉(zhuǎn)錄本截斷生成的cDNA和不完整的cDNA合成,,從而提高數(shù)據(jù)質(zhì)量。但是這些逆轉(zhuǎn)錄酶對ONT平臺的測序reads讀長有反作用,。 Long-read direct RNA 測序正如上面所討論的,,long-read和baseline short-read 平臺一樣,,都需要在測序之前將mRNA轉(zhuǎn)化成cDNA,。近期Oxford Nanopore展示他們的納米孔測序技術(shù)能直接測序RNA,也就是說,,建庫過程中沒有修復,、cDNA合成、PCR擴增這些過程,,移除了這些操作過程的偏好并且保留了RNA上的表觀修飾信息,,這一技術(shù)也稱為dRNA-seq。直接從RNA建庫需要兩步接頭連接。首先,,帶有oligo(dT)懸臂的duplex adaptor與mRNA的PolyA尾巴退火連接,。后續(xù)是一個可選的逆轉(zhuǎn)錄操作,用于提高測序通量(一般推薦做),。第二個連接操作就是添加連有分子馬達的測序接頭用于后續(xù)測序,。隨后文庫加載入MinION,啟動 長讀長測序與短讀長測序技術(shù)的比較雖然長讀長測序技術(shù)在轉(zhuǎn)錄本分析方面比短讀長測序技術(shù)有一些明顯的優(yōu)勢,,但是也存在一些局限,。跟成熟的短讀長技術(shù)平臺相比,長讀長測序技術(shù)的測序通量低很多,,錯誤率更高,。而長讀長測序技術(shù)的主要優(yōu)勢即能測序更多的獨立轉(zhuǎn)錄本全長,依賴于高質(zhì)量的RNA文庫,。這些局限會影響那些特別依賴長讀長測序?qū)嶒灥撵`敏性和特異性,。 當前長讀長測序方法的主要局限就是其通量低。在Illumina平臺上,,一個 長讀長測序平臺的第二個主要限制是其高錯誤率,,比成熟的Illumina測序儀要高出一到兩個數(shù)量級,。長讀長測序平臺上生成的數(shù)據(jù)還包含更多的插入-缺失錯誤。如果是做突變位點檢測這些錯誤率/錯誤形式會影響很大,,但是對轉(zhuǎn)錄組分析影響并不是太大,,只要能區(qū)分轉(zhuǎn)錄本和轉(zhuǎn)錄異構(gòu)體即可。如果是應用于對錯誤率敏感的項目,,也有一些辦法進行補救,。PacBio SMRT測序平臺出現(xiàn)的典型測序錯誤是隨機錯誤,可以通過增加測序深度來進行CCS序列矯正解決,。在測序過程中,,cDNA的長度是人為選擇控制的,連接接頭后形成環(huán)形模板,,每個分子可以被測序多次,,從而產(chǎn)生長度范圍是 長讀長RNA-seq方法的敏感性還受到其他幾個因素的影響,。首先,,用于建庫的RNA分子需要是全長轉(zhuǎn)錄本,但由于RNA提取,、分離過程中會導致RNA斷裂或?qū)嶒炦^程中RNA降解,,使得理想狀態(tài)并非總能實現(xiàn)。這種情況在短讀長RNA-seq中也會導致可控的3?端偏好,,但對定位于應用長讀長的RNA-seq分析全長轉(zhuǎn)錄組的研究者來說,,即使是低水平的RNA降解,效果也會受限,。因此,,相關(guān)研究者需要在RNA提取后進行嚴格質(zhì)控。其次,,中位讀長長度也會受到文庫制備中的技術(shù)問題與技術(shù)偏好的限制,,例如cDNA合成過程中的截斷或降解的mRNA反轉(zhuǎn)錄成的降解cDNA。最近研發(fā)的高效逆轉(zhuǎn)錄酶具有更好的鏈特異性和更均一的3’-5’轉(zhuǎn)錄本覆蓋,,可能會改善這一過程,。雖然還沒有廣泛使用,但是這些高效逆轉(zhuǎn)錄酶也提高了對結(jié)構(gòu)穩(wěn)定的RNAs(如tRNAs)的覆蓋檢測,,這是其它在基于oligo-dT和全轉(zhuǎn)錄組分析 (WTA) 的方法中使用的逆轉(zhuǎn)錄酶很難達到的效果,。第三,長讀長測序平臺固有的偏好(如長插入文庫在測序芯片上的更不容易進行測序)會降低更長轉(zhuǎn)錄本的覆蓋率,。 長讀長測序 (不管是基于cDNA還是RNA) 因為讀長長,,解決了短讀長測序方法用于轉(zhuǎn)錄異構(gòu)體分析的短板。長讀長方法可以獲得從Poly(A)尾巴到5?帽子的全長轉(zhuǎn)錄本讀長,。因此,,這些方法對轉(zhuǎn)錄本和轉(zhuǎn)錄異構(gòu)體的分析不再依賴于短序列重構(gòu)轉(zhuǎn)錄本或推測轉(zhuǎn)錄本的存在;而是每個測序到的reads都代表它所來源的RNA分子,?;谌LcDNA測序或dRNA-seq的差異基因分析依賴于PacBio和ONT技術(shù)的通量提高。長讀長RNA-seq與深度短讀長RNA-seq技術(shù)結(jié)合的思路正在迅速被研究者用于更全面的分析,,這非常類似于基因組組裝所采取的混合組裝方式,。隨著研究的深入,長讀長和dRNA-seq方法將會揭示:即便在研究的很透徹的物種中,,已經(jīng)鑒定出的基因和轉(zhuǎn)錄本可能也只是冰山一角,。隨著方法的成熟和測序通量的增加,,基于長讀長的差異轉(zhuǎn)錄本分析將會成為常規(guī)研究?;诮M裝的長讀長RNA-seq (synthetic long-read RNA-seq)或其它技術(shù)的發(fā)展對這個領(lǐng)域的影響還有待觀察,。從目前來看,Illumina短讀長RNA-seq依然占據(jù)了該領(lǐng)域的主導地位,。后面我們只會集中討論短讀長測序,。 改良RNA-seq建庫方法RNA-seq方法源于早期的表達序列標簽 (expressed-sequence tag)和表達芯片技術(shù),最初用于分析多聚腺苷酸化的轉(zhuǎn)錄本,。但是,,二代測序的應用發(fā)現(xiàn)了這些方法的局限性,雖然在表達芯片中并不明顯,。因此,,在RNA-seq技術(shù)首次發(fā)表后不久,許多文庫制備方法的改進相繼推出,。例如,,片段化RNA而非cDNA可以降低3'/5'偏好,鏈特異性文庫制備方法能夠更好的區(qū)分正鏈和負鏈轉(zhuǎn)錄的基因,,這些改進都能獲得更準確的轉(zhuǎn)錄本豐度估計,。片段化RNA和構(gòu)建鏈特異性文庫很快成了大部分RNA-seq文庫制備試劑盒的標配。這里我們簡要描述了RNA-seq方法的其它改進,,以便研究者可以根據(jù)特定的生物學問題或樣本自身特征進行選擇,。這些改進包括不基于oligo-dT的RNA富集方法,特異性富集3?或5?末端轉(zhuǎn)錄本的方法,,使用UMIs區(qū)分PCR duplicates的方法,,以及針對降解的RNA構(gòu)建文庫的方法。這些方法的組合(也包括dRNA-seq和后面提到的分析其它狀態(tài)的RNA的方法)允許研究者揭示由可變poly(A) (alternative poly(A), APA),,或選擇性啟動子 (alternative promoter)和可變剪接 (alternative splicing)導致的轉(zhuǎn)錄組的復雜性,。 Poly(A)富集的替代方法大多數(shù)發(fā)表的RNA-seq數(shù)據(jù)都是基于oligo-dT方法富集包含poly(A)尾巴的轉(zhuǎn)錄本,定位于分析轉(zhuǎn)錄組上的蛋白質(zhì)編碼區(qū) (生信寶典注:部分lncRNA也有poly(A)尾巴),。但是這種方法除了會導致3?端偏好外,,很多不含Poly-A尾巴的非編碼RNA,例如miRNA和增強子RNA不會被測到,。完全不進行選擇而使用全部提取的RNA也不合適,,因為這會導致高達95%的測序數(shù)據(jù)來源于rRNA。因此,,研究者選擇將oligo-dT富集用于mRNA-seq,,移除rRNA進行全轉(zhuǎn)錄組測序(WTA)。短鏈非編碼RNAs(如miRNA)既無法用oligo-dT方法富集,WTA測序中也很難覆蓋,,因此對其研究需要特定的分離建庫方法,,一般是切膠或磁珠分選后直接連接接頭 (sequential RNA ligation,通常構(gòu)建出來都是鏈特異性文庫) (生信寶典注:這一點尤其要注意),。
Oligo-dT和rRNA移除法都可以用于后續(xù)實驗的DGE分析,,研究者們通常會延續(xù)實驗室一直使用的方法或最容易使用的方法,。然而,對于這些方法的選擇需要根據(jù)情況做一些考量,,尤其是那些易降解的樣本,,如果采用WTA方法會檢測到更多的轉(zhuǎn)錄本,但是其實驗成本也高于oligo-dT方法,。 富集RNA 3?端用于Tag RNA-seq以及可變多聚腺苷酸分析 (Enriching RNA 3?ends for Tag RNA- seq and alternative polyadenylation analysis)標準的短讀長Illumina方法應用于高質(zhì)量差異基因分析時需要對每個樣本測序1000萬到3000萬條(10M到30M條)reads,。如果研究者只關(guān)注基因水平的表達,并且樣本數(shù)目比較多和生物重復比較多時,,或者實驗樣品材料受限時,,建議采用3?tag計數(shù)。由于測序集中在轉(zhuǎn)錄本的3?末端,,需要的測序深度會降低,,就可以降低成本或同時測序更多樣本。富集3?末端也可以用于檢測由于mRNA前體上發(fā)生的選擇性多聚腺苷酸化導致的單個轉(zhuǎn)錄本的poly(A)位點的變化,。 3? mRNA-seq方法中每個轉(zhuǎn)錄本獲得一條測序片段 (tag read),,通常是對其3’末端的測序。tag read的數(shù)目理論上與轉(zhuǎn)錄本的豐度是成正比的,。標簽測序法 (tag-sequencing protocols),,例如QuantSeq (Lexogen, Austria)通常比標準RNA-seq實驗流程更為簡單。標簽測序法采用隨機引物或帶有oligo-dT的引物進行PCR擴增分選出轉(zhuǎn)錄本的3’末端的同時加上接頭序列,,優(yōu)化掉了poly(A)富集,、rRNA移除和接頭連接等步驟。這一方法可以在更低的測序深度條件下達到與標準RNA-seq相當?shù)拿舾行?,因此可以混合更多樣本同時測序,。因為不需要考慮外顯子連接檢測 (exon junction)和基因長度歸一化,這一方法的數(shù)據(jù)分析也簡化了(生信寶典注:其實也是需要考慮的,,轉(zhuǎn)錄本末端或UTR區(qū)也會存在剪接,,具體取決于測序讀長和特定基因的結(jié)構(gòu)。不過如果使用STAR/BWA等有soft-clip機制的比對工具也可以不考慮,。),。但是,3? mRNA-seq方法可能會受到 mRNAs的選擇性多腺苷酸化(APA)會產(chǎn)生3? UTR長度不等的轉(zhuǎn)錄異構(gòu)體,。對于一個特定的基因來說,,這不只是多轉(zhuǎn)錄出幾個異構(gòu)體,而是3?UTR中存在的順式調(diào)控元件會影響轉(zhuǎn)錄本自身的調(diào)控,。能夠研究APA的方法可以讓研究者們對miRNA的調(diào)控,、mRNA的穩(wěn)定性和定位、以及mRNA的翻譯有更多理解,。APA法要求是富集轉(zhuǎn)錄本的3?末端,,從而提升檢測信號和靈敏度,而前面提到的3? mRNA-seq標簽測序法則正合適,。其它方法如多聚腺苷酸位點測序 (polyadenylation site sequencing, PAS-seq)法,,首先將mRNA打斷為150 bp左右的片段,,然后使用帶有oligo-dT的引物進行模板置換生成cDNA用于后續(xù)測序,,其中的80%的測序序列來源于3?UTR。TAIL-seq則避免使用oligo-dT,,RNA打斷前,,先移除rRNA,然后在轉(zhuǎn)錄本poly(A)尾巴連接3?接頭,。片段化后,,再加上5?接頭就完成了文庫制備。在RNA-蛋白互作分析方法如交聯(lián)免疫沉淀 (cross-linking immunoprecipitation, CLIP)測序和dRNA-seq中也能評估APA,。 富集RNA 5?末端用于轉(zhuǎn)錄起始位點鑒定 (Enriching RNA 5?ends for transcription start- site mapping)富集5?端RNA (7-methylguanosine 5?-capped RNA)的測序的方法常用來鑒定啟動子和轉(zhuǎn)錄起始位點(TSSs),,可以做為DGE分析的補充。有多種方法都可以實現(xiàn)這個操作,,但很少作為常規(guī)使用,。在CAGE (cap analysis of gene expression)和RAMPAGE (RNA annotation and mapping of promoters for analysis of gene expression)方法中,使用隨機引物完成cDNA第一條鏈合成后,,mRNA 5?帽子結(jié)構(gòu)上用生物素標記,,然后使用鏈霉親和素富集5’ cDNA。CAGE使用II型限制性內(nèi)切酶切割5?端接頭下游 使用唯一分子標識符來檢測PCR重復RNA-seq數(shù)據(jù)通常有較高的重復率 (duplication rates),,即許多測序序列會比對到轉(zhuǎn)錄組的相同位置,。在全基因組測序中,比對到同一位置的序列被認為是PCR擴增引入的技術(shù)噪音,,通常只保留1條用于后續(xù)分析,;而在RNA-seq中,這些重復的序列則因為可能是真實的生物信號而被保留,。高表達的轉(zhuǎn)錄本在樣本中可能有數(shù)百萬份RNA拷貝,,當做為cDNA測序時,產(chǎn)生相同的片段也是合理的,。因此,,在比對 (alignment)過程中,不建議計算去除比對到同一位置的序列,,因為它們代表了真正的生物信號,。尤其是在使用單端測序 (single-end sequencing)時更是如此,因為一對片段只要一端序列相同就會被認為是一個重復 (duplicate),;而雙端測序 (paired-end sequencing)中,,片段化的兩端必須發(fā)生在同樣位置才會導致duplicate,而這個的發(fā)生概率比較低,。但是,,在制備cDNA文庫時,由于PCR的偏好性,,還是會引入duplication reads,;很難去評估PCR引入的重復reads和生物重復reads的比例并把其作為一個質(zhì)控因素校正RNA-seq實驗的結(jié)果。 UMIs被認為是一個處理擴增偏好性的方法,。在cDNA分子擴增前加入隨機UMIs可以用于識別并計算移除PCR引入的重復,,而不影響到基因自身表達引入的重復,進而改善基因表達定量的結(jié)果和評估等位基因的轉(zhuǎn)錄,。如果一對測序reads包含有相同的UMI并且比對到轉(zhuǎn)錄組的同樣位置,,則被認為是技術(shù)引入的重復 (對單端測序來說,這里的一對測序reads是測序生成的兩條序列,;對雙端測序來說,,一對測序reads指同時包含左端和右端的兩條測序序列),。 UMIs已經(jīng)被證明能夠通過降低檢測到的基因表達變化波動和假陽性率改善RNA-seq差異基因的統(tǒng)計分析。因為單細胞數(shù)據(jù)的擴增偏好更嚴重,,UMI的使用對單細胞數(shù)據(jù)結(jié)果可靠性至關(guān)重要,。當使用RNA-seq數(shù)據(jù)進行變異檢測 (variant calling)時,UMIs也非常有用,。高表達的轉(zhuǎn)錄本更容易達到適合變異檢測的高覆蓋率要求,,尤其在考慮了重復reads時,而UMIs可用于移除PCR擴增引入的reads,,從而校正等位基因頻率的計算,。UMIs已成為單細胞RNA-seq (scRNA-seq)的文庫制備試劑盒的標配,也越來越多的用于常規(guī)RNA-seq,。 改善降解了的RNA的分析RNA-seq文庫制備方法的發(fā)展也促進了低質(zhì)量或降解了的RNA的分析,,例如從臨床獲得的福爾馬林固定石蠟包埋(FFPE)存儲的樣本中的RNA。低質(zhì)量的RNA會導致不均勻的基因覆蓋,,更高的DGE假陽性率和更高的重復率,,與文庫的復雜性呈負相關(guān)。文庫制備方法優(yōu)化的方向是盡量降低RNA降解的影響,。這些方法在開發(fā)基于RNA-seq的診斷技術(shù)中尤為重要,,如類似于基于21個基因RNA特征來預測乳腺癌復發(fā)的OncotypeDX試劑盒(尚不基于測序)類似的檢測工具,。雖然現(xiàn)在有幾種方法可以使用,,但是比較研究顯示兩種方法表現(xiàn)最佳,即RNase H與RNA exome,。如前所述,,RNase H法使用核酸酶消化RNA:DNA復合物中的rRNA,但保留降解的mRNA用于后續(xù)測序,。RNA exome方法使用寡核苷酸探針來捕獲RNA-seq文庫分子,,非常類似于外顯子測序 (exome sequencing)使用的策略。這兩種方法應用簡單,,并都能在保留降解的和片段化的mRNA的前提下降低混入的rRNA的影響,,進而獲得高質(zhì)量的和高穩(wěn)定性的基因表達數(shù)據(jù)。3?末端標記測序技術(shù)與擴增子測序(PCR擴增超過2萬個外顯子)方法也可以用于分析降解的RNA,,但這兩種方法并沒有RNase H方法應用廣泛,。 設(shè)計更好的RNA-seq實驗好的DGE RNA-seq實驗設(shè)計對獲取高質(zhì)量和有生物意義的數(shù)據(jù)是至關(guān)重要的。特別需要考慮的是生物重復的數(shù)目,、測序深度,、采用單端還是雙端測序。 生物重復與統(tǒng)計檢出力 (replication and experimental power)實驗中必須包含足夠的生物學重復以捕獲組內(nèi)樣品自身存在的生物差異,。定量分析的可信度更多地取決于生物重復,,而非測序深度或reads長度,。盡管RNA-seq的技術(shù)穩(wěn)定性高于微陣列平臺,但生物系統(tǒng)固有的隨機變異要求進行常規(guī)RNA-seq實驗必須要重復一次,。額外的重復能夠幫助發(fā)現(xiàn)異常樣品,;并且在后續(xù)分析前,如有必要時移除或降低異常樣品的權(quán)重,。確定最佳重復數(shù)需要仔細考慮幾個因素,,包括預期的最小變化幅度 (effect size)、組內(nèi)變異,、可接受的假陽性和假陰性率以及最大能用于實驗的樣本量,,并且可以通過使用RNA-seq實驗設(shè)計工具或統(tǒng)計功效工具進行輔助設(shè)計。(http://www./power.html ) 樣品生物學重復數(shù)據(jù)選擇 1必要性 2需要多少重復,? 確定實驗的正確重復數(shù)并不總是那么容易,。一項48個重復的酵母研究表明,當分析中僅包含3個重復時,,許多用于DGE分析的工具僅檢測到20-40%的差異表達基因,。該研究表明,至少應使用六個生物重復,,這大大超過了RNA-seq文獻中通常報道的三個或四個重復,。最近的一項研究表明,四個重復可能就足夠了,,但它強調(diào)了測量生物學差異的必要性-例如,,在確定出重復數(shù)之前先進行預實驗。對于高度多樣化的樣本(例如來自癌癥患者腫瘤的臨床組織),,可能需要進行更多重復才能檢測出高可信度的變化,。 確定最佳測序深度RNA-seq文庫構(gòu)建好后,就需要確定測序深度了,。測序深度是指每個樣品獲得的測序序列數(shù)量,。對于真核基因組中的bulk RNA DGE實驗,通常需要每個樣品大約10–30百萬條測序reads,。但是,,多個物種的比較分析表明,對于最高表達的50%的基因來說,,每個樣本只需要測序1百萬條 reads就可以獲得與測序3千萬條reads相似的表達定量結(jié)果,。如果只關(guān)注最高表達的基因相對大的表達變化,并且有合適的生物學重復,,那么較少的測序就足以產(chǎn)生驅(qū)動后續(xù)實驗的假說,。測序完成后,估計的測序深度可以通過檢查樣品之間reads的分布和繪制飽和度曲線驗證,,并且飽和曲線還可以評估加測是否能提高檢測敏感性,。隨著測序儀測序通量的增加,,將一個實驗的所有樣品混合到一起同時上機測序(甚至在同一個lane里面測序)是控制技術(shù)偏差的標準做法??偖a(chǎn)出reads數(shù)是樣本數(shù)與每個樣本期望獲得的reads數(shù)的乘積,;如果有必要,混合的文庫測序足夠多的次數(shù)以達到所需的總reads數(shù),?;鞓訙y序需要仔細測定每個RNA-seq文庫的濃度,并假定混合的不同樣品中cDNA的總量相差不大(低方差),,因此讀取的總reads數(shù)才能均勻地分到各個樣品中,。在進行昂貴的多通道混合測序之前,運行單個lane確認樣品之間cDNA總量相差不大是值得的預操作,。 選擇測序參數(shù):reads長度和單端或雙端測序,。最后需要確定的測序參數(shù)包括reads長度以及是生成單端還是雙端reads。 在許多測序應用中,,測序reads的長度對數(shù)據(jù)可用性有很大影響,,更長的測序reads可以覆蓋更多的測序DNA。當使用RNA-seq鑒定DGE時,,影響數(shù)據(jù)的可用性的重要因素是確定每個reads來自轉(zhuǎn)錄組中哪個基因的能力,。一旦可以明確地確定reads位置,測序更長的reads在基于定量的分析中就沒必要了,。對于更定加性的RNA-seq分析(例如鑒定特定isoforms),,更長的reads可能會更有幫助。 單端測序與雙端測序的問題類似,。在單端測序中,,每個cDNA片段的一個末端(3′或5′)用于產(chǎn)生測序reads,,而雙端測序中每個片段產(chǎn)生兩個測序reads(一個3′和一個5′),。在需要測序盡可能多核苷酸的實驗中,首選long-read paired-end測序,。在DGE分析中,,用戶只需要計算比對到轉(zhuǎn)錄本的reads數(shù)即可,故不需要對轉(zhuǎn)錄本片段的每個堿基都進行測序,。例如,,將“短”的50 bp的單端測序與“長”的100 bp的雙端測序的DGE分析比較表明單端測序也可以獲得一致的結(jié)果。這是因為單端測序足以確定大多數(shù)測序片段來源的基因,。相同的研究還表明,,短的單端測序會降低檢測轉(zhuǎn)錄isoform的能力,更少的reads會跨越exon-exon junction,。雙端測序還可以幫助消除序列比對 (read mapping)的歧義,,適用于可變外顯子定量 (alternative-exon),,融合轉(zhuǎn)錄本檢測和新轉(zhuǎn)錄本發(fā)現(xiàn) ,尤其在注釋較差的轉(zhuǎn)錄組應用中效果明顯。 實際上,,單端或雙端測序的選擇通常取決于成本或用戶可用的測序技術(shù),。在發(fā)布Illumina NovaSeq之前,在大多數(shù)情況下,,單端測序每百萬條reads的成本要低于paired-end測序,,因此在相同的實驗成本下,可以測序更多的重復或測序更深,。如果需要在獲取大量較短的單端reads與生成較長和/或雙端的reads之間進行選擇,,則測序深度的增加將對提高DGE檢測的敏感性更重要。 RNA-seq數(shù)據(jù)分析在過去的十年中,,用于分析RNA-seq以確定差異表達的計算方法的數(shù)量已成倍增加,,即使對于簡單的RNA-seq DGE,在每個階段的分析實踐中也存在很大差異,。而且,,每個階段使用的方法的差異以及不同技術(shù)組合形成的分析流程都可能會對從數(shù)據(jù)得出的生物學結(jié)論產(chǎn)生重大影響。最優(yōu)工具組合取決于研究的特定生物學問題以及可用的計算資源,。盡管有多種衡量方式,,但我們對工具和技術(shù)的評估落腳點在它們鑒定出的差異基因的準確性。為了完成這個評估,,至少需要四個不同的分析階段(圖2;表2),。第一階段把測序平臺生成的原始測序數(shù)據(jù)比對到轉(zhuǎn)錄組。第二階段量化與每個基因或轉(zhuǎn)錄本來源的reads數(shù)量,,構(gòu)建表達矩陣,。該過程可能包括1個或多個子過程如比對,組裝和定量,,或者它也可以一個從讀取計數(shù)生成表達矩陣,。通常有一個第三階段,包括過濾低表達的基因和至關(guān)重要的移除樣品間技術(shù)差異的標準化過程,。DGE的最后階段是構(gòu)建樣本分組和其它協(xié)變量的統(tǒng)計模型,,計算差異表達置信度。 圖2第1階段-測序reads的比對和組裝 測序完成后,,分析的起點是包含測序堿基的FASTQ文件,。最常見的第一步是將測序reads比對到已知的轉(zhuǎn)錄組(或注釋的基因組),將每個測序reads轉(zhuǎn)換為一個或多個基因組坐標,。傳統(tǒng)上,,該過程是通過幾個不同的比對工具(如TopHat,STAR或HISAT)完成的,,其都依賴參考基因組的存在,。由于測序的cDNA來自RNA,,可能跨越外顯子邊界,因此與參考基因組(包含內(nèi)含子和外顯子)比對時需要進行剪接比對,,即允許reads中出現(xiàn)大片段gap,。 如果沒有可用的包含已知外顯子邊界的高質(zhì)量基因組注釋,或者如果希望將reads與轉(zhuǎn)錄本(而不是基因)相關(guān)聯(lián),,則需要在比對后執(zhí)行轉(zhuǎn)錄組組裝步驟,。諸如StringTie和SOAPdenovo-Trans之類的組裝工具使用比對reads的gap來推測外顯子邊界和可能的剪接位點。轉(zhuǎn)錄本重頭組裝特別適用于參考基因組注釋缺失或不完整的物種,,或者對異常轉(zhuǎn)錄本感興趣(例如在腫瘤組織中)的研究,。轉(zhuǎn)錄組組裝方法受益于雙端測序和/或更長的reads的使用,增加跨越splice junctions的可能性,。但是,,通常不需要從RNA-seq數(shù)據(jù)中從頭做轉(zhuǎn)錄組組裝來確定DGE (生信寶典注:無參分析組裝是必須的)。 最近,,涌現(xiàn)了一些計算效率高的“alignment free”工具,,例如Sailfish,Kallisto和Salmon,,它們將測序reads直接與轉(zhuǎn)錄本關(guān)聯(lián),,而無需單獨的定量步驟。這些工具在定量高豐度(以及長度更長)的轉(zhuǎn)錄本方面表現(xiàn)出很好的性能,。但是,,它們在定量低豐度或短轉(zhuǎn)錄本方面不夠準確。(39個工具,,120種組合深度評估 (轉(zhuǎn)錄組分析工具哪家強)) 不同的比對工具如何分配ambiguous reads的策略會影響最后的表達估計,。對于可能來自多個不同基因、假基因或轉(zhuǎn)錄本的多映射reads (multi-map),,這些影響尤為明顯,。對12種基因表達估計方法的比較顯示,某些比對方法低估了許多臨床相關(guān)基因的表達,,這主要取決于對ambiguous reads的處理,。在RNA-seq數(shù)據(jù)的計算分析中,對如何正確分配比對到多個位置的reads進行模型探索仍然是研究的一個重點領(lǐng)域,。一種常見的做法是在定量前過濾掉這些reads,但這會導致結(jié)果產(chǎn)生偏差,。其他方法包括生成包含合并映射重疊區(qū)域的“融合”表達特征,,以及計算每個基因的映射不確定性估計,以用于后續(xù)的置信度的計算,。 第2階段-定量轉(zhuǎn)錄本豐度 將reads比對到基因組或轉(zhuǎn)錄組后,,下一步就是將它們分配給基因或轉(zhuǎn)錄本,,獲得表達矩陣。不同的比較研究表明,,定量過程中采用的方法對最終結(jié)果的影響最大,,甚至比比對工具影響更大。單個基因(即該基因的所有轉(zhuǎn)錄亞型)的定量是基于轉(zhuǎn)錄組注釋計算與已知基因重疊的reads數(shù),。但是,,把短reads分配到特定isoforms則需要統(tǒng)計模型估計,尤其是很多reads不跨越剪接點,,并且不能明確分配給特定isoform時,。即使在僅研究基因水平差異表達的情況下,定量isoform的差異也會獲得更準確的結(jié)果,,尤其是基因在不同條件下主要表達不同長度的isoform時,。例如,如果某個基因的一個isoform在一個樣品組中的長度是另一樣品組中的isoforms的一半,,但表達速率是后者的兩倍,,則純基于基因的定量將無法檢測到這一表達差異。 常用的定量工具包括RSEM,,CuffLinks,,MMSeq和HTSeq,以及上述的無比對直接定量工具,?;趓eads計數(shù)的工具(例如HTSeq或featureCounts)通常會丟棄許多比對的序列,包括那些具有多個匹配位置或比對到多個表達特征的reads,。這可以在隨后的分析中消除同源和重疊的轉(zhuǎn)錄本,。RSEM使用期望最大化模型來分配模糊的reads,而無參考的比對方法(例如Kallisto)則將這些reads用于后續(xù)的定量,,這可能會導致結(jié)果偏差,。轉(zhuǎn)錄本豐度估計可以轉(zhuǎn)換成等效的read計數(shù),能完成這一轉(zhuǎn)換的部分工具依賴 階段3-過濾和標準化 通常,基因或轉(zhuǎn)錄本的reads count需要進行過濾和標準化,,以移除測序深度,、表達模式和技術(shù)偏差的影響。過濾去除在所有樣本中都低豐度表達的基因是很直接的方式,并且已經(jīng)證明可以改善對真正差異表達基因的檢測,。標準化表達矩陣的方法要復雜一些,。簡單的轉(zhuǎn)換可以校正豐度,降低GC含量和測序深度的影響,。如今人們已經(jīng)認識到諸如早期應用的RPKM之類的方法是不夠的,,并已被能夠校正樣本之間更細微差異的方法所替代,例如四分位數(shù)或中位數(shù)歸一化,。(什么,?你做的差異基因方法不合適?) 比較研究表明,,normalization方法的選擇可能對最終結(jié)果和生物學結(jié)論有重要影響,。大多數(shù)基于計算的標準化方法依賴于兩個關(guān)鍵假設(shè):首先,大多數(shù)基因的表達水平在生物重復中變化不大,;第二,,不同的樣本組總的mRNA水平?jīng)]有顯著差異。而當這些基本假設(shè)不成立時,,就需要仔細考慮是否以及如何執(zhí)行標準化了,。例如,如果一組特定的基因在一個樣品組中高表達,,而相同的基因加上另一組基因在另一個樣品組中表達,,那么簡單地標準化測序深度是不合適的,因為在第二個樣本組中相同數(shù)目的reads會分給更多數(shù)目的基因,。標準化方法如edgeR所使用的的M-值的加權(quán)截尾均值 (trimmed mean of M-values , TMM)可以處理這一情況,。確定合適的標準化方法是困難的;一種選擇是嘗試使用多種方法進行分析,,然后比較結(jié)果的一致性,。如果結(jié)果對標準化方法高度敏感,則應進一步探索數(shù)據(jù)以確定差異的來源,。必須注意,,這一比較不會被用于選擇與原始假設(shè)吻合的結(jié)果的歸一化方法。 解決此類問題的一種方法是使用spike-in對照RNA-即在文庫制備過程中引入預定濃度的外源RNA序列,。RNA-seq常用的spike-in有 External RNA Controls Consortium mix (ERCCs),,spike-in RNA variants (SIRVs)和sequencing spike-ins (Sequins)。由于spike-in的RNA濃度是預先知道的,,并且濃度與產(chǎn)生的reads的數(shù)量直接相關(guān),,因此可以校準樣品中轉(zhuǎn)錄本的表達水平。有人認為,,如果沒有spike-in對照,,則不能正確地分析總體表達變化較大的項目。然而,,在實踐中,,可能難以始終如一地以預設(shè)水平摻入spike-ins ,并且它們在標準化基因水平上的reads計數(shù)時比在轉(zhuǎn)錄本水平上更可靠,,因為單個isoform可以在樣品中以顯著不同的濃度表達,。目前,盡管已發(fā)表的RNA-seq DGE實驗中spike-in對照并未得到廣泛使用,,但隨著單細胞實驗的開展這一狀況可能會改變,,因為單細胞RNA-seq中spike-in應用廣泛,當然前提是這個技術(shù)能進一步優(yōu)化達到穩(wěn)定的水平,。 階段4-差異表達分析 獲得表達矩陣后,,就可以構(gòu)建統(tǒng)計模型評估哪些轉(zhuǎn)錄本發(fā)生了顯著的表達改變。有幾個常用工具可以完成此任務,;一些基于基因水平的表達計數(shù),,其它的基于轉(zhuǎn)錄本水平的表達計數(shù)?;蛩降墓ぞ咄ǔR蕾囉诒葘Φ膔eads計數(shù),,并使用廣義線性模型來進行復雜實驗設(shè)計的評估。這些工具包括EdgeR,,DESeq2和limma + voom等工具,,這些工具計算效率高并且彼此之間結(jié)果穩(wěn)定性好。評估差異isoforms表達的工具,,例如CuffDiff,,MMSEQ和Ballgown,往往需要更多的計算資源,,并且結(jié)果的變化也更大,。但是,在差異表達工具應用之前的操作(即關(guān)于比對,、定量,、過濾和標準化)對最終結(jié)果的影響更大。 表2其它非bulk RNA分析來自組織和/或細胞群體的RNA-seq徹底革新了我們對生物學的理解,,但是它無法簡單地用于解析特定的細胞類型,,并且不能保留空間信息,這些對于理解生物系統(tǒng)的復雜性都是至關(guān)重要的,。使用戶能夠處理非bulk RNA的方法與標準RNA-seq protocols非常相似,,但是可以解決的問題卻截然不同。單細胞測序已經(jīng)揭示了在過去我們認為研究透徹的疾病中存在著未知的細胞類型,,例如發(fā)現(xiàn) 圖3 單細胞分析scRNA-seq最早于2009年報道,,方法是在含有裂解緩沖液的Eppendorf管中分離單個卵母細胞。其在新生物學問題的應用,,以及可用的實驗和計算方法發(fā)展之快以至于最新的綜述也迅速過時了,。每種scRNA-seq方法都需要解離實體組織,分離單個細胞(使用非常不同的方法),,并對其RNA進行標記和擴增以進行測序,,并且所有步驟都脫胎于bulk RNA-seq protocols。(單細胞轉(zhuǎn)錄組教程匯總) 機械分解和collagenase及DNase的酶解在單細胞懸浮液中產(chǎn)生的活細胞比例最高,,但是這一比例具有高度組織特異性,,最好根據(jù)經(jīng)驗確定,并且要非常小心,。一旦制備了單細胞懸液,,就可以通過各種方法分離單個細胞(圖3a);由于大多數(shù)實驗室都可以使用流式細胞儀,因此最容易獲得的方法是將細胞直接分選到含有裂解緩沖液的微量滴定板中,。對于更高通量的實驗,,存在多種用于分離細胞的技術(shù),但需要構(gòu)建或購買特定的單細胞儀器,。單個細胞可以在微流體芯片中進行物理捕獲,,或按照泊松分布模型加載到納米孔設(shè)備中,也可以通過基于液滴的微流控技術(shù)(例如在Drop-Seq,,InDrop中)分離單細胞并與后續(xù)反應試劑包裹在一個液滴中,,或者采用原位序列條形碼標記(例如單細胞組合索引RNA測序(sci-RNA-seq)和基于分池連接的轉(zhuǎn)錄組測序(split-pool ligation-based transcriptome sequencing, SPLiT-seq))。單細胞分離后會被裂解釋放RNA到溶液中以進行cDNA合成,,并用于RNA-seq文庫制備,。通常在文庫制備過程中會使用PCR擴增單個細胞的RNA,。這一步擴增會引入PCR偏差,需要使用UMI進行校正,。盡管由于逆轉(zhuǎn)錄過程符合Poisson采樣分布,,但只有10–20%的轉(zhuǎn)錄本會被逆轉(zhuǎn)錄,限制了轉(zhuǎn)錄本檢測的敏感性,,不過各種方法都可以生成可用的數(shù)據(jù),。在濕實驗室之外,,計算方法也在迅速發(fā)展,,并且最近出現(xiàn)了關(guān)于scRNA-seq實驗的設(shè)計指南。方法學的飛速發(fā)展意味著scRNA-seq方法的技術(shù)會快速過時,。盡管如此,,Ziegenhain等人提供了scRNA-seq方法的綜述,強調(diào)了UMI在數(shù)據(jù)分析中的重要性,,并展示了所比較的的六種方法中哪一種最敏感,。但是,他們的研究不包括被廣泛采用的10X Genomics技術(shù),。 用戶選擇scRNA-seq方法時應考慮的主要因素包括他們是否需要測序全長轉(zhuǎn)錄本,,測序更多細胞(廣度)或每個細胞測序更深獲得更多轉(zhuǎn)錄本(深度)和實驗預算之間的權(quán)衡。全長scRNA-seq方法通常具有較低的通量,,因為每個細胞需要獨立處理直到獲得最終的scRNA-seq庫,。然而,這一方法允許用戶研究可變剪接和等位基因特異性表達,。非全長檢測方法只測序轉(zhuǎn)錄本的3’或5’末端,,這在檢測isoforms表達時會受限,但是由于在單個細胞cDNA合成后可以pool到一起,,因此可以分析的細胞數(shù)量要高出2-3個數(shù)量級,。單細胞測序的廣度是指同時測序的細胞、組織或樣品的數(shù)量,,而深度是指給定數(shù)量的測序reads可分析覆蓋多少轉(zhuǎn)錄本,。盡管實驗中能測序的細胞數(shù)量是由選擇的方法決定的,但它確實具有一定的靈活性,,隨著所分析的細胞數(shù)量的增加,,增加的測序成本通常會限制轉(zhuǎn)錄組測序的深度。因此,,可以根據(jù)廣度和深度這兩個維度來評估不同的scRNA-seq系統(tǒng),。通常,基于X孔板 (plate-based)的方法或微流控方法通常捕獲最少的細胞,,但每個細胞檢測更多的基因,,而基于液滴的系統(tǒng)可用于分析最大數(shù)量的細胞,,如有的項目一次分析超過一百萬個細胞。 scRNA-seq的發(fā)展正在推動大規(guī)模的細胞圖譜項目,,以期確定生物體或組織中所有細胞類型,。Human Cell Atlas和NIH Brain Initiative項目分別對人體和大腦中存在的所有細胞類型進行測序。The Human Cell Atlas旨在在第一階段對3千萬至1億個細胞進行測序,,并且隨著技術(shù)的發(fā)展,,其廣度和深度將不斷增加。該項目的最新成果包括發(fā)現(xiàn) 空間分辨的RNA-seq方法當前的bulk和scRNA-seq方法為用戶提供了有關(guān)組織或細胞群體的高度詳細的數(shù)據(jù),,但都沒有保留細胞的空間位置信息,,這降低了確定細胞所處環(huán)境與基因表達之間關(guān)系的能力。實現(xiàn)空間轉(zhuǎn)錄組學研究方法的兩個技術(shù)是“空間編碼” (spatial encoding)和“原位轉(zhuǎn)錄組學” (in situ transcriptomics),??臻g編碼方法在RNA-seq文庫制備過程中記錄空間信息,方法是分離空間固定的細胞 (spatially restricted cells)(例如通過激光捕獲顯微切割(LCM)),,或根據(jù)分離前的位置加入條形碼編碼 (從組織切片中捕獲mRNA),。原位轉(zhuǎn)錄組學方法是在組織切片內(nèi)的細胞進行RNA進測序或RNA成像獲得表達數(shù)據(jù)。我們推薦對此感興趣的讀者閱讀最近的相關(guān)綜述以獲得更多了解,。 LCM配合RNA-seq已成功從組織切片中分離和測序單個細胞或特定區(qū)域,。盡管需要專用設(shè)備,但LCM在許多機構(gòu)中廣泛可用,。盡管它可以實現(xiàn)高空間分辨率,,但是卻很費力,因此很難做大規(guī)模,。在Spatial Transcriptomics(美國10X Genomics公司)和Slide-seq方法中,,采用寡核苷酸芯片 (oligo- arrayed microarray slides)和布滿寡核苷酸的凝珠 (densely packed oligo-coated beads) 直接從冷凍組織切片中捕獲RNA進行測序。寡核苷酸包含spatial barcode,,UMI和oligo-dT引物,,可唯一識別每個轉(zhuǎn)錄本及其位置。測序reads比對回玻片坐標獲得空間基因表達信息,。已經(jīng)證明,,Spatial Transcriptomics可用于多種物種的組織,,包括小鼠腦和人乳腺癌組織、人心臟組織和擬南芥花序組織,。Slide-seq是一項最新開發(fā)的技術(shù),,已顯示可用于小鼠大腦的冷凍切片分析。這些直接的mRNA捕獲方法不需要專門的設(shè)備,,具有相對簡單的分析方法,,并且可能大規(guī)模應用于許多組織。但是,,有兩個重要的問題有待解決,。首先,該技術(shù)只能應用于新鮮的冷凍組織,。其次,,分辨率受到芯片大小和寡核苷酸凝珠間距的限制;當前應用的芯片大小分別為6.5×7 mm和3×3 mm,,限制了可以檢測的組織切片的大小。Spatial Transcriptomics的凝珠直徑為100 μm,,間隔為100 μm,,這意味著它們不夠小或不夠密,以致無法實現(xiàn)單細胞分辨率,。Slide-seq的凝珠 (beads)小得多,,直徑僅為10 μm,并且堆積致密,,提供了十倍的空間分辨率,,大約一半的beads可以獲得單個細胞數(shù)據(jù)。計算整合分析組織消化分離后scRNA-seq與空間編碼數(shù)據(jù)可以提高分辨率,,但是還需要隨著技術(shù)的發(fā)展這才能成為常規(guī)的RNA-seq工具,。 能替代上述空間分辨RNA-seq方法的技術(shù)包括原位測序和基于成像的單分子熒光原位雜交技術(shù)。與RNA-seq方法相比,,這些方法產(chǎn)生的轉(zhuǎn)錄組譜更窄(能檢測的轉(zhuǎn)錄本更少),,但可直接檢測RNA,而靶向方法則可分析低豐度轉(zhuǎn)錄本,。同時,,它們提供有關(guān)組織結(jié)構(gòu)和微環(huán)境的信息,并可生成亞細胞數(shù)據(jù),。雖然取得了很多進展,,但基于成像的方法的主要局限性是對高分辨率或超高分辨率顯微鏡與自動流控相結(jié)合的需求,以及成像所花費的時間可能長達數(shù)小時,,甚至數(shù)天,。相較于測序成本以快于摩爾定律預測的速度下降,,讓基于成像的系統(tǒng)能進行高通量分析處理的機會卻很有限。 目前,,上述所有提到的空間轉(zhuǎn)錄組學方法都受到無法生成深度轉(zhuǎn)錄組數(shù)據(jù),、細胞分辨率和/或成本(時間和/或金錢)非常高的限制,但是相關(guān)方法正在迅速改進,,并且已經(jīng)應用于臨床樣品,。用于空間組轉(zhuǎn)錄組學分析的特定計算方法開始出現(xiàn)。此外,,原位RNA測序和基于成像的方法的進步已使獲得10^3至10^5個細胞的轉(zhuǎn)錄組數(shù)據(jù)成為可能,,這于基于液滴的單細胞方法可獲得的細胞量相似。未來的發(fā)展可能會使空間轉(zhuǎn)錄組學可以被更廣泛的用戶使用,。但是,,大多數(shù)用戶可能不太需要真正的單細胞或亞細胞分辨率。這樣,,對檢測更多轉(zhuǎn)錄本的需求和對廣泛的組織或樣品的適用性可能會推動這些技術(shù)在特定領(lǐng)域的發(fā)展,。如果可以克服空間轉(zhuǎn)錄組技術(shù)的這些局限性,那么它可能會被廣泛采用,。 非穩(wěn)定狀態(tài)RNA的分析DGE研究使用RNA-seq來測量穩(wěn)態(tài)mRNA水平,,這是通過平衡mRNA轉(zhuǎn)錄、加工和降解的速率來維持的,。但是,,RNA-seq也可用于研究轉(zhuǎn)錄和翻譯的過程和動態(tài)變化,這些研究為基因表達研究提供了新的視角,。 捕獲新生RNA測量活躍轉(zhuǎn)錄基因表達實質(zhì)上是一個動態(tài)過程,,DGE分析無法檢測復雜轉(zhuǎn)錄響應過程中的細微和快速變化,也不能鑒定不穩(wěn)定的非編碼RNA(例如增強子RNA),。RNA-seq可用于定位TSS并定量正在轉(zhuǎn)錄的新生RNA,,從而能夠研究RNA動力學。但是,,與DGE分析相比,,新生RNA的研究具有挑戰(zhàn)性,因為它們的半衰期短且豐度低,。因此,,了解RNA動力學的重要性催生了多種分析新生RNA研究方法。這些方法揭示了啟動子的不同轉(zhuǎn)錄程度,,轉(zhuǎn)錄激活狀態(tài)的RNA聚合酶II(Pol II)在啟動子近端的停留是基因表達調(diào)控的關(guān)鍵步驟,,新生RNA可以直接調(diào)節(jié)轉(zhuǎn)錄,并且它的序列和結(jié)構(gòu)影響轉(zhuǎn)錄延伸,、暫停和停滯 (stalling),,以及染色體修飾酶和增強子RNAs的結(jié)合,。旨在區(qū)分新轉(zhuǎn)錄的RNA和其他RNA的新生RNA-seq方法可以大致分為三類:run-on方法,基于Pol II免疫沉淀(IP)的方法和代謝標記方法(圖4),。 圖4 Run-on方法依賴于轉(zhuǎn)錄時摻入核苷酸類似物,,用于從總RNA中富集新生RNA,并可以測量RNA瞬時轉(zhuǎn)錄(圖4a),。Global run-on sequencing(GRO-seq)和precision nuclear run-on sequencing(PRO-seq)通過在轉(zhuǎn)錄過程中分別將5-溴尿苷5′-三磷酸(BrU)或生物素標記的核苷酸摻入新生RNA中來實現(xiàn)這一目標,。在添加外源生物素標記的核苷酸并恢復轉(zhuǎn)錄之前,分離細胞核并洗去內(nèi)源核苷酸,。測序免疫沉淀或親和層析富集的新生轉(zhuǎn)錄本可以確定轉(zhuǎn)錄組范圍內(nèi)活性轉(zhuǎn)錄的RNA聚合酶的位置和活性,。取決于轉(zhuǎn)錄時摻入的標記核苷酸的數(shù)量,GRO-seq只能達到 Pol II IP方法,,例如native elongating transcription sequencing (NET-seq) 和native elongating transcript sequencing for mammalian chromatin (mNET-seq),,使用anti-FLAG (for FLAG-tagged Pol II) 或其它結(jié)合Pol II C末端功能域(CTD)的各種抗體拉下Pol II相關(guān)的RNA。盡管非新生的Pol II結(jié)合的RNA和背景mRNA會導致更高的測序深度并混淆分析,,但富集測序與這些染色質(zhì)復合物相關(guān)的新生RNA可用于繪制TSS位點,。NET-seq可能特異性較低,與Pol II強相關(guān)的任何RNA都可能污染新生RNA的富集,,NET-seq數(shù)據(jù)中存在的tRNA和小核仁RNA可以說明這一點,。在mNET-seq中使用的多種CTD抗體揭示了CTD修飾調(diào)控轉(zhuǎn)錄的機制,檢測RNA加工中間體并能夠?qū)⑻囟≒ol II的新生RNA定位于TSS,。然而,,這些能力是以更復雜的實驗為代價的,需要更多的細胞和更高的總體測序成本,。 用核苷酸類似物4-硫尿苷(4 sU)進行代謝標記 (metabolic pulse-labelling)可以鑒定新生的RNA(圖4c),。但是,,在需要較長標記時間的方法中,大多數(shù)轉(zhuǎn)錄本都會被標記,,限制其靈敏度,。通過特異地靶向RNA的3′末端(即最接近RNA聚合酶的新轉(zhuǎn)錄的RNA),瞬時轉(zhuǎn)錄組測序(TT-seq)和硫醇(SH)-連接的烷基化RNA代謝測序(SLAMseq)減少5’RNA的信號,。TT-seq將標記時間限制為5分鐘,,以便僅標記新轉(zhuǎn)錄本的3′末端,并且在生物素親和純化之前增加RNA片段化步驟以富集標記的RNA,。SLAM-seq整合了3′mRNA-seq文庫制備(盡管它也可以使用其他文庫制備方法,,例如miRNA文庫),只測序標記了的新轉(zhuǎn)錄的RNA,,而不是整個轉(zhuǎn)錄本,。另外,在SLAM-seq中,,在RNA提取后加入碘乙酰胺,,用于烷基化整合到新生的RNA中的4 sU殘基。這一修飾誘導了逆轉(zhuǎn)錄依賴的胸腺嘧啶至胞嘧啶(T> C)核苷酸轉(zhuǎn)換,,在測序分析中會被檢測為“突變”,,從而直接鑒定出4 sU整合位點。但是,,低整合率意味著只有少數(shù)4 sU位點被轉(zhuǎn)換為了胞嘧啶,,限制檢測敏感性。TUC-seq和TimeLapse-seq這兩種方法也使用T> C突變分析,,但不富集3’末端,。他們已用于探索細胞干擾后的轉(zhuǎn)錄響應和測量RNA半衰期。 用于新生RNA分析的方法尚未直接做過比較,。檢測新生RNA的測序方法都受到非特異性背景和/或降解的RNA混入的負面影響,,使得測序需要更高的深度。通過僅測序RNA 3′末端,,PRO-seq,,TT-seq和SLAM-seq中非新生RNA的影響會被降低,但是幾乎沒有證據(jù)表明任何一種方法會優(yōu)于其他方法,。親和層析捕獲比較費力,,并且需要比代謝標記法更高的起始RNA,但是確定標記 (pulse-labelling)所需的時間很復雜,,標記時間短時后續(xù)用于分析的RNA也會少,,限制了檢測敏感性。近來組織特異性RNA標記技術(shù)和用于“突變”分析的新計算方法的發(fā)展,可能會促使用戶對新生RNA和其他RNA的檢測從生化(基于生物素的)富集轉(zhuǎn)換為生信富集,。新生RNA檢測方法的進一步發(fā)展以及它們與其他方法(例如空間轉(zhuǎn)錄組或RNA–RNA和RNA–蛋白質(zhì)相互作用方法)的結(jié)合,,將使我們對轉(zhuǎn)錄過程有更深入的了解。 核糖體圖譜定量活性轉(zhuǎn)錄RNA-seq的主要重點在于分析樣品中現(xiàn)存的mRNA的種類和數(shù)量,,但是mRNA的存在并不直接對應于蛋白質(zhì)的產(chǎn)生,。兩種方法-多聚核糖體圖譜 (polysomal profiling)和Ribo-seq技術(shù)允許我們跳出轉(zhuǎn)錄研究翻譯組。核糖體翻譯mRNA是受到高度調(diào)控的,,蛋白質(zhì)水平主要由翻譯活性決定,。Polysomal profiling和Ribo-seq幫助研究一個轉(zhuǎn)錄本上結(jié)合了多少核糖體及它們在轉(zhuǎn)錄本上的分布規(guī)律(圖5)。這允許我們推斷在特定時間或細胞狀態(tài)下哪些轉(zhuǎn)錄本正在活躍翻譯,。兩種方法均假設(shè)mRNA上的核糖體密度與蛋白質(zhì)合成水平相關(guān),。樣品比較分析發(fā)現(xiàn)在發(fā)育過程中或翻譯失調(diào)相關(guān)疾病中,如纖維化,,阮病毒病或癌癥,,處理前后隨著時間推移的核糖體動力學。 圖5 Polysome profiling多核糖體分析使用蔗糖梯度超速離心法將多個核糖體結(jié)合的mRNA (polysomal fraction)與單個或無核糖體結(jié)合的mRNA (monosomal fraction)分離分別用于RNA-seq文庫制備(圖5a),。在polysomal fraction比monosomal fraction中檢測到更高豐度的mRNAs翻譯活性更高,。該方法不僅可以推斷單個mRNA的翻譯狀態(tài),還可以生成核糖體占有率和密度的高分辨率圖譜(盡管它無法確定核糖體的位置),。后續(xù)也對原始方法進行了一些改進,。例如,使用非線性蔗糖梯度改善了在不同濃度蔗糖溶液臨界濃度處多聚核糖體mRNA的收集,;應用Smart-seq文庫制備方法可以檢測低至10 ng的多聚核糖體mRNA,;使用更高分辨率的蔗糖梯度和深度測序允許檢測轉(zhuǎn)錄本異構(gòu)體特異性翻譯。然而,,多核糖體譜分析只能產(chǎn)生相對低分辨率的翻譯譜,,并且是需要專門設(shè)備,限制了其廣泛使用,。 Ribo-seq基于RNA印記,最初是在酵母中開發(fā),。它使用環(huán)己酰胺抑制翻譯延伸進而導致核糖體停滯在mRNA上,。用RNase I消化mRNA會留下核糖體保護的20–30個核苷酸印記,用于后續(xù)構(gòu)建RNA-seq文庫(圖5b),。Ribo-seq可以獲得高分辨率翻譯譜,,同時檢測單個轉(zhuǎn)錄本上核糖體豐度和定位。能夠獲得多聚核糖體分析無法檢測到的核糖體在轉(zhuǎn)錄本上位置的分布,,意味著可以檢測到影響蛋白質(zhì)表達調(diào)控的翻譯暫停事件 (translation pausing),。Ribo-seq技術(shù)的優(yōu)化包括緩沖液和酶的優(yōu)化,可以更清楚地揭示Ribo-seq數(shù)據(jù)的 前面提到的方法不能區(qū)分翻譯起始、延伸和終止的信號,,但是對Ribo-seq的改進使得可以對翻譯動力學進行進一步研究,。定量翻譯起始測序(QTI-seq)通過化學“凍結(jié)”富集起始核糖體,同時從相關(guān)mRNA中去除延伸核糖體來定位翻譯起始位點 (生信寶典注:原文寫的是maps transcription initiation sites,,應該是筆誤),。在組裝成熟核糖體之前,Translation complex profile sequencing (TCP-seq)通過富集與成熟核糖體RNA組裝前的40S核糖體小亞基結(jié)合的RNA來定位翻譯起始位點,。同時,,由于這種方法保留了核糖體的完整性,因此也可以分析和比較80S核糖體部分,,從而獲得更完整的翻譯動力學分析(圖5b),。 所有的翻譯組方法在概念上都是相似的;他們假設(shè)mRNA核糖體密度與蛋白質(zhì)合成水平相關(guān),。盡管它們的樣品制備方案不同,,但是都需要大量的起始細胞。最終,,可能需要將它們與RNA-seq結(jié)合以了解基因表達水平,,并與蛋白質(zhì)組學結(jié)合以確定蛋白質(zhì)水平,才能全面了解mRNA翻譯,。如果想詳細了解翻譯組分析,,文中也推薦了其它綜述。 超越基因表達分析RNA在其他生物分子和生物過程(例如剪接和翻譯)的調(diào)控中起著重要作用,,這些過程涉及RNA與各種蛋白質(zhì)和/或其他RNA分子的相互作用,。RNA-seq可用于探究分子內(nèi)和分子間RNA-RNA相互作用(RRI),或RNA與蛋白質(zhì)的互作,,從而可以更深入地了解轉(zhuǎn)錄和翻譯過程(圖6),。為互作組 (interactome)分析而開發(fā)的各種方法都有一個共同點:富集相互作用的RNA。一些方法利用了天然的生物相互作用,,另一些方法則在目標分子之間發(fā)生瞬時結(jié)合或共價結(jié)合,。大多數(shù)使用抗體,親和層析或探針雜交來富集用于測序的RNA,。在這里,,我們簡要介紹基于RNA-seq的結(jié)構(gòu)組 (structurome)和互作組 (interactome)。 圖6 通過分子內(nèi)RNA相互作用探測RNA結(jié)構(gòu)核糖體RNA和tRNA構(gòu)成細胞的大部分RNA。它們與其他有特定結(jié)構(gòu)的非編碼RNA一起在基因調(diào)控到翻譯的多種細胞過程發(fā)揮作用,。用于解析RNA結(jié)構(gòu)的方法主要有兩種,,分別是基于核酶的方法和化學探針法。核糖核酸酶消化法于1965年首次用于確定(tRNA-Ala)RNA結(jié)構(gòu),。在隨后的40年中開發(fā)了化學方法,,例如基于引物延伸化學分析進行選擇性2′-羥基乙酰化法(SHAPE),,可以在堿基對分辨率下確定 核酶法,,例如RNA結(jié)構(gòu)并行分析法(PARS,, parallel analysis of RNA-structure)和片段測序(FRAG-seq, fragmentation sequencing),使用可以消化單鏈RNA(ssRNA)或雙鏈RNA(dsRNA)的核酶,。核酸酶消化后剩余的RNA用作RNA-seq文庫制備,。隨后通過對所得RNA-seq數(shù)據(jù)進行計算分析,確定結(jié)構(gòu)化(雙鏈)和非結(jié)構(gòu)化(單鏈)區(qū)域,。核酸酶簡單易用并允許對ssRNA和dsRNA進行研究,,但由于核酸酶消化的隨機性,它們的分辨率比化學法要低,。此外,,核酶的大體型使得它們不能進入細胞,進而不適用于體內(nèi)研究,。 化學映射方法使用與RNA分子反應的化學探針標記結(jié)構(gòu)化或非結(jié)構(gòu)化核苷酸,。這些標記可阻止逆轉(zhuǎn)錄或?qū)е耤DNA誤整合 (micincorporation),進而可通過對RNA-seq reads進行測序和分析以獲得結(jié)構(gòu)組學結(jié)果,。SHAPE測序(SHAPE–seq)通過與RNA骨架的核-2′-羥基反應來標記未配對的ssRNA,,發(fā)夾環(huán)中的堿基堆積會降低標記效率。Structure–seq和硫酸二甲酯測序(DMS-seq, dimethyl sulfate )用DMS標記腺嘌呤和胞嘧啶殘基,,阻斷了逆轉(zhuǎn)錄,使得能夠通過分析所得的截斷cDNA推斷出RNA結(jié)構(gòu),。SHAPE和突變圖譜分析(SHAPE–MaP)和DMS突變圖譜分析(DMS–MaPseq)都優(yōu)化了實驗條件提高逆轉(zhuǎn)錄酶的合成能力并防止cDNA截斷,。相反,化學標記會導致誤摻入事件,然后使用RNA-seq數(shù)據(jù)分析這些“突變”以揭示RNA結(jié)構(gòu),?;瘜W探針是小分子,可以在體內(nèi)研究更具生物學意義的結(jié)構(gòu)體,;由于細胞內(nèi)環(huán)境的動態(tài)變化,,數(shù)據(jù)的變異度也會高一些?;瘜W法還可以用于進行新生RNA的結(jié)構(gòu)分析,,并揭示共轉(zhuǎn)錄RNA折疊的順序。 核酸酶和逆轉(zhuǎn)錄阻斷法通常產(chǎn)生短RNA片段,,并且僅檢測單個消化位點或化學標記,,而誤摻入和突變檢測方法每條測序reads可能檢測到多個化學標記位點。這些方法都不是沒有偏好的,, 逆轉(zhuǎn)錄阻斷效率不會達到100%,,誘導突變的化學標記可能會阻斷cDNA的合成,這兩個因素都會影響數(shù)據(jù)的分析解釋,。Spike-in對照可能會提高結(jié)構(gòu)組分析的質(zhì)量,,但尚未得到廣泛使用。SHAPE方法的比較揭示了僅在體內(nèi)實驗中明顯的效率差異,,強調(diào)了比較此類復雜方法時需要特殊注意,。 這些方法揭示了RNA結(jié)構(gòu)在基因和蛋白質(zhì)調(diào)控機制中的新作用。例如,,對DMS數(shù)據(jù)的分析發(fā)現(xiàn),,RNA結(jié)構(gòu)可以調(diào)節(jié)APA,并可能減緩催化活性區(qū)域的翻譯,,從而為蛋白質(zhì)折疊提供更多時間減少錯誤折疊事件,。可能需要結(jié)合使用多種結(jié)構(gòu)RNA-seq方法才能獲得完整的結(jié)構(gòu)組圖譜,。隨著該領(lǐng)域研究的深入,,我們可能會發(fā)現(xiàn)RNA結(jié)構(gòu)與發(fā)育或疾病狀態(tài)之間的聯(lián)系。最近的結(jié)果表明異常RNA結(jié)構(gòu)在重復擴增導致的疾病中可能有調(diào)控作用,。最終,,結(jié)構(gòu)組分析可以促使開發(fā)靶向結(jié)構(gòu)清晰的RNA的小分子,從而開辟疾病治療藥物開發(fā)的新領(lǐng)域,。 探索RNA–RNA分子間互作 (RRI)分子間RRI在轉(zhuǎn)錄后調(diào)控中起重要作用,,例如miRNA靶向3’UTR。已經(jīng)開發(fā)的用于研究分子間RRI的工具,,可用于靶向和全轉(zhuǎn)錄組的分析,。這些方法有共同的操作流程,,其中RNA分子在斷裂和就近自連之前先進行交聯(lián)固定互作狀態(tài)(圖6b)。通過不同方法生成的大多數(shù)(但不是全部)嵌合cDNA源自穩(wěn)定堿基配對(即相互作用)的RNA分子之間的連接,。靶向方法,,例如CLASH (crosslinking, ligation and sequencing of hybrids),RIA-seq (RNA interactome analysis and sequencing), RAP-RNA (RNA antisense purification followed by RNA sequencing)可以生成單個RNA的深度相互作用圖譜,。CLASH可使用IP富集法分析特定蛋白質(zhì)復合物介導的RRI,,而RIA–seq使用反義寡核苷酸pull down與靶標RNA相互作用的RNA。兩種方法都不能區(qū)分直接和間接RRI,,這使生物學解釋變得復雜,。為了提高RRI分析的分辨率,RAP–RNA使用psoralen和其他交聯(lián)劑,,然后用反義寡核苷酸捕獲RNA,,并通過高通量RNA-seq檢測直接和間接RRI。盡管該方法確實允許進行更特異的分析,,但它需要準備多個文庫(每種交聯(lián)劑一個),。 全轉(zhuǎn)錄組方法與靶向方法基本相似:相互作用的RNA在體內(nèi)進行交聯(lián)并富集。富集通過減少連接反應中攜帶的非相互作用RNA的量來提高特異性,,可以通過2D凝膠純化富集(如PARIS,,psoralen analysis of RNA interactions and structures法中)或使用生物素親和層析富集( 如 SPLASH,sequencing of psoralen crosslinked, ligated and selected hybrids),,或通過RNase R消化去除未交聯(lián)的RNA(如LIGR-seq,,ligation of interacting RNA followed by RNA- seq)。連接后,,去交聯(lián),,然后進行RNA-seq文庫制備和測序。PARIS方法產(chǎn)生最大數(shù)目的相互作用,,但每個樣品需要7500萬條測序reads,,比其他RRI方法要多很多,并且是DGE分析平均測序深度的兩倍以上,。 整合RNA互作數(shù)據(jù)分析可以同時對多種相互作用進行探索,,并揭示了不同種類RNA的RRI分布的變異??偟膩碇v,,90%的RRI有mRNA參與。近一半有miRNA或長鏈非編碼RNA參與,,并且大多數(shù)互作都靶向mRNA,。這些數(shù)據(jù)整合比較分析揭示了特定RNA種類在不同方法中存在很大偏好性,這導致方法之間幾乎沒有檢測到共有的互作,。因此,,要完整了解RRI,,可能需要使用不止一種方法。但是,,RRI方法存在一些局限性。也許最具挑戰(zhàn)性的是RRI是動態(tài)的,,并且受結(jié)構(gòu)構(gòu)象和其他分子間相互作用的影響,,如果沒有重復,結(jié)果就很難解釋,。分子內(nèi)相互作用為分子間RRI分析增加了噪音,,這要求將高度結(jié)構(gòu)化的RNA(例如rRNA)過濾并去除。其他問題包括RNA提取過程中的相互作用破壞,,需要穩(wěn)定的交聯(lián)方法,,但最常用的RRI交聯(lián)試劑 psoralen和4′-氨基-甲基三氧雜沙侖(AMT)-僅能低效交聯(lián)嘧啶,降低了方法的敏感性,。此外,,鄰近連接步驟效率低下,并且可能同時連接相互作用和非相互作用的RNA,,從而進一步降低了靈敏度,。 研究RNA與蛋白質(zhì)的相互作用。ChIP-seq已成為探索DNA-蛋白質(zhì)相互作用的必不可少的工具,。一種類似的IP方法可以用于研究RNA與蛋白質(zhì)的相互作用,。RNA與蛋白質(zhì)的相互作用方法也依靠IP,利用一種針對感興趣的蛋白的抗體來捕獲其結(jié)合的RNA進行分析(最初是結(jié)合微陣列芯片使用)(圖6c),。各種RNA與蛋白質(zhì)相互作用方法之間最明顯的區(qū)別是互作的RNA和蛋白質(zhì)是否進行交聯(lián)以及如何交聯(lián):有些方法避免交聯(lián)(直接IP),,另一些方法則使用甲醛進行交聯(lián),而另一些方法則使用紫外線(UV)進行交聯(lián),。.最簡單的方法是RIP-seq( RNA |
|
來自: 祥強6csdm0n3vs > 《技術(shù)》