Nature重磅綜述 |關(guān)于RNA-seq,，你想知道的都在這

祥強6csdm0n3vs 2020-07-05

展開全文

▼生信學習的正確姿勢（第三版）

NGS系列文章包括NGS基礎(chǔ),、轉(zhuǎn)錄組分析（Nature重磅綜述|關(guān)于RNA-seq你想知道的全在這）、ChIP-seq分析（ChIP-seq基本分析流程）,、單細胞測序分析 (重磅綜述：三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程（原理,、代碼和評述）)、DNA甲基化分析,、重測序分析,、GEO數(shù)據(jù)挖掘（典型醫(yī)學設(shè)計實驗GEO數(shù)據(jù)分析 (step-by-step) - Limma差異分析、火山圖,、功能富集）等內(nèi)容,。

最后2周 | 高級轉(zhuǎn)錄組分析和R語言數(shù)據(jù)可視化第十一期 (報名線上課還可免費參加線下課)

摘要

RNA測序（RNA-seq）在過往十年里逐漸成為全轉(zhuǎn)錄組水平分析差異基因表達和研究mRNA差異剪接必不可少的工具。隨著二代測序技術(shù) (NGS)的發(fā)展,，RNA-seq的應用也越來越廣?，F(xiàn)已經(jīng)可以應用于很多RNA層面的研究，比如單細胞基因表達,、RNA翻譯（translatome）和RNA結(jié)構(gòu)組（structurome結(jié)構(gòu)組學）,。新的有意思的應用，如空間轉(zhuǎn)錄組學（spatialomics）也在積極研究中,。通過結(jié)合新興的三代長讀長long-read和direct RNA-seq技術(shù),，以及更好的計算分析工具，RNA-seq幫助大家對RNA生物學的理解會越來越全面：從轉(zhuǎn)錄本在何時何地轉(zhuǎn)錄到RNA折疊以及分子互作發(fā)揮功能等,。

前言

RNA測序（RNA-seq）自誕生起就應用于分子生物學,，幫助理解各個層面的基因功能。現(xiàn)在的RNA-seq更常用于分析差異基因（DGE, differential gene expression）,，而從得到差異基因表達矩陣,，該標準工作流程的基本分析步驟一直是沒有太大變化：

始于濕實驗，提取RNA,，富集mRNA或消除rRNA,，合成cDNA和構(gòu)建測序文庫。
然后在高通量平臺（通常是Illumina）上進行測序,，每個樣本測序reads深度為10-30 Million reads,。
最后一步是計算：比對/拼裝測序reads到轉(zhuǎn)錄本，計數(shù)與轉(zhuǎn)錄本比對上的reads數(shù)定量,，樣本間過濾和標準化,，樣本組間基因/轉(zhuǎn)錄本統(tǒng)計差異分析。

早期的RNA-seq實驗從細胞群（如來源于某個組織或器官的細胞）中得到DGE數(shù)據(jù),，并可以應用于很多物種,，如玉米(Zea mays),，擬南芥(Arabiodopsis thaliana)，釀酒酵母(Saccharomyces cerevisae),，鼠(Mus musculus)和人(Homo sapiens),。雖然RNA-seq這個詞通常包含很多不同的RNA相關(guān)的方法或生物應用，但DGE分析始終是它的主要應用（表1）,，并且是DGE研究的常規(guī)工具,。

RNA-seq的廣泛應用促進了對許多生物層面的理解，如揭示了mRNA剪接的復雜性,、非編碼RNA和增強子RNA調(diào)控基因表達的機制,。RNA-seq的發(fā)展和進步一直離不開技術(shù)發(fā)展的支持（濕實驗方面和計算分析方面），且與先前的基于基因芯片的技術(shù)比起來,，獲得的信息更多,、偏好性更小。到目前為止,，已從標準的RNA-seq流程中衍生出多達100種不同的應用。大部分應用都是基于Illumina short-read測序,，但最近基于long-read RNA-seq和direct RNA sequencing (dRNA-seq)的方法可以幫助解決Illumina short-read技術(shù)處理不了的問題,。

本文中，我們先熟悉'baseline'流程,，用short-read RNA-seq技術(shù)分析DGE,。先描述短讀長測序的文庫構(gòu)建過程、實驗設(shè)計注意事項和計算分析流程,，探究其應用如此廣泛的原因,。然后描述單細胞轉(zhuǎn)錄組和空間轉(zhuǎn)錄組的發(fā)展和應用。我們會舉例說明RNA-seq在RNA生物學關(guān)鍵研究中的應用,，包括轉(zhuǎn)錄和翻譯的動力學分析,，RNA結(jié)構(gòu)，RNA-RNA和RNA-蛋白質(zhì)間相互作用等,。最后我們小小地展望一下RNA-seq的未來,，如單細胞和空間轉(zhuǎn)錄組是否也會是以后的常規(guī)分析，在什么情況下long reads會替代short reads RNA-seq,。不過篇幅有限,，本文對RNA-seq分析還是有照顧不到的地方，比如典型的有非編碼轉(zhuǎn)錄組,，原核轉(zhuǎn)錄組和表觀轉(zhuǎn)錄組,。

圖一：short-read,long-read和direct RNA-seq技術(shù)和工作流程

圖一：A

3種RNA測序方式的建庫方法概覽：short-read測序（黑色），long-read cDNA測序（綠色）和long-read direct RNA-seq（藍色）,。根據(jù)不同的應用目的,，文庫構(gòu)建的復雜性和偏好性不同,。short-read和long-read cDNA的建庫方案在很多步驟是一樣的，比如在所有建庫方案中接頭連接是共有的,。三種方法都會受到樣本質(zhì)量和文庫構(gòu)建上下游的計算問題影響,。

圖一：B

三種主要測序技術(shù)的比較。

Illumina workflow（左）：
建庫之后,，單獨的cDNA分子在流動槽中構(gòu)建測序簇,，使用3’阻斷的熒光標記的核苷酸進行邊合成邊測序。在每一輪測序中,，高速攝像機拍照捕獲當前激發(fā)的熒光,，來判斷當前是哪個核苷酸合成進來，測序長度在50-500 bp,。
The Pacific Biosciences workflow（中）：
建庫之后,，每個分子與固定在納米孔底部的聚合酶結(jié)合。然后是邊合成邊測序,，測序長度可以高達50 kb,。
The Oxford Nanopore workflow（右）：
建庫后，將單個分子加載到流動槽中,，在接頭連接過程中加上的分子馬達會與生物納米孔結(jié)合,。馬達蛋白控制RNA鏈穿過生物納米孔，引起電流變化,，從而推測出經(jīng)過的堿基序列,，生成的測序reads大小為1-10 kb。

圖一：C

short-read,long-read和direct RNA-seq分析：

人體中,，超過90%的基因（gene n）會發(fā)生可變剪接,，并生成至少兩種不同的表達形式（轉(zhuǎn)錄本x,y）。相比于long-read測序可以直接測到每一種不同的轉(zhuǎn)錄本,，從而獲得更全面的信息,，short-read的測序在檢測轉(zhuǎn)錄本上受限于短reads比對的模糊性。在short-read cDNA測序中,，有很多reads比對回兩個不同轉(zhuǎn)錄本共享的外顯子上導致無法確定其真實來源,。跨越2個或多個外顯子的Junction reads可以改善轉(zhuǎn)錄異構(gòu)體的分析,，但當兩種轉(zhuǎn)錄異構(gòu)體共享剪接斷點時就無能為力了,。這些問題都增加了分析和解讀結(jié)果的復雜度。long-read cDNA方法能直接檢測全長轉(zhuǎn)錄異構(gòu)體,從而移除或大幅減少檢測偏好,，提高差異表達轉(zhuǎn)錄本分析的準確率,。

而以上這些方法都依賴于cDNA轉(zhuǎn)換，這一過程抹去了有關(guān)RNA堿基修飾的信息，而且也只能粗略估計多聚腺苷酸（poly（A））尾巴的長度,，而direct RNA-seq可以直接分析全長轉(zhuǎn)錄本異構(gòu)體,、度量堿基修飾（比如N6-甲基腺苷（M6A））和檢測poly（A）尾巴長度。

RNA-seq技術(shù)的進步

在NCBI Short Read Archive (SRA)數(shù)據(jù)共享平臺中多于95%的數(shù)據(jù)來自于Illumina short-read測序技術(shù)（表2）,。目前幾乎所有已發(fā)布的mRNA-seq數(shù)據(jù)都是short-read測序所得,，所以我們認為這是RNA-seq技術(shù)的常規(guī)操作，接下來討論它的主要流程和限制,。不過在轉(zhuǎn)錄異構(gòu)體檢測的研究（圖一,；表1）方面，不斷進步的long-read cDNA測序和dRNA-seq技術(shù)將向short-read測序技術(shù)的主導地位發(fā)起挑戰(zhàn),。

測序技術(shù)	平臺	優(yōu)勢	劣勢	重要應用
short-read cDNA	llumina, Ion Torrent	①高通量,，每次運行產(chǎn)生的reads數(shù)是long-read平臺的`100-1000`倍之多；②測序偏好和錯誤模式研究透徹（同聚物homopolymers對于Ion Torrent來說仍然是個問題）,；③可使用的方法和計算流程很多,；④可用于降解了的RNA的分析	樣品制備過程如反轉(zhuǎn)錄，PCR和片段選擇都會引入偏好性,；轉(zhuǎn)錄異構(gòu)體的檢測和定量受限,；新轉(zhuǎn)錄本的鑒定基于轉(zhuǎn)錄本拼裝步驟	幾乎所有的RNA-seq應用都是基于short-read cDNA測序：DGE (differential gene expression), WTA (whole- transcriptome analysis),小RNA，單細胞,，空間轉(zhuǎn)錄組,，新生轉(zhuǎn)錄本，翻譯組,，RNA結(jié)構(gòu)組和RNA-蛋白質(zhì)相互作用分析等等。
long-read cDNA	PacBio, ONT	①1–50kb的長reads可以檢測很多全長轉(zhuǎn)錄本 ②用于de novo轉(zhuǎn)錄組分析的計算方法簡化很多	①低-中通量,，每個run獲得`0.5 M-10 Million reads`②樣品制備過程如反轉(zhuǎn)錄,，PCR和片段選擇(部分方法需要)都會引入偏好性③不太適合降解了的RNA	尤其適用于轉(zhuǎn)錄異構(gòu)體的發(fā)現(xiàn)，無參轉(zhuǎn)錄組的de novo分析,，融合轉(zhuǎn)錄本的發(fā)現(xiàn),，HL A (human leukocyte antigen)和MHC (major histocompatibility complex)等復雜轉(zhuǎn)錄本分析
Long-read RNA	ONT	①1–50kb的長reads可以檢測很多全長轉(zhuǎn)錄本②用于de novo轉(zhuǎn)錄組分析的計算方法簡化很多 ③樣品制備不需要反轉(zhuǎn)錄或PCR，降低了偏好性 ④可以檢測RNA堿基修飾 ⑤單分子測序直接估計poly(A)全長	①通量低,，每個run僅生產(chǎn)`0.5 M-1 Million reads`②樣品準備和測序過程偏好性不明確③不太適合降解了的RNA	①尤其適用于轉(zhuǎn)錄異構(gòu)體的發(fā)現(xiàn),，無參轉(zhuǎn)錄組的de novo分析，融合轉(zhuǎn)錄本的發(fā)現(xiàn),，MHC和HLA等復雜轉(zhuǎn)錄本分析 ②適用于檢測核糖核酸修飾

表1

short-read cDNA測序用于差異基因分析

short-read測序是檢測和定量轉(zhuǎn)錄組范圍基因表達的最常見方式,，部分原因是因為它比表達芯片更便宜、更易于應用,，但更主要的是它可以獲得全轉(zhuǎn)錄組水平高質(zhì)量的表達數(shù)據(jù),。采用Illumina的short-read測序做DGE分析的核心步驟包括RNA提取，cDNA合成，接頭連接,，PCR擴增,，測序和數(shù)據(jù)分析（圖一）。由于mRNA片段化和基于beads的文庫純化過程中偏好150-200 bp的片段,，導致這個方案最后獲得的cDNA片段都在200 bp以下,。每個樣本平均測20-30 million reads，對每個基因或轉(zhuǎn)錄本進行定量,，再統(tǒng)計分析差異基因（參考RNA-seq數(shù)據(jù)分析部分）,。short-read RNA-seq結(jié)果很穩(wěn)定，對RNA-seq的short-read測序技術(shù)多次測試比較發(fā)現(xiàn),，其平臺內(nèi)和平臺間的相關(guān)性都很好,。然而在樣本準備和計算分析階段有一些步驟也會引入偏好性。這些限制會影響特定生物問題的解釋,，比如正確地識別和定量一個基因的多個轉(zhuǎn)錄異構(gòu)體,。這一局限與研究特別長或特別多變的轉(zhuǎn)錄異構(gòu)體尤其相關(guān),。如人的轉(zhuǎn)錄組中,，50%的轉(zhuǎn)錄本長度大于2500 bp,，轉(zhuǎn)錄本長度范圍在186 bp到109 kb,。盡管short-read RNA-seq 可以對更長的轉(zhuǎn)錄本進行細致的分析,，但相應的方法很難高通量化用于全轉(zhuǎn)錄組范圍的分析,。其它的偏好性和限制可能來自于RNA-seq數(shù)據(jù)分析的計算方法,，比如怎么處理在基因組上有多個匹配位置的序列,。一個新的稱為合成長讀長測序 (synthetic long reads)可以進行全長mRNA測序和解決一部分存在的問題,。在short-read RNA-seq建庫前利用唯一分子標識符（UMI）標記cDNA分子,，從而解決短讀長問題做到測序全長mRNA?；谶@個技術(shù)可以對長達4 kb的轉(zhuǎn)錄本異構(gòu)體進行鑒定和定量,。從根本上解決short-cDNA測序固有限制的最有效的方法還是long-read cDNA測序和dRNA-seq方法。

long-read cDNA 測序

盡管Illumina是目前主流的RNA-seq平臺,，但Pacific Biosciences（PacBio）和Oxford Nanopore（ONT）能在完整的RNA分子反轉(zhuǎn)錄為cDNA后進行單分子長讀長測序,。因為消除了short RNA-seq reads需要的組裝步驟，可以解決short reads測序相關(guān)的一些問題,。例如：序列比對的模糊性降低,，可以鑒定更長的轉(zhuǎn)錄本，這些有助于更好地檢測轉(zhuǎn)錄異構(gòu)體的多樣性,。同時還可以降低許多short-read RNA-seq計算工具引入的剪接位點檢測的高假陽性率,。

基于PacBio技術(shù)的Iso-Seq能夠檢測長達15 kb的全長轉(zhuǎn)錄本cDNA reads，這有助于發(fā)現(xiàn)大量先前未注釋的轉(zhuǎn)錄本,，并通過全長測序確認了早期基于跨物種同源序列的基因預測結(jié)果,。在標準的Iso-Seq實驗流程中,，模板置換逆轉(zhuǎn)錄酶可以將高質(zhì)量RNA轉(zhuǎn)化為用來測序的全長cDNA。然后將得到的cDNA進行PCR擴增,，并構(gòu)建PacBio單分子實時（single-molecule, real-time,，SMRT）文庫。因為短轉(zhuǎn)錄本可以很快地擴散到測序芯片的活性表面造成一定的測序偏好,，建議選擇1至4 kb長度的轉(zhuǎn)錄本一起測序,，以保證這一長度范圍的長短轉(zhuǎn)錄本有同等幾率進行測序。同時PacBio測序?qū)δ０辶啃枨蠛艽?，要求進行大體積PCR,，需要優(yōu)化反應體系降低過擴增的影響。PCR末端修復和PacBio SMRT 接頭連接后,，就可以進行l(wèi)ong-read測序了;通過調(diào)整測序芯片的上樣條件可以進一步控制測序片段的大小選擇偏好,。

ONT cDNA測序也可以測序全長轉(zhuǎn)錄本，而且適用于單細胞測序,。同樣使用模板置換逆轉(zhuǎn)錄來制備全長cDNA,，在加接頭制備測序文庫之前，可以自己決定是否進行PCR擴增,。Direct cDNA測序可消除PCR偏差,，獲得的測序結(jié)果質(zhì)量更高；PCR擴增的cDNA文庫的測序產(chǎn)出（測序獲得的reads數(shù)）更高,，適用于樣本中RNA含量較少的情況,。而目前還未在ONT cDNA測序中發(fā)現(xiàn)PacBio測序存在的轉(zhuǎn)錄本長短選擇偏好。

這些long-read cDNA方法都受模板置換逆轉(zhuǎn)錄酶限制,。這個酶可以把全長和截斷的RNA都轉(zhuǎn)換成cDNA,。反轉(zhuǎn)錄酶只將5’-capped mRNA轉(zhuǎn)換成cDNA，這樣就降低了由于RNA降解,、RNA斷裂導致的轉(zhuǎn)錄本截斷生成的cDNA和不完整的cDNA合成,，從而提高數(shù)據(jù)質(zhì)量。但是這些逆轉(zhuǎn)錄酶對ONT平臺的測序reads讀長有反作用,。

Long-read direct RNA 測序

正如上面所討論的,，long-read和baseline short-read 平臺一樣,，都需要在測序之前將mRNA轉(zhuǎn)化成cDNA,。近期Oxford Nanopore展示他們的納米孔測序技術(shù)能直接測序RNA，也就是說,，建庫過程中沒有修復,、cDNA合成、PCR擴增這些過程,，移除了這些操作過程的偏好并且保留了RNA上的表觀修飾信息,，這一技術(shù)也稱為dRNA-seq。直接從RNA建庫需要兩步接頭連接。首先,，帶有oligo(dT)懸臂的duplex adaptor與mRNA的PolyA尾巴退火連接,。后續(xù)是一個可選的逆轉(zhuǎn)錄操作，用于提高測序通量（一般推薦做）,。第二個連接操作就是添加連有分子馬達的測序接頭用于后續(xù)測序,。隨后文庫加載入MinION，啟動3?poly(A)尾巴向5?cap端的RNA測序,。早期研究表明,，dRNA-seq的測序長度在1000 bp左右，最大測序長度超過10 kb,。與短讀長測序相比,，長讀長測序可以改善轉(zhuǎn)錄異構(gòu)體的檢測，估計PolyA尾巴的長度進行選擇性多腺苷酸化分析,。Nanopolish-polya工具可以分析納米孔測序得到的數(shù)據(jù),，計算基因間或轉(zhuǎn)錄本間的poly(A)尾的長度。結(jié)果表明內(nèi)含子保留的轉(zhuǎn)錄本相比于完全剪切的轉(zhuǎn)錄本具有稍長的PolyA尾巴,。雖然dRNA-seq還處于起步階段,，但是其能直接檢測RNA堿基修飾的潛力有望在表觀轉(zhuǎn)錄組領(lǐng)域促進更新的發(fā)現(xiàn)。

長讀長測序與短讀長測序技術(shù)的比較

雖然長讀長測序技術(shù)在轉(zhuǎn)錄本分析方面比短讀長測序技術(shù)有一些明顯的優(yōu)勢,，但是也存在一些局限,。跟成熟的短讀長技術(shù)平臺相比，長讀長測序技術(shù)的測序通量低很多,，錯誤率更高,。而長讀長測序技術(shù)的主要優(yōu)勢即能測序更多的獨立轉(zhuǎn)錄本全長，依賴于高質(zhì)量的RNA文庫,。這些局限會影響那些特別依賴長讀長測序?qū)嶒灥撵`敏性和特異性,。

當前長讀長測序方法的主要局限就是其通量低。在Illumina平臺上,，一個RUN可以生成10^9-10^10條reads,，而PacBio和ONT平臺上，一個RNA-seq RUN只能產(chǎn)生10^6-10^7 reads,。這種低通量限制了應用長讀長測序的項目的大?。▽嶒灅颖镜臄?shù)目），并降低了差異基因表達檢測的靈敏性,。當然也不是所有的應用都需要很高的測序深度,。比如如果研究者關(guān)注的是轉(zhuǎn)錄異構(gòu)體的發(fā)現(xiàn)和鑒定，測序長度比測序深度更重要,。測序1百萬個PacBio環(huán)形一致性序列 (circular consensus-sequencing, CCS) 可以保證長度大于1 kb的高表達基因測通,，ONT測序技術(shù)也是如此,。因此，測序深度主要影響低中表達的基因,。低通量的局限性在研究功能基因組進行大規(guī)模差異基因分析時會更明顯,。為了獲得足夠的以保證轉(zhuǎn)錄組表達變化檢測的準確性，需要對多個樣品組的多個生物學重復同時進行測序分析,。在這些應用上,，長讀長技術(shù)不太可能取代短讀長技術(shù)，除非它們的通量能提高2個數(shù)量級,。隨著全長RNA-seq reads數(shù)目增加,，轉(zhuǎn)錄本檢測的靈敏度將會達到Illumina平臺的水平，但有著更高的特異性,。通過將Illumina 的短讀長RNA-Seq與PacBio的長讀長Iso-Seq結(jié)合 (并且可能還與ONT方法結(jié)合),，在保留轉(zhuǎn)錄本定量質(zhì)量的基礎(chǔ)上，可以增加RefSeq注釋的全長轉(zhuǎn)錄異構(gòu)體檢測的數(shù)量,、靈敏性和特異性,。盡管當前長讀長RNA-seq方法實驗成本更高，但它們可以檢測短讀長方法所遺漏的轉(zhuǎn)錄異構(gòu)體,，尤其是那些難以測序但與臨床相關(guān)的區(qū)域,，例如高度多態(tài)的人類主要組織相容性復合體MHC或雄激素受體。

長讀長測序平臺的第二個主要限制是其高錯誤率,，比成熟的Illumina測序儀要高出一到兩個數(shù)量級,。長讀長測序平臺上生成的數(shù)據(jù)還包含更多的插入-缺失錯誤。如果是做突變位點檢測這些錯誤率/錯誤形式會影響很大,，但是對轉(zhuǎn)錄組分析影響并不是太大,，只要能區(qū)分轉(zhuǎn)錄本和轉(zhuǎn)錄異構(gòu)體即可。如果是應用于對錯誤率敏感的項目,，也有一些辦法進行補救,。PacBio SMRT測序平臺出現(xiàn)的典型測序錯誤是隨機錯誤，可以通過增加測序深度來進行CCS序列矯正解決,。在測序過程中,，cDNA的長度是人為選擇控制的，連接接頭后形成環(huán)形模板,，每個分子可以被測序多次,，從而產(chǎn)生長度范圍是10-60 kb的連續(xù)長序列，里面包含了原始cDNA的多份拷貝,。這些長序列經(jīng)過計算拆分成為單個cDNA子讀長 (subreads),，并比對在一起互相校正獲得一致性序列,。插入的cDNA分子測序到的次數(shù)越多,，校正后錯誤率越低,；研究表明CCS可以將錯誤率降低到與短讀長相當甚至更低的水平。但是,，把平臺的測序能力用于讀取相同的分子更加加劇了其測序通量低的問題,，更少的獨立轉(zhuǎn)錄本會被測到。

長讀長RNA-seq方法的敏感性還受到其他幾個因素的影響,。首先,，用于建庫的RNA分子需要是全長轉(zhuǎn)錄本，但由于RNA提取,、分離過程中會導致RNA斷裂或?qū)嶒炦^程中RNA降解,，使得理想狀態(tài)并非總能實現(xiàn)。這種情況在短讀長RNA-seq中也會導致可控的3?端偏好,，但對定位于應用長讀長的RNA-seq分析全長轉(zhuǎn)錄組的研究者來說,，即使是低水平的RNA降解，效果也會受限,。因此,，相關(guān)研究者需要在RNA提取后進行嚴格質(zhì)控。其次,，中位讀長長度也會受到文庫制備中的技術(shù)問題與技術(shù)偏好的限制,，例如cDNA合成過程中的截斷或降解的mRNA反轉(zhuǎn)錄成的降解cDNA。最近研發(fā)的高效逆轉(zhuǎn)錄酶具有更好的鏈特異性和更均一的3’-5’轉(zhuǎn)錄本覆蓋,，可能會改善這一過程,。雖然還沒有廣泛使用，但是這些高效逆轉(zhuǎn)錄酶也提高了對結(jié)構(gòu)穩(wěn)定的RNAs(如tRNAs)的覆蓋檢測,，這是其它在基于oligo-dT和全轉(zhuǎn)錄組分析 (WTA) 的方法中使用的逆轉(zhuǎn)錄酶很難達到的效果,。第三，長讀長測序平臺固有的偏好（如長插入文庫在測序芯片上的更不容易進行測序）會降低更長轉(zhuǎn)錄本的覆蓋率,。

長讀長測序 (不管是基于cDNA還是RNA) 因為讀長長,，解決了短讀長測序方法用于轉(zhuǎn)錄異構(gòu)體分析的短板。長讀長方法可以獲得從Poly(A)尾巴到5?帽子的全長轉(zhuǎn)錄本讀長,。因此,，這些方法對轉(zhuǎn)錄本和轉(zhuǎn)錄異構(gòu)體的分析不再依賴于短序列重構(gòu)轉(zhuǎn)錄本或推測轉(zhuǎn)錄本的存在；而是每個測序到的reads都代表它所來源的RNA分子,?；谌LcDNA測序或dRNA-seq的差異基因分析依賴于PacBio和ONT技術(shù)的通量提高。長讀長RNA-seq與深度短讀長RNA-seq技術(shù)結(jié)合的思路正在迅速被研究者用于更全面的分析,，這非常類似于基因組組裝所采取的混合組裝方式,。隨著研究的深入，長讀長和dRNA-seq方法將會揭示：即便在研究的很透徹的物種中,，已經(jīng)鑒定出的基因和轉(zhuǎn)錄本可能也只是冰山一角,。隨著方法的成熟和測序通量的增加,，基于長讀長的差異轉(zhuǎn)錄本分析將會成為常規(guī)研究?；诮M裝的長讀長RNA-seq (synthetic long-read RNA-seq)或其它技術(shù)的發(fā)展對這個領(lǐng)域的影響還有待觀察,。從目前來看，Illumina短讀長RNA-seq依然占據(jù)了該領(lǐng)域的主導地位,。后面我們只會集中討論短讀長測序,。

改良RNA-seq建庫方法

RNA-seq方法源于早期的表達序列標簽 (expressed-sequence tag)和表達芯片技術(shù)，最初用于分析多聚腺苷酸化的轉(zhuǎn)錄本,。但是,，二代測序的應用發(fā)現(xiàn)了這些方法的局限性，雖然在表達芯片中并不明顯,。因此,，在RNA-seq技術(shù)首次發(fā)表后不久，許多文庫制備方法的改進相繼推出,。例如,，片段化RNA而非cDNA可以降低3'/5'偏好，鏈特異性文庫制備方法能夠更好的區(qū)分正鏈和負鏈轉(zhuǎn)錄的基因,，這些改進都能獲得更準確的轉(zhuǎn)錄本豐度估計,。片段化RNA和構(gòu)建鏈特異性文庫很快成了大部分RNA-seq文庫制備試劑盒的標配。這里我們簡要描述了RNA-seq方法的其它改進,，以便研究者可以根據(jù)特定的生物學問題或樣本自身特征進行選擇,。這些改進包括不基于oligo-dT的RNA富集方法，特異性富集3?或5?末端轉(zhuǎn)錄本的方法,，使用UMIs區(qū)分PCR duplicates的方法,，以及針對降解的RNA構(gòu)建文庫的方法。這些方法的組合（也包括dRNA-seq和后面提到的分析其它狀態(tài)的RNA的方法）允許研究者揭示由可變poly(A) (alternative poly(A), APA),，或選擇性啟動子 (alternative promoter)和可變剪接 (alternative splicing)導致的轉(zhuǎn)錄組的復雜性,。

Poly(A)富集的替代方法

大多數(shù)發(fā)表的RNA-seq數(shù)據(jù)都是基于oligo-dT方法富集包含poly(A)尾巴的轉(zhuǎn)錄本，定位于分析轉(zhuǎn)錄組上的蛋白質(zhì)編碼區(qū) （生信寶典注：部分lncRNA也有poly(A)尾巴）,。但是這種方法除了會導致3?端偏好外,，很多不含Poly-A尾巴的非編碼RNA，例如miRNA和增強子RNA不會被測到,。完全不進行選擇而使用全部提取的RNA也不合適,，因為這會導致高達95%的測序數(shù)據(jù)來源于rRNA。因此,，研究者選擇將oligo-dT富集用于mRNA-seq,，移除rRNA進行全轉(zhuǎn)錄組測序（WTA）。短鏈非編碼RNAs（如miRNA）既無法用oligo-dT方法富集，WTA測序中也很難覆蓋,，因此對其研究需要特定的分離建庫方法,，一般是切膠或磁珠分選后直接連接接頭 (sequential RNA ligation，通常構(gòu)建出來都是鏈特異性文庫) （生信寶典注：這一點尤其要注意）,。

WTA生成的RNA-seq數(shù)據(jù)包含編碼和一些非編碼RNA。WTA方法也適用于Poly-A尾巴與轉(zhuǎn)錄本其它部分分開了的降解了的樣品,。移除rRNA有兩種方法,，一種是將rRNAs從總RNA中分離出來（所謂的pull-out法），另一種是使用RNAse H酶降解rRNA,。這兩種方法都需要使用序列特異性和物種特異性的,、能與細胞質(zhì)rRNA (5S rRNA，5.8S rRNA,，18S rRNA和28S rRNA)和線粒體rRNA (12S rRNA和16S rRNA)互補的寡核苷酸探針,。為了簡化人類、大鼠,、小鼠或細菌 (16S和23S rRNA)樣本的處理,，上述探針混合后再加入提取的總RNA中，與其中的rRNA雜交以便下一步的清除,。其它高豐度的轉(zhuǎn)錄本,，例如珠蛋白RNA (globin)或線粒體RNA也可以按照類似的方法去除。Pull-out方法中探針是帶有生物素的,，然后使用鏈霉素包裹的磁珠從總RNA溶液中除去探針-rRNA復合物,，剩余的RNA用于建庫測序，試劑盒有Ribo-Zero (Illumina,，USA) （生信寶典注：還是Illumina取名字霸氣）和RiboMinus (Thermo Fisher,，USA)。RNAse H方法使用RNAse H （NEBNext RNA depletion(NEB,，USA)）和RiboErase (Kapa Biossystems,，USA)降解oligo-DNA:RNA復合物。最近的比較表明,，在RNA質(zhì)量高的前提下,，這兩種方法都可以將產(chǎn)出數(shù)據(jù)中rRNA的比例降低至20%以下。但是,，研究還表示RNase H方法比pull-out法的穩(wěn)定性要好,。另外對應用不同試劑盒獲得的數(shù)據(jù)進行差異基因分析時要注意轉(zhuǎn)錄本長度的偏好性的影響。作者還描述了另外一種類似于RNase H的方法,，效果也不錯但之前沒有報道過,。ZapR方法是Takara Bio的專利技術(shù)，它使用一種酶來降解RNA-seq文庫中的rRNA片段,。相比于oligo-dT RNA測序方法,，rRNA移除建庫方法的一個局限是需要更高的測序深度,，主要是因為文庫中還有一定的rRNA留存。

Oligo-dT和rRNA移除法都可以用于后續(xù)實驗的DGE分析,，研究者們通常會延續(xù)實驗室一直使用的方法或最容易使用的方法,。然而，對于這些方法的選擇需要根據(jù)情況做一些考量,，尤其是那些易降解的樣本,，如果采用WTA方法會檢測到更多的轉(zhuǎn)錄本，但是其實驗成本也高于oligo-dT方法,。

富集RNA 3?端用于Tag RNA-seq以及可變多聚腺苷酸分析 (Enriching RNA 3?ends for Tag RNA- seq and alternative polyadenylation analysis)

標準的短讀長Illumina方法應用于高質(zhì)量差異基因分析時需要對每個樣本測序1000萬到3000萬條（10M到30M條）reads,。如果研究者只關(guān)注基因水平的表達，并且樣本數(shù)目比較多和生物重復比較多時,，或者實驗樣品材料受限時,，建議采用3?tag計數(shù)。由于測序集中在轉(zhuǎn)錄本的3?末端,，需要的測序深度會降低,，就可以降低成本或同時測序更多樣本。富集3?末端也可以用于檢測由于mRNA前體上發(fā)生的選擇性多聚腺苷酸化導致的單個轉(zhuǎn)錄本的poly(A)位點的變化,。

3? mRNA-seq方法中每個轉(zhuǎn)錄本獲得一條測序片段 (tag read),，通常是對其3’末端的測序。tag read的數(shù)目理論上與轉(zhuǎn)錄本的豐度是成正比的,。標簽測序法 (tag-sequencing protocols),，例如QuantSeq (Lexogen, Austria)通常比標準RNA-seq實驗流程更為簡單。標簽測序法采用隨機引物或帶有oligo-dT的引物進行PCR擴增分選出轉(zhuǎn)錄本的3’末端的同時加上接頭序列,，優(yōu)化掉了poly(A)富集,、rRNA移除和接頭連接等步驟。這一方法可以在更低的測序深度條件下達到與標準RNA-seq相當?shù)拿舾行?，因此可以混合更多樣本同時測序,。因為不需要考慮外顯子連接檢測 (exon junction)和基因長度歸一化，這一方法的數(shù)據(jù)分析也簡化了（生信寶典注：其實也是需要考慮的,，轉(zhuǎn)錄本末端或UTR區(qū)也會存在剪接,，具體取決于測序讀長和特定基因的結(jié)構(gòu)。不過如果使用STAR/BWA等有soft-clip機制的比對工具也可以不考慮,。）,。但是，3? mRNA-seq方法可能會受到轉(zhuǎn)錄本序列相似區(qū)域 (homopolymeric region) 導致的引物結(jié)合錯誤進而導致擴增出錯誤的片段的影響,；也只能進行非常有限的轉(zhuǎn)錄異構(gòu)體分析,，這會抵消這一方法因為測序深度需求低帶來的高性價比，尤其是對于那些僅夠一次使用的樣本。

mRNAs的選擇性多腺苷酸化（APA）會產(chǎn)生3? UTR長度不等的轉(zhuǎn)錄異構(gòu)體,。對于一個特定的基因來說,，這不只是多轉(zhuǎn)錄出幾個異構(gòu)體，而是3?UTR中存在的順式調(diào)控元件會影響轉(zhuǎn)錄本自身的調(diào)控,。能夠研究APA的方法可以讓研究者們對miRNA的調(diào)控,、mRNA的穩(wěn)定性和定位、以及mRNA的翻譯有更多理解,。APA法要求是富集轉(zhuǎn)錄本的3?末端,，從而提升檢測信號和靈敏度，而前面提到的3? mRNA-seq標簽測序法則正合適,。其它方法如多聚腺苷酸位點測序 (polyadenylation site sequencing, PAS-seq)法,，首先將mRNA打斷為150 bp左右的片段,，然后使用帶有oligo-dT的引物進行模板置換生成cDNA用于后續(xù)測序,，其中的80%的測序序列來源于3?UTR。TAIL-seq則避免使用oligo-dT,，RNA打斷前,，先移除rRNA，然后在轉(zhuǎn)錄本poly(A)尾巴連接3?接頭,。片段化后,，再加上5?接頭就完成了文庫制備。在RNA-蛋白互作分析方法如交聯(lián)免疫沉淀 (cross-linking immunoprecipitation, CLIP)測序和dRNA-seq中也能評估APA,。

富集RNA 5?末端用于轉(zhuǎn)錄起始位點鑒定 (Enriching RNA 5?ends for transcription start- site mapping)

富集5?端RNA (7-methylguanosine 5?-capped RNA)的測序的方法常用來鑒定啟動子和轉(zhuǎn)錄起始位點(TSSs),，可以做為DGE分析的補充。有多種方法都可以實現(xiàn)這個操作,，但很少作為常規(guī)使用,。在CAGE (cap analysis of gene expression)和RAMPAGE (RNA annotation and mapping of promoters for analysis of gene expression)方法中，使用隨機引物完成cDNA第一條鏈合成后,，mRNA 5?帽子結(jié)構(gòu)上用生物素標記,，然后使用鏈霉親和素富集5’ cDNA。CAGE使用II型限制性內(nèi)切酶切割5?端接頭下游21-27 bp位置生成短cDNA序列,。而RAMPAGE則使用模板置換 (template switching)來生成稍微長一些的cDNA,，進行富集測序。單細胞標簽逆轉(zhuǎn)錄測序技術(shù) (single-cell-tagged reverse transcription sequencing, STRT-seq)能夠在單細胞水平上鑒定TSS位點,。這一方法使用生物素標記的模板置換寡核苷酸來合成cDNA,，磁珠捕獲并在5’端片段化然后測序。CAGE應用到的5?末端標記技術(shù)是由日本理化所 (Riken)開發(fā)用于在早期功能基因研究中最大化獲得全長cDNA的方法,。日本理化所領(lǐng)導的小鼠功能注釋 (FANTOM, Functional Annotation of the Mouse)項目中使用CAGE技術(shù)鑒定了1300多個人類和小鼠原代細胞,、組織和細胞系的TSSs (轉(zhuǎn)錄起始位點)，這充分顯示了CAGE的強大。在最近的一個方法比較研究中,，CAGE也表現(xiàn)最佳,。但是作者同時也說到，僅使用5?末端捕獲測序鑒定出的TSS位點假陽性比較多,，建議結(jié)合其他獨立的方法進一步驗證,，如DNase I測序或H3K4me3染色質(zhì)免疫共沉淀測序 (ChIP-seq)。

使用唯一分子標識符來檢測PCR重復

RNA-seq數(shù)據(jù)通常有較高的重復率 (duplication rates),，即許多測序序列會比對到轉(zhuǎn)錄組的相同位置,。在全基因組測序中，比對到同一位置的序列被認為是PCR擴增引入的技術(shù)噪音,，通常只保留1條用于后續(xù)分析,；而在RNA-seq中，這些重復的序列則因為可能是真實的生物信號而被保留,。高表達的轉(zhuǎn)錄本在樣本中可能有數(shù)百萬份RNA拷貝,，當做為cDNA測序時，產(chǎn)生相同的片段也是合理的,。因此,，在比對 (alignment)過程中，不建議計算去除比對到同一位置的序列,，因為它們代表了真正的生物信號,。尤其是在使用單端測序 (single-end sequencing)時更是如此，因為一對片段只要一端序列相同就會被認為是一個重復 (duplicate),；而雙端測序 (paired-end sequencing)中,，片段化的兩端必須發(fā)生在同樣位置才會導致duplicate，而這個的發(fā)生概率比較低,。但是,，在制備cDNA文庫時，由于PCR的偏好性,，還是會引入duplication reads,；很難去評估PCR引入的重復reads和生物重復reads的比例并把其作為一個質(zhì)控因素校正RNA-seq實驗的結(jié)果。

UMIs被認為是一個處理擴增偏好性的方法,。在cDNA分子擴增前加入隨機UMIs可以用于識別并計算移除PCR引入的重復,，而不影響到基因自身表達引入的重復，進而改善基因表達定量的結(jié)果和評估等位基因的轉(zhuǎn)錄,。如果一對測序reads包含有相同的UMI并且比對到轉(zhuǎn)錄組的同樣位置,，則被認為是技術(shù)引入的重復（對單端測序來說，這里的一對測序reads是測序生成的兩條序列,；對雙端測序來說,，一對測序reads指同時包含左端和右端的兩條測序序列）,。

UMIs已經(jīng)被證明能夠通過降低檢測到的基因表達變化波動和假陽性率改善RNA-seq差異基因的統(tǒng)計分析。因為單細胞數(shù)據(jù)的擴增偏好更嚴重,，UMI的使用對單細胞數(shù)據(jù)結(jié)果可靠性至關(guān)重要,。當使用RNA-seq數(shù)據(jù)進行變異檢測 (variant calling)時，UMIs也非常有用,。高表達的轉(zhuǎn)錄本更容易達到適合變異檢測的高覆蓋率要求,，尤其在考慮了重復reads時，而UMIs可用于移除PCR擴增引入的reads,，從而校正等位基因頻率的計算,。UMIs已成為單細胞RNA-seq (scRNA-seq)的文庫制備試劑盒的標配，也越來越多的用于常規(guī)RNA-seq,。

改善降解了的RNA的分析

RNA-seq文庫制備方法的發(fā)展也促進了低質(zhì)量或降解了的RNA的分析,，例如從臨床獲得的福爾馬林固定石蠟包埋(FFPE)存儲的樣本中的RNA。低質(zhì)量的RNA會導致不均勻的基因覆蓋,，更高的DGE假陽性率和更高的重復率,，與文庫的復雜性呈負相關(guān)。文庫制備方法優(yōu)化的方向是盡量降低RNA降解的影響,。這些方法在開發(fā)基于RNA-seq的診斷技術(shù)中尤為重要,，如類似于基于21個基因RNA特征來預測乳腺癌復發(fā)的OncotypeDX試劑盒（尚不基于測序）類似的檢測工具,。雖然現(xiàn)在有幾種方法可以使用,，但是比較研究顯示兩種方法表現(xiàn)最佳，即RNase H與RNA exome,。如前所述,，RNase H法使用核酸酶消化RNA:DNA復合物中的rRNA，但保留降解的mRNA用于后續(xù)測序,。RNA exome方法使用寡核苷酸探針來捕獲RNA-seq文庫分子,，非常類似于外顯子測序 (exome sequencing)使用的策略。這兩種方法應用簡單,，并都能在保留降解的和片段化的mRNA的前提下降低混入的rRNA的影響,，進而獲得高質(zhì)量的和高穩(wěn)定性的基因表達數(shù)據(jù)。3?末端標記測序技術(shù)與擴增子測序（PCR擴增超過2萬個外顯子）方法也可以用于分析降解的RNA,，但這兩種方法并沒有RNase H方法應用廣泛,。

設(shè)計更好的RNA-seq實驗

好的DGE RNA-seq實驗設(shè)計對獲取高質(zhì)量和有生物意義的數(shù)據(jù)是至關(guān)重要的。特別需要考慮的是生物重復的數(shù)目,、測序深度,、采用單端還是雙端測序。

生物重復與統(tǒng)計檢出力 (replication and experimental power)

實驗中必須包含足夠的生物學重復以捕獲組內(nèi)樣品自身存在的生物差異,。定量分析的可信度更多地取決于生物重復,，而非測序深度或reads長度,。盡管RNA-seq的技術(shù)穩(wěn)定性高于微陣列平臺，但生物系統(tǒng)固有的隨機變異要求進行常規(guī)RNA-seq實驗必須要重復一次,。額外的重復能夠幫助發(fā)現(xiàn)異常樣品,；并且在后續(xù)分析前，如有必要時移除或降低異常樣品的權(quán)重,。確定最佳重復數(shù)需要仔細考慮幾個因素,，包括預期的最小變化幅度 (effect size)、組內(nèi)變異,、可接受的假陽性和假陰性率以及最大能用于實驗的樣本量,，并且可以通過使用RNA-seq實驗設(shè)計工具或統(tǒng)計功效工具進行輔助設(shè)計。（http://www./power.html ）

樣品生物學重復數(shù)據(jù)選擇 1必要性 2需要多少重復,？

確定實驗的正確重復數(shù)并不總是那么容易,。一項48個重復的酵母研究表明，當分析中僅包含3個重復時,，許多用于DGE分析的工具僅檢測到20-40％的差異表達基因,。該研究表明，至少應使用六個生物重復,，這大大超過了RNA-seq文獻中通常報道的三個或四個重復,。最近的一項研究表明，四個重復可能就足夠了,，但它強調(diào)了測量生物學差異的必要性-例如,，在確定出重復數(shù)之前先進行預實驗。對于高度多樣化的樣本（例如來自癌癥患者腫瘤的臨床組織）,，可能需要進行更多重復才能檢測出高可信度的變化,。

確定最佳測序深度

RNA-seq文庫構(gòu)建好后，就需要確定測序深度了,。測序深度是指每個樣品獲得的測序序列數(shù)量,。對于真核基因組中的bulk RNA DGE實驗，通常需要每個樣品大約10–30百萬條測序reads,。但是,，多個物種的比較分析表明，對于最高表達的50%的基因來說,，每個樣本只需要測序1百萬條 reads就可以獲得與測序3千萬條reads相似的表達定量結(jié)果,。如果只關(guān)注最高表達的基因相對大的表達變化，并且有合適的生物學重復,，那么較少的測序就足以產(chǎn)生驅(qū)動后續(xù)實驗的假說,。測序完成后，估計的測序深度可以通過檢查樣品之間reads的分布和繪制飽和度曲線驗證,，并且飽和曲線還可以評估加測是否能提高檢測敏感性,。隨著測序儀測序通量的增加,，將一個實驗的所有樣品混合到一起同時上機測序（甚至在同一個lane里面測序）是控制技術(shù)偏差的標準做法?？偖a(chǎn)出reads數(shù)是樣本數(shù)與每個樣本期望獲得的reads數(shù)的乘積,；如果有必要，混合的文庫測序足夠多的次數(shù)以達到所需的總reads數(shù),?；鞓訙y序需要仔細測定每個RNA-seq文庫的濃度，并假定混合的不同樣品中cDNA的總量相差不大（低方差）,，因此讀取的總reads數(shù)才能均勻地分到各個樣品中,。在進行昂貴的多通道混合測序之前，運行單個lane確認樣品之間cDNA總量相差不大是值得的預操作,。

選擇測序參數(shù)：reads長度和單端或雙端測序,。

最后需要確定的測序參數(shù)包括reads長度以及是生成單端還是雙端reads。

在許多測序應用中,，測序reads的長度對數(shù)據(jù)可用性有很大影響,，更長的測序reads可以覆蓋更多的測序DNA。當使用RNA-seq鑒定DGE時,，影響數(shù)據(jù)的可用性的重要因素是確定每個reads來自轉(zhuǎn)錄組中哪個基因的能力,。一旦可以明確地確定reads位置，測序更長的reads在基于定量的分析中就沒必要了,。對于更定加性的RNA-seq分析（例如鑒定特定isoforms）,，更長的reads可能會更有幫助。

單端測序與雙端測序的問題類似,。在單端測序中,，每個cDNA片段的一個末端（3′或5′）用于產(chǎn)生測序reads,，而雙端測序中每個片段產(chǎn)生兩個測序reads（一個3′和一個5′）,。在需要測序盡可能多核苷酸的實驗中，首選long-read paired-end測序,。在DGE分析中,，用戶只需要計算比對到轉(zhuǎn)錄本的reads數(shù)即可，故不需要對轉(zhuǎn)錄本片段的每個堿基都進行測序,。例如,，將“短”的50 bp的單端測序與“長”的100 bp的雙端測序的DGE分析比較表明單端測序也可以獲得一致的結(jié)果。這是因為單端測序足以確定大多數(shù)測序片段來源的基因,。相同的研究還表明,，短的單端測序會降低檢測轉(zhuǎn)錄isoform的能力，更少的reads會跨越exon-exon junction,。雙端測序還可以幫助消除序列比對 (read mapping)的歧義,，適用于可變外顯子定量 (alternative-exon),，融合轉(zhuǎn)錄本檢測和新轉(zhuǎn)錄本發(fā)現(xiàn) ,尤其在注釋較差的轉(zhuǎn)錄組應用中效果明顯。

實際上,，單端或雙端測序的選擇通常取決于成本或用戶可用的測序技術(shù),。在發(fā)布Illumina NovaSeq之前，在大多數(shù)情況下,，單端測序每百萬條reads的成本要低于paired-end測序,，因此在相同的實驗成本下，可以測序更多的重復或測序更深,。如果需要在獲取大量較短的單端reads與生成較長和/或雙端的reads之間進行選擇,，則測序深度的增加將對提高DGE檢測的敏感性更重要。

RNA-seq數(shù)據(jù)分析

在過去的十年中,，用于分析RNA-seq以確定差異表達的計算方法的數(shù)量已成倍增加,，即使對于簡單的RNA-seq DGE，在每個階段的分析實踐中也存在很大差異,。而且,，每個階段使用的方法的差異以及不同技術(shù)組合形成的分析流程都可能會對從數(shù)據(jù)得出的生物學結(jié)論產(chǎn)生重大影響。最優(yōu)工具組合取決于研究的特定生物學問題以及可用的計算資源,。盡管有多種衡量方式,，但我們對工具和技術(shù)的評估落腳點在它們鑒定出的差異基因的準確性。為了完成這個評估,，至少需要四個不同的分析階段（圖2;表2）,。第一階段把測序平臺生成的原始測序數(shù)據(jù)比對到轉(zhuǎn)錄組。第二階段量化與每個基因或轉(zhuǎn)錄本來源的reads數(shù)量,，構(gòu)建表達矩陣,。該過程可能包括1個或多個子過程如比對，組裝和定量,，或者它也可以一個從讀取計數(shù)生成表達矩陣,。通常有一個第三階段，包括過濾低表達的基因和至關(guān)重要的移除樣品間技術(shù)差異的標準化過程,。DGE的最后階段是構(gòu)建樣本分組和其它協(xié)變量的統(tǒng)計模型,，計算差異表達置信度。

圖2

第1階段-測序reads的比對和組裝

測序完成后,，分析的起點是包含測序堿基的FASTQ文件,。最常見的第一步是將測序reads比對到已知的轉(zhuǎn)錄組（或注釋的基因組），將每個測序reads轉(zhuǎn)換為一個或多個基因組坐標,。傳統(tǒng)上,，該過程是通過幾個不同的比對工具（如TopHat，STAR或HISAT）完成的,，其都依賴參考基因組的存在,。由于測序的cDNA來自RNA,，可能跨越外顯子邊界，因此與參考基因組（包含內(nèi)含子和外顯子）比對時需要進行剪接比對,，即允許reads中出現(xiàn)大片段gap,。

如果沒有可用的包含已知外顯子邊界的高質(zhì)量基因組注釋，或者如果希望將reads與轉(zhuǎn)錄本（而不是基因）相關(guān)聯(lián),，則需要在比對后執(zhí)行轉(zhuǎn)錄組組裝步驟,。諸如StringTie和SOAPdenovo-Trans之類的組裝工具使用比對reads的gap來推測外顯子邊界和可能的剪接位點。轉(zhuǎn)錄本重頭組裝特別適用于參考基因組注釋缺失或不完整的物種,，或者對異常轉(zhuǎn)錄本感興趣（例如在腫瘤組織中）的研究,。轉(zhuǎn)錄組組裝方法受益于雙端測序和/或更長的reads的使用，增加跨越splice junctions的可能性,。但是,，通常不需要從RNA-seq數(shù)據(jù)中從頭做轉(zhuǎn)錄組組裝來確定DGE （生信寶典注：無參分析組裝是必須的）。

最近,，涌現(xiàn)了一些計算效率高的“alignment free”工具,，例如Sailfish，Kallisto和Salmon,，它們將測序reads直接與轉(zhuǎn)錄本關(guān)聯(lián),，而無需單獨的定量步驟。這些工具在定量高豐度（以及長度更長）的轉(zhuǎn)錄本方面表現(xiàn)出很好的性能,。但是,，它們在定量低豐度或短轉(zhuǎn)錄本方面不夠準確。(39個工具,，120種組合深度評估 (轉(zhuǎn)錄組分析工具哪家強))

不同的比對工具如何分配ambiguous reads的策略會影響最后的表達估計,。對于可能來自多個不同基因、假基因或轉(zhuǎn)錄本的多映射reads (multi-map),，這些影響尤為明顯,。對12種基因表達估計方法的比較顯示，某些比對方法低估了許多臨床相關(guān)基因的表達,，這主要取決于對ambiguous reads的處理,。在RNA-seq數(shù)據(jù)的計算分析中，對如何正確分配比對到多個位置的reads進行模型探索仍然是研究的一個重點領(lǐng)域,。一種常見的做法是在定量前過濾掉這些reads，但這會導致結(jié)果產(chǎn)生偏差,。其他方法包括生成包含合并映射重疊區(qū)域的“融合”表達特征,，以及計算每個基因的映射不確定性估計，以用于后續(xù)的置信度的計算,。

第2階段-定量轉(zhuǎn)錄本豐度

將reads比對到基因組或轉(zhuǎn)錄組后,，下一步就是將它們分配給基因或轉(zhuǎn)錄本,，獲得表達矩陣。不同的比較研究表明,，定量過程中采用的方法對最終結(jié)果的影響最大,，甚至比比對工具影響更大。單個基因（即該基因的所有轉(zhuǎn)錄亞型）的定量是基于轉(zhuǎn)錄組注釋計算與已知基因重疊的reads數(shù),。但是,，把短reads分配到特定isoforms則需要統(tǒng)計模型估計，尤其是很多reads不跨越剪接點,，并且不能明確分配給特定isoform時,。即使在僅研究基因水平差異表達的情況下，定量isoform的差異也會獲得更準確的結(jié)果,，尤其是基因在不同條件下主要表達不同長度的isoform時,。例如，如果某個基因的一個isoform在一個樣品組中的長度是另一樣品組中的isoforms的一半,，但表達速率是后者的兩倍,，則純基于基因的定量將無法檢測到這一表達差異。

常用的定量工具包括RSEM,，CuffLinks,，MMSeq和HTSeq，以及上述的無比對直接定量工具,?；趓eads計數(shù)的工具（例如HTSeq或featureCounts）通常會丟棄許多比對的序列，包括那些具有多個匹配位置或比對到多個表達特征的reads,。這可以在隨后的分析中消除同源和重疊的轉(zhuǎn)錄本,。RSEM使用期望最大化模型來分配模糊的reads，而無參考的比對方法（例如Kallisto）則將這些reads用于后續(xù)的定量,，這可能會導致結(jié)果偏差,。轉(zhuǎn)錄本豐度估計可以轉(zhuǎn)換成等效的read計數(shù)，能完成這一轉(zhuǎn)換的部分工具依賴tximport包,。量化步驟結(jié)束后會得到一個合并的表達矩陣,，每個表達特征（基因或轉(zhuǎn)錄本）各占一行，每個樣品各占一列,，中間的值是實際讀數(shù) (reads count)或估計的表達豐度,。

階段3-過濾和標準化

通常，基因或轉(zhuǎn)錄本的reads count需要進行過濾和標準化,，以移除測序深度,、表達模式和技術(shù)偏差的影響。過濾去除在所有樣本中都低豐度表達的基因是很直接的方式，并且已經(jīng)證明可以改善對真正差異表達基因的檢測,。標準化表達矩陣的方法要復雜一些,。簡單的轉(zhuǎn)換可以校正豐度，降低GC含量和測序深度的影響,。如今人們已經(jīng)認識到諸如早期應用的RPKM之類的方法是不夠的,，并已被能夠校正樣本之間更細微差異的方法所替代，例如四分位數(shù)或中位數(shù)歸一化,。（什么,？你做的差異基因方法不合適？）

比較研究表明,，normalization方法的選擇可能對最終結(jié)果和生物學結(jié)論有重要影響,。大多數(shù)基于計算的標準化方法依賴于兩個關(guān)鍵假設(shè)：首先，大多數(shù)基因的表達水平在生物重復中變化不大,；第二,，不同的樣本組總的mRNA水平?jīng)]有顯著差異。而當這些基本假設(shè)不成立時,，就需要仔細考慮是否以及如何執(zhí)行標準化了,。例如，如果一組特定的基因在一個樣品組中高表達,，而相同的基因加上另一組基因在另一個樣品組中表達,，那么簡單地標準化測序深度是不合適的，因為在第二個樣本組中相同數(shù)目的reads會分給更多數(shù)目的基因,。標準化方法如edgeR所使用的的M-值的加權(quán)截尾均值 (trimmed mean of M-values , TMM)可以處理這一情況,。確定合適的標準化方法是困難的；一種選擇是嘗試使用多種方法進行分析,，然后比較結(jié)果的一致性,。如果結(jié)果對標準化方法高度敏感，則應進一步探索數(shù)據(jù)以確定差異的來源,。必須注意,，這一比較不會被用于選擇與原始假設(shè)吻合的結(jié)果的歸一化方法。

解決此類問題的一種方法是使用spike-in對照RNA-即在文庫制備過程中引入預定濃度的外源RNA序列,。RNA-seq常用的spike-in有 External RNA Controls Consortium mix (ERCCs),，spike-in RNA variants (SIRVs)和sequencing spike-ins (Sequins)。由于spike-in的RNA濃度是預先知道的,，并且濃度與產(chǎn)生的reads的數(shù)量直接相關(guān),，因此可以校準樣品中轉(zhuǎn)錄本的表達水平。有人認為,，如果沒有spike-in對照,，則不能正確地分析總體表達變化較大的項目。然而,，在實踐中,，可能難以始終如一地以預設(shè)水平摻入spike-ins ，并且它們在標準化基因水平上的reads計數(shù)時比在轉(zhuǎn)錄本水平上更可靠,，因為單個isoform可以在樣品中以顯著不同的濃度表達,。目前，盡管已發(fā)表的RNA-seq DGE實驗中spike-in對照并未得到廣泛使用,，但隨著單細胞實驗的開展這一狀況可能會改變,，因為單細胞RNA-seq中spike-in應用廣泛，當然前提是這個技術(shù)能進一步優(yōu)化達到穩(wěn)定的水平,。

階段4-差異表達分析

獲得表達矩陣后,，就可以構(gòu)建統(tǒng)計模型評估哪些轉(zhuǎn)錄本發(fā)生了顯著的表達改變。有幾個常用工具可以完成此任務,；一些基于基因水平的表達計數(shù),，其它的基于轉(zhuǎn)錄本水平的表達計數(shù)?；蛩降墓ぞ咄ǔＲ蕾囉诒葘Φ膔eads計數(shù),，并使用廣義線性模型來進行復雜實驗設(shè)計的評估。這些工具包括EdgeR,，DESeq2和limma + voom等工具,，這些工具計算效率高并且彼此之間結(jié)果穩(wěn)定性好。評估差異isoforms表達的工具,，例如CuffDiff,，MMSEQ和Ballgown，往往需要更多的計算資源,，并且結(jié)果的變化也更大,。但是，在差異表達工具應用之前的操作（即關(guān)于比對,、定量,、過濾和標準化）對最終結(jié)果的影響更大。

表2

其它非bulk RNA分析

來自組織和/或細胞群體的RNA-seq徹底革新了我們對生物學的理解,，但是它無法簡單地用于解析特定的細胞類型,，并且不能保留空間信息，這些對于理解生物系統(tǒng)的復雜性都是至關(guān)重要的,。使用戶能夠處理非bulk RNA的方法與標準RNA-seq protocols非常相似,，但是可以解決的問題卻截然不同。單細胞測序已經(jīng)揭示了在過去我們認為研究透徹的疾病中存在著未知的細胞類型,，例如發(fā)現(xiàn)肺離子細胞 (ionocyte cells),，這可能與囊性纖維化的病理學機制有關(guān)。空間分辨率的RNA-seq對實體組織中細胞間相互作用也有了新的發(fā)現(xiàn),，例如揭示成年心臟組織中存在一小部分胎兒標志物基因表達的細胞群體,。在可預見的將來，Bulk RNA-seq將仍然是占主導地位且有價值的工具,。但是,，單細胞實驗和分析方法正在被研究人員迅速采用，并且隨著空間RNA-seq方法的成熟,，它們也有可能成為常規(guī)RNA-seq工具的一部分,。兩種方法都將提高我們探究多細胞生物復雜性的能力，并且可能都需要與bulk RNA-seq方法結(jié)合使用,。在這里,，我們簡要介紹了主要的單細胞和空間分辨轉(zhuǎn)錄組方法，它們與bulk RNA-seq的區(qū)別以及用戶需要考慮的新問題,。

圖3

單細胞分析

scRNA-seq最早于2009年報道,，方法是在含有裂解緩沖液的Eppendorf管中分離單個卵母細胞。其在新生物學問題的應用,，以及可用的實驗和計算方法發(fā)展之快以至于最新的綜述也迅速過時了,。每種scRNA-seq方法都需要解離實體組織，分離單個細胞（使用非常不同的方法）,，并對其RNA進行標記和擴增以進行測序,，并且所有步驟都脫胎于bulk RNA-seq protocols。（單細胞轉(zhuǎn)錄組教程匯總）

機械分解和collagenase及DNase的酶解在單細胞懸浮液中產(chǎn)生的活細胞比例最高,，但是這一比例具有高度組織特異性,，最好根據(jù)經(jīng)驗確定，并且要非常小心,。一旦制備了單細胞懸液,，就可以通過各種方法分離單個細胞（圖3a）;由于大多數(shù)實驗室都可以使用流式細胞儀，因此最容易獲得的方法是將細胞直接分選到含有裂解緩沖液的微量滴定板中,。對于更高通量的實驗,，存在多種用于分離細胞的技術(shù)，但需要構(gòu)建或購買特定的單細胞儀器,。單個細胞可以在微流體芯片中進行物理捕獲,，或按照泊松分布模型加載到納米孔設(shè)備中，也可以通過基于液滴的微流控技術(shù)（例如在Drop-Seq,，InDrop中）分離單細胞并與后續(xù)反應試劑包裹在一個液滴中,，或者采用原位序列條形碼標記（例如單細胞組合索引RNA測序（sci-RNA-seq）和基于分池連接的轉(zhuǎn)錄組測序（split-pool ligation-based transcriptome sequencing, SPLiT-seq））。單細胞分離后會被裂解釋放RNA到溶液中以進行cDNA合成,，并用于RNA-seq文庫制備,。通常在文庫制備過程中會使用PCR擴增單個細胞的RNA,。這一步擴增會引入PCR偏差，需要使用UMI進行校正,。盡管由于逆轉(zhuǎn)錄過程符合Poisson采樣分布,，但只有10–20％的轉(zhuǎn)錄本會被逆轉(zhuǎn)錄，限制了轉(zhuǎn)錄本檢測的敏感性,，不過各種方法都可以生成可用的數(shù)據(jù),。在濕實驗室之外,，計算方法也在迅速發(fā)展,，并且最近出現(xiàn)了關(guān)于scRNA-seq實驗的設(shè)計指南。方法學的飛速發(fā)展意味著scRNA-seq方法的技術(shù)會快速過時,。盡管如此,，Ziegenhain等人提供了scRNA-seq方法的綜述，強調(diào)了UMI在數(shù)據(jù)分析中的重要性,，并展示了所比較的的六種方法中哪一種最敏感,。但是，他們的研究不包括被廣泛采用的10X Genomics技術(shù),。

用戶選擇scRNA-seq方法時應考慮的主要因素包括他們是否需要測序全長轉(zhuǎn)錄本,，測序更多細胞（廣度）或每個細胞測序更深獲得更多轉(zhuǎn)錄本（深度）和實驗預算之間的權(quán)衡。全長scRNA-seq方法通常具有較低的通量,，因為每個細胞需要獨立處理直到獲得最終的scRNA-seq庫,。然而，這一方法允許用戶研究可變剪接和等位基因特異性表達,。非全長檢測方法只測序轉(zhuǎn)錄本的3’或5’末端,，這在檢測isoforms表達時會受限，但是由于在單個細胞cDNA合成后可以pool到一起,，因此可以分析的細胞數(shù)量要高出2-3個數(shù)量級,。單細胞測序的廣度是指同時測序的細胞、組織或樣品的數(shù)量,，而深度是指給定數(shù)量的測序reads可分析覆蓋多少轉(zhuǎn)錄本,。盡管實驗中能測序的細胞數(shù)量是由選擇的方法決定的，但它確實具有一定的靈活性,，隨著所分析的細胞數(shù)量的增加,，增加的測序成本通常會限制轉(zhuǎn)錄組測序的深度。因此,，可以根據(jù)廣度和深度這兩個維度來評估不同的scRNA-seq系統(tǒng),。通常，基于X孔板 (plate-based)的方法或微流控方法通常捕獲最少的細胞,，但每個細胞檢測更多的基因,，而基于液滴的系統(tǒng)可用于分析最大數(shù)量的細胞,，如有的項目一次分析超過一百萬個細胞。

scRNA-seq的發(fā)展正在推動大規(guī)模的細胞圖譜項目,，以期確定生物體或組織中所有細胞類型,。Human Cell Atlas和NIH Brain Initiative項目分別對人體和大腦中存在的所有細胞類型進行測序。The Human Cell Atlas旨在在第一階段對3千萬至1億個細胞進行測序,，并且隨著技術(shù)的發(fā)展,，其廣度和深度將不斷增加。該項目的最新成果包括發(fā)現(xiàn)肺離子細胞 (ionocyte cells),，以及發(fā)現(xiàn)兒童和成人的腎臟癌起源于不同細胞類型,。但是，研究者應該意識到scRNA-seq技術(shù)幾乎可以應用于任何生物體,。最近,，對擬南芥根細胞原生質(zhì)體的單細胞分析表明，即使植物細胞堅硬的細胞壁都不是分離單細胞并且進行測序的障礙,。scRNA-seq正在迅速成為生物學家工具箱的標配,，并可能在10年內(nèi)像今天的bulk RNA-seq一樣廣泛使用。

空間分辨的RNA-seq方法

當前的bulk和scRNA-seq方法為用戶提供了有關(guān)組織或細胞群體的高度詳細的數(shù)據(jù),，但都沒有保留細胞的空間位置信息,，這降低了確定細胞所處環(huán)境與基因表達之間關(guān)系的能力。實現(xiàn)空間轉(zhuǎn)錄組學研究方法的兩個技術(shù)是“空間編碼” (spatial encoding)和“原位轉(zhuǎn)錄組學” (in situ transcriptomics),?？臻g編碼方法在RNA-seq文庫制備過程中記錄空間信息，方法是分離空間固定的細胞 (spatially restricted cells)（例如通過激光捕獲顯微切割（LCM））,，或根據(jù)分離前的位置加入條形碼編碼 (從組織切片中捕獲mRNA),。原位轉(zhuǎn)錄組學方法是在組織切片內(nèi)的細胞進行RNA進測序或RNA成像獲得表達數(shù)據(jù)。我們推薦對此感興趣的讀者閱讀最近的相關(guān)綜述以獲得更多了解,。

LCM配合RNA-seq已成功從組織切片中分離和測序單個細胞或特定區(qū)域,。盡管需要專用設(shè)備，但LCM在許多機構(gòu)中廣泛可用,。盡管它可以實現(xiàn)高空間分辨率,，但是卻很費力，因此很難做大規(guī)模,。在Spatial Transcriptomics（美國10X Genomics公司）和Slide-seq方法中,，采用寡核苷酸芯片 (oligo- arrayed microarray slides)和布滿寡核苷酸的凝珠 (densely packed oligo-coated beads) 直接從冷凍組織切片中捕獲RNA進行測序。寡核苷酸包含spatial barcode,，UMI和oligo-dT引物,，可唯一識別每個轉(zhuǎn)錄本及其位置。測序reads比對回玻片坐標獲得空間基因表達信息,。已經(jīng)證明,，Spatial Transcriptomics可用于多種物種的組織,，包括小鼠腦和人乳腺癌組織、人心臟組織和擬南芥花序組織,。Slide-seq是一項最新開發(fā)的技術(shù),，已顯示可用于小鼠大腦的冷凍切片分析。這些直接的mRNA捕獲方法不需要專門的設(shè)備,，具有相對簡單的分析方法,，并且可能大規(guī)模應用于許多組織。但是,，有兩個重要的問題有待解決,。首先，該技術(shù)只能應用于新鮮的冷凍組織,。其次,，分辨率受到芯片大小和寡核苷酸凝珠間距的限制；當前應用的芯片大小分別為6.5×7 mm和3×3 mm,，限制了可以檢測的組織切片的大小。Spatial Transcriptomics的凝珠直徑為100 μm,，間隔為100 μm,，這意味著它們不夠小或不夠密，以致無法實現(xiàn)單細胞分辨率,。Slide-seq的凝珠 (beads)小得多,，直徑僅為10 μm，并且堆積致密,，提供了十倍的空間分辨率,，大約一半的beads可以獲得單個細胞數(shù)據(jù)。計算整合分析組織消化分離后scRNA-seq與空間編碼數(shù)據(jù)可以提高分辨率,，但是還需要隨著技術(shù)的發(fā)展這才能成為常規(guī)的RNA-seq工具,。

能替代上述空間分辨RNA-seq方法的技術(shù)包括原位測序和基于成像的單分子熒光原位雜交技術(shù)。與RNA-seq方法相比,，這些方法產(chǎn)生的轉(zhuǎn)錄組譜更窄（能檢測的轉(zhuǎn)錄本更少）,，但可直接檢測RNA，而靶向方法則可分析低豐度轉(zhuǎn)錄本,。同時,，它們提供有關(guān)組織結(jié)構(gòu)和微環(huán)境的信息，并可生成亞細胞數(shù)據(jù),。雖然取得了很多進展,，但基于成像的方法的主要局限性是對高分辨率或超高分辨率顯微鏡與自動流控相結(jié)合的需求，以及成像所花費的時間可能長達數(shù)小時,，甚至數(shù)天,。相較于測序成本以快于摩爾定律預測的速度下降,，讓基于成像的系統(tǒng)能進行高通量分析處理的機會卻很有限。

目前,，上述所有提到的空間轉(zhuǎn)錄組學方法都受到無法生成深度轉(zhuǎn)錄組數(shù)據(jù),、細胞分辨率和/或成本（時間和/或金錢）非常高的限制，但是相關(guān)方法正在迅速改進,，并且已經(jīng)應用于臨床樣品,。用于空間組轉(zhuǎn)錄組學分析的特定計算方法開始出現(xiàn)。此外,，原位RNA測序和基于成像的方法的進步已使獲得10^3至10^5個細胞的轉(zhuǎn)錄組數(shù)據(jù)成為可能,，這于基于液滴的單細胞方法可獲得的細胞量相似。未來的發(fā)展可能會使空間轉(zhuǎn)錄組學可以被更廣泛的用戶使用,。但是,，大多數(shù)用戶可能不太需要真正的單細胞或亞細胞分辨率。這樣,，對檢測更多轉(zhuǎn)錄本的需求和對廣泛的組織或樣品的適用性可能會推動這些技術(shù)在特定領(lǐng)域的發(fā)展,。如果可以克服空間轉(zhuǎn)錄組技術(shù)的這些局限性，那么它可能會被廣泛采用,。

非穩(wěn)定狀態(tài)RNA的分析

DGE研究使用RNA-seq來測量穩(wěn)態(tài)mRNA水平,，這是通過平衡mRNA轉(zhuǎn)錄、加工和降解的速率來維持的,。但是,，RNA-seq也可用于研究轉(zhuǎn)錄和翻譯的過程和動態(tài)變化，這些研究為基因表達研究提供了新的視角,。

捕獲新生RNA測量活躍轉(zhuǎn)錄

基因表達實質(zhì)上是一個動態(tài)過程,，DGE分析無法檢測復雜轉(zhuǎn)錄響應過程中的細微和快速變化，也不能鑒定不穩(wěn)定的非編碼RNA（例如增強子RNA）,。RNA-seq可用于定位TSS并定量正在轉(zhuǎn)錄的新生RNA,，從而能夠研究RNA動力學。但是,，與DGE分析相比,，新生RNA的研究具有挑戰(zhàn)性，因為它們的半衰期短且豐度低,。因此,，了解RNA動力學的重要性催生了多種分析新生RNA研究方法。這些方法揭示了啟動子的不同轉(zhuǎn)錄程度,，轉(zhuǎn)錄激活狀態(tài)的RNA聚合酶II（Pol II）在啟動子近端的停留是基因表達調(diào)控的關(guān)鍵步驟,，新生RNA可以直接調(diào)節(jié)轉(zhuǎn)錄，并且它的序列和結(jié)構(gòu)影響轉(zhuǎn)錄延伸,、暫停和停滯 (stalling),，以及染色體修飾酶和增強子RNAs的結(jié)合,。旨在區(qū)分新轉(zhuǎn)錄的RNA和其他RNA的新生RNA-seq方法可以大致分為三類：run-on方法，基于Pol II免疫沉淀（IP）的方法和代謝標記方法（圖4）,。

圖4

Run-on方法依賴于轉(zhuǎn)錄時摻入核苷酸類似物,，用于從總RNA中富集新生RNA，并可以測量RNA瞬時轉(zhuǎn)錄（圖4a）,。Global run-on sequencing（GRO-seq）和precision nuclear run-on sequencing（PRO-seq）通過在轉(zhuǎn)錄過程中分別將5-溴尿苷5′-三磷酸（BrU）或生物素標記的核苷酸摻入新生RNA中來實現(xiàn)這一目標,。在添加外源生物素標記的核苷酸并恢復轉(zhuǎn)錄之前，分離細胞核并洗去內(nèi)源核苷酸,。測序免疫沉淀或親和層析富集的新生轉(zhuǎn)錄本可以確定轉(zhuǎn)錄組范圍內(nèi)活性轉(zhuǎn)錄的RNA聚合酶的位置和活性,。取決于轉(zhuǎn)錄時摻入的標記核苷酸的數(shù)量，GRO-seq只能達到10-50 bp的分辨率,，這降低了TSS定位的精度,。PRO-seq可實現(xiàn)單堿基分辨率的定位，因為在生物素核苷酸摻入后轉(zhuǎn)錄會停止,，從而可以確定摻入位點,。Run-on方法在概念上很簡單-僅將摻入修飾了的核苷酸的RNA分子富集用于測序，但實際上,，背景非新生RNA的存在會增加所需的讀取深度,。這些方法的使用揭示了在啟動子上發(fā)散或雙向轉(zhuǎn)錄起始的程度，并確定了增強子RNA在調(diào)節(jié)基因表達中的作用,。通過結(jié)合對5′-帽RNA的特異性富集，GRO-cap,，PRO-cap或小的5′-帽RNA測序（START-seq）提高了檢測轉(zhuǎn)錄起始的敏感性和特異性和捕獲可能在轉(zhuǎn)錄過程中被加工去除的RNA,，減少轉(zhuǎn)錄后加帽的RNA產(chǎn)生的背景信號。

Pol II IP方法,，例如native elongating transcription sequencing (NET-seq) 和native elongating transcript sequencing for mammalian chromatin (mNET-seq),，使用anti-FLAG (for FLAG-tagged Pol II) 或其它結(jié)合Pol II C末端功能域（CTD）的各種抗體拉下Pol II相關(guān)的RNA。盡管非新生的Pol II結(jié)合的RNA和背景mRNA會導致更高的測序深度并混淆分析,，但富集測序與這些染色質(zhì)復合物相關(guān)的新生RNA可用于繪制TSS位點,。NET-seq可能特異性較低，與Pol II強相關(guān)的任何RNA都可能污染新生RNA的富集,，NET-seq數(shù)據(jù)中存在的tRNA和小核仁RNA可以說明這一點,。在mNET-seq中使用的多種CTD抗體揭示了CTD修飾調(diào)控轉(zhuǎn)錄的機制，檢測RNA加工中間體并能夠?qū)⑻囟≒ol II的新生RNA定位于TSS,。然而,，這些能力是以更復雜的實驗為代價的，需要更多的細胞和更高的總體測序成本,。

用核苷酸類似物4-硫尿苷（4 sU）進行代謝標記 (metabolic pulse-labelling)可以鑒定新生的RNA（圖4c）,。但是,，在需要較長標記時間的方法中，大多數(shù)轉(zhuǎn)錄本都會被標記,，限制其靈敏度,。通過特異地靶向RNA的3′末端（即最接近RNA聚合酶的新轉(zhuǎn)錄的RNA），瞬時轉(zhuǎn)錄組測序（TT-seq）和硫醇（SH）-連接的烷基化RNA代謝測序（SLAMseq）減少5’RNA的信號,。TT-seq將標記時間限制為5分鐘,，以便僅標記新轉(zhuǎn)錄本的3′末端，并且在生物素親和純化之前增加RNA片段化步驟以富集標記的RNA,。SLAM-seq整合了3′mRNA-seq文庫制備（盡管它也可以使用其他文庫制備方法,，例如miRNA文庫），只測序標記了的新轉(zhuǎn)錄的RNA,，而不是整個轉(zhuǎn)錄本,。另外，在SLAM-seq中,，在RNA提取后加入碘乙酰胺,，用于烷基化整合到新生的RNA中的4 sU殘基。這一修飾誘導了逆轉(zhuǎn)錄依賴的胸腺嘧啶至胞嘧啶（T> C）核苷酸轉(zhuǎn)換,，在測序分析中會被檢測為“突變”,，從而直接鑒定出4 sU整合位點。但是,，低整合率意味著只有少數(shù)4 sU位點被轉(zhuǎn)換為了胞嘧啶,，限制檢測敏感性。TUC-seq和TimeLapse-seq這兩種方法也使用T> C突變分析,，但不富集3’末端,。他們已用于探索細胞干擾后的轉(zhuǎn)錄響應和測量RNA半衰期。

用于新生RNA分析的方法尚未直接做過比較,。檢測新生RNA的測序方法都受到非特異性背景和/或降解的RNA混入的負面影響,，使得測序需要更高的深度。通過僅測序RNA 3′末端,，PRO-seq,，TT-seq和SLAM-seq中非新生RNA的影響會被降低，但是幾乎沒有證據(jù)表明任何一種方法會優(yōu)于其他方法,。親和層析捕獲比較費力,，并且需要比代謝標記法更高的起始RNA，但是確定標記 (pulse-labelling)所需的時間很復雜,，標記時間短時后續(xù)用于分析的RNA也會少,，限制了檢測敏感性。近來組織特異性RNA標記技術(shù)和用于“突變”分析的新計算方法的發(fā)展，可能會促使用戶對新生RNA和其他RNA的檢測從生化（基于生物素的）富集轉(zhuǎn)換為生信富集,。新生RNA檢測方法的進一步發(fā)展以及它們與其他方法（例如空間轉(zhuǎn)錄組或RNA–RNA和RNA–蛋白質(zhì)相互作用方法）的結(jié)合,，將使我們對轉(zhuǎn)錄過程有更深入的了解。

核糖體圖譜定量活性轉(zhuǎn)錄

RNA-seq的主要重點在于分析樣品中現(xiàn)存的mRNA的種類和數(shù)量,，但是mRNA的存在并不直接對應于蛋白質(zhì)的產(chǎn)生,。兩種方法-多聚核糖體圖譜 (polysomal profiling)和Ribo-seq技術(shù)允許我們跳出轉(zhuǎn)錄研究翻譯組。核糖體翻譯mRNA是受到高度調(diào)控的,，蛋白質(zhì)水平主要由翻譯活性決定,。Polysomal profiling和Ribo-seq幫助研究一個轉(zhuǎn)錄本上結(jié)合了多少核糖體及它們在轉(zhuǎn)錄本上的分布規(guī)律（圖5）。這允許我們推斷在特定時間或細胞狀態(tài)下哪些轉(zhuǎn)錄本正在活躍翻譯,。兩種方法均假設(shè)mRNA上的核糖體密度與蛋白質(zhì)合成水平相關(guān),。樣品比較分析發(fā)現(xiàn)在發(fā)育過程中或翻譯失調(diào)相關(guān)疾病中，如纖維化,，阮病毒病或癌癥,，處理前后隨著時間推移的核糖體動力學。

圖5

Polysome profiling多核糖體分析使用蔗糖梯度超速離心法將多個核糖體結(jié)合的mRNA (polysomal fraction)與單個或無核糖體結(jié)合的mRNA (monosomal fraction)分離分別用于RNA-seq文庫制備（圖5a）,。在polysomal fraction比monosomal fraction中檢測到更高豐度的mRNAs翻譯活性更高,。該方法不僅可以推斷單個mRNA的翻譯狀態(tài)，還可以生成核糖體占有率和密度的高分辨率圖譜（盡管它無法確定核糖體的位置）,。后續(xù)也對原始方法進行了一些改進,。例如，使用非線性蔗糖梯度改善了在不同濃度蔗糖溶液臨界濃度處多聚核糖體mRNA的收集,；應用Smart-seq文庫制備方法可以檢測低至10 ng的多聚核糖體mRNA,；使用更高分辨率的蔗糖梯度和深度測序允許檢測轉(zhuǎn)錄本異構(gòu)體特異性翻譯。然而,，多核糖體譜分析只能產(chǎn)生相對低分辨率的翻譯譜,，并且是需要專門設(shè)備，限制了其廣泛使用,。

Ribo-seq基于RNA印記，最初是在酵母中開發(fā),。它使用環(huán)己酰胺抑制翻譯延伸進而導致核糖體停滯在mRNA上,。用RNase I消化mRNA會留下核糖體保護的20–30個核苷酸印記，用于后續(xù)構(gòu)建RNA-seq文庫（圖5b）,。Ribo-seq可以獲得高分辨率翻譯譜,，同時檢測單個轉(zhuǎn)錄本上核糖體豐度和定位。能夠獲得多聚核糖體分析無法檢測到的核糖體在轉(zhuǎn)錄本上位置的分布,，意味著可以檢測到影響蛋白質(zhì)表達調(diào)控的翻譯暫停事件 (translation pausing),。Ribo-seq技術(shù)的優(yōu)化包括緩沖液和酶的優(yōu)化，可以更清楚地揭示Ribo-seq數(shù)據(jù)的3 bp周期性，以及barcode和UMI的使用可以確定單分子事件,。盡管最近開發(fā)了用于尋找開放閱讀框,，用于差異或isoforms水平翻譯分析和用于研究密碼子偏好性的特定工具，但標準RNA-seq工具仍可用于計算分析,。Ribo-seq的主要局限性在于依賴超速離心和由于核酸酶批次間活性的差異需要憑經(jīng)驗確定消化條件,。

前面提到的方法不能區(qū)分翻譯起始、延伸和終止的信號,，但是對Ribo-seq的改進使得可以對翻譯動力學進行進一步研究,。定量翻譯起始測序（QTI-seq）通過化學“凍結(jié)”富集起始核糖體，同時從相關(guān)mRNA中去除延伸核糖體來定位翻譯起始位點 (生信寶典注：原文寫的是maps transcription initiation sites,，應該是筆誤),。在組裝成熟核糖體之前，Translation complex profile sequencing (TCP-seq）通過富集與成熟核糖體RNA組裝前的40S核糖體小亞基結(jié)合的RNA來定位翻譯起始位點,。同時,，由于這種方法保留了核糖體的完整性，因此也可以分析和比較80S核糖體部分,，從而獲得更完整的翻譯動力學分析（圖5b）,。

所有的翻譯組方法在概念上都是相似的；他們假設(shè)mRNA核糖體密度與蛋白質(zhì)合成水平相關(guān),。盡管它們的樣品制備方案不同,，但是都需要大量的起始細胞。最終,，可能需要將它們與RNA-seq結(jié)合以了解基因表達水平,，并與蛋白質(zhì)組學結(jié)合以確定蛋白質(zhì)水平，才能全面了解mRNA翻譯,。如果想詳細了解翻譯組分析,，文中也推薦了其它綜述。

超越基因表達分析

RNA在其他生物分子和生物過程（例如剪接和翻譯）的調(diào)控中起著重要作用,，這些過程涉及RNA與各種蛋白質(zhì)和/或其他RNA分子的相互作用,。RNA-seq可用于探究分子內(nèi)和分子間RNA-RNA相互作用（RRI），或RNA與蛋白質(zhì)的互作,，從而可以更深入地了解轉(zhuǎn)錄和翻譯過程（圖6）,。為互作組 (interactome)分析而開發(fā)的各種方法都有一個共同點：富集相互作用的RNA。一些方法利用了天然的生物相互作用,，另一些方法則在目標分子之間發(fā)生瞬時結(jié)合或共價結(jié)合,。大多數(shù)使用抗體，親和層析或探針雜交來富集用于測序的RNA,。在這里,，我們簡要介紹基于RNA-seq的結(jié)構(gòu)組 (structurome)和互作組 (interactome)。

圖6

通過分子內(nèi)RNA相互作用探測RNA結(jié)構(gòu)

核糖體RNA和tRNA構(gòu)成細胞的大部分RNA。它們與其他有特定結(jié)構(gòu)的非編碼RNA一起在基因調(diào)控到翻譯的多種細胞過程發(fā)揮作用,。用于解析RNA結(jié)構(gòu)的方法主要有兩種,，分別是基于核酶的方法和化學探針法。核糖核酸酶消化法于1965年首次用于確定（tRNA-Ala）RNA結(jié)構(gòu),。在隨后的40年中開發(fā)了化學方法,，例如基于引物延伸化學分析進行選擇性2′-羥基乙酰化法（SHAPE）,，可以在堿基對分辨率下確定tRNA-Asp的結(jié)構(gòu),。但是，只有將各種核酶法和化學法與RNA-seq結(jié)合使用,，才能進行全轉(zhuǎn)錄組范圍而非單個RNA水平的結(jié)構(gòu)分析,，這會加深我們關(guān)于RNA對結(jié)構(gòu)組復雜性和重要性的理解。在這里,，我們著眼于核酶法和化學探針法之間的主要差異（圖6a),。請閱讀Strobedl的綜述做更全面的了解。

核酶法,，例如RNA結(jié)構(gòu)并行分析法（PARS,， parallel analysis of RNA-structure）和片段測序（FRAG-seq, fragmentation sequencing），使用可以消化單鏈RNA（ssRNA）或雙鏈RNA（dsRNA）的核酶,。核酸酶消化后剩余的RNA用作RNA-seq文庫制備,。隨后通過對所得RNA-seq數(shù)據(jù)進行計算分析，確定結(jié)構(gòu)化（雙鏈）和非結(jié)構(gòu)化（單鏈）區(qū)域,。核酸酶簡單易用并允許對ssRNA和dsRNA進行研究,，但由于核酸酶消化的隨機性，它們的分辨率比化學法要低,。此外,，核酶的大體型使得它們不能進入細胞，進而不適用于體內(nèi)研究,。

化學映射方法使用與RNA分子反應的化學探針標記結(jié)構(gòu)化或非結(jié)構(gòu)化核苷酸,。這些標記可阻止逆轉(zhuǎn)錄或?qū)е耤DNA誤整合 (micincorporation)，進而可通過對RNA-seq reads進行測序和分析以獲得結(jié)構(gòu)組學結(jié)果,。SHAPE測序（SHAPE–seq）通過與RNA骨架的核-2′-羥基反應來標記未配對的ssRNA,，發(fā)夾環(huán)中的堿基堆積會降低標記效率。Structure–seq和硫酸二甲酯測序（DMS-seq, dimethyl sulfate ）用DMS標記腺嘌呤和胞嘧啶殘基,，阻斷了逆轉(zhuǎn)錄，使得能夠通過分析所得的截斷cDNA推斷出RNA結(jié)構(gòu),。SHAPE和突變圖譜分析（SHAPE–MaP）和DMS突變圖譜分析（DMS–MaPseq）都優(yōu)化了實驗條件提高逆轉(zhuǎn)錄酶的合成能力并防止cDNA截斷,。相反，化學標記會導致誤摻入事件，然后使用RNA-seq數(shù)據(jù)分析這些“突變”以揭示RNA結(jié)構(gòu),?；瘜W探針是小分子，可以在體內(nèi)研究更具生物學意義的結(jié)構(gòu)體,；由于細胞內(nèi)環(huán)境的動態(tài)變化,，數(shù)據(jù)的變異度也會高一些?；瘜W法還可以用于進行新生RNA的結(jié)構(gòu)分析,，并揭示共轉(zhuǎn)錄RNA折疊的順序。

核酸酶和逆轉(zhuǎn)錄阻斷法通常產(chǎn)生短RNA片段,，并且僅檢測單個消化位點或化學標記,，而誤摻入和突變檢測方法每條測序reads可能檢測到多個化學標記位點。這些方法都不是沒有偏好的,，逆轉(zhuǎn)錄阻斷效率不會達到100％,，誘導突變的化學標記可能會阻斷cDNA的合成，這兩個因素都會影響數(shù)據(jù)的分析解釋,。Spike-in對照可能會提高結(jié)構(gòu)組分析的質(zhì)量,，但尚未得到廣泛使用。SHAPE方法的比較揭示了僅在體內(nèi)實驗中明顯的效率差異,，強調(diào)了比較此類復雜方法時需要特殊注意,。

這些方法揭示了RNA結(jié)構(gòu)在基因和蛋白質(zhì)調(diào)控機制中的新作用。例如,，對DMS數(shù)據(jù)的分析發(fā)現(xiàn),，RNA結(jié)構(gòu)可以調(diào)節(jié)APA，并可能減緩催化活性區(qū)域的翻譯,，從而為蛋白質(zhì)折疊提供更多時間減少錯誤折疊事件,。可能需要結(jié)合使用多種結(jié)構(gòu)RNA-seq方法才能獲得完整的結(jié)構(gòu)組圖譜,。隨著該領(lǐng)域研究的深入,，我們可能會發(fā)現(xiàn)RNA結(jié)構(gòu)與發(fā)育或疾病狀態(tài)之間的聯(lián)系。最近的結(jié)果表明異常RNA結(jié)構(gòu)在重復擴增導致的疾病中可能有調(diào)控作用,。最終,，結(jié)構(gòu)組分析可以促使開發(fā)靶向結(jié)構(gòu)清晰的RNA的小分子，從而開辟疾病治療藥物開發(fā)的新領(lǐng)域,。

探索RNA–RNA分子間互作（RRI）

分子間RRI在轉(zhuǎn)錄后調(diào)控中起重要作用,，例如miRNA靶向3’UTR。已經(jīng)開發(fā)的用于研究分子間RRI的工具,，可用于靶向和全轉(zhuǎn)錄組的分析,。這些方法有共同的操作流程,，其中RNA分子在斷裂和就近自連之前先進行交聯(lián)固定互作狀態(tài)（圖6b）。通過不同方法生成的大多數(shù)（但不是全部）嵌合cDNA源自穩(wěn)定堿基配對（即相互作用）的RNA分子之間的連接,。靶向方法,，例如CLASH (crosslinking, ligation and sequencing of hybrids)，RIA-seq (RNA interactome analysis and sequencing), RAP-RNA (RNA antisense purification followed by RNA sequencing)可以生成單個RNA的深度相互作用圖譜,。CLASH可使用IP富集法分析特定蛋白質(zhì)復合物介導的RRI,，而RIA–seq使用反義寡核苷酸pull down與靶標RNA相互作用的RNA。兩種方法都不能區(qū)分直接和間接RRI,，這使生物學解釋變得復雜,。為了提高RRI分析的分辨率，RAP–RNA使用psoralen和其他交聯(lián)劑,，然后用反義寡核苷酸捕獲RNA,，并通過高通量RNA-seq檢測直接和間接RRI。盡管該方法確實允許進行更特異的分析,，但它需要準備多個文庫（每種交聯(lián)劑一個）,。

全轉(zhuǎn)錄組方法與靶向方法基本相似：相互作用的RNA在體內(nèi)進行交聯(lián)并富集。富集通過減少連接反應中攜帶的非相互作用RNA的量來提高特異性,，可以通過2D凝膠純化富集（如PARIS,，psoralen analysis of RNA interactions and structures法中）或使用生物素親和層析富集（如 SPLASH，sequencing of psoralen crosslinked, ligated and selected hybrids）,，或通過RNase R消化去除未交聯(lián)的RNA（如LIGR-seq,，ligation of interacting RNA followed by RNA- seq）。連接后,，去交聯(lián),，然后進行RNA-seq文庫制備和測序。PARIS方法產(chǎn)生最大數(shù)目的相互作用,，但每個樣品需要7500萬條測序reads,，比其他RRI方法要多很多，并且是DGE分析平均測序深度的兩倍以上,。

整合RNA互作數(shù)據(jù)分析可以同時對多種相互作用進行探索,，并揭示了不同種類RNA的RRI分布的變異?？偟膩碇v,，90％的RRI有mRNA參與。近一半有miRNA或長鏈非編碼RNA參與,，并且大多數(shù)互作都靶向mRNA,。這些數(shù)據(jù)整合比較分析揭示了特定RNA種類在不同方法中存在很大偏好性，這導致方法之間幾乎沒有檢測到共有的互作,。因此,，要完整了解RRI,，可能需要使用不止一種方法。但是,，RRI方法存在一些局限性。也許最具挑戰(zhàn)性的是RRI是動態(tài)的,，并且受結(jié)構(gòu)構(gòu)象和其他分子間相互作用的影響,，如果沒有重復，結(jié)果就很難解釋,。分子內(nèi)相互作用為分子間RRI分析增加了噪音,，這要求將高度結(jié)構(gòu)化的RNA（例如rRNA）過濾并去除。其他問題包括RNA提取過程中的相互作用破壞,，需要穩(wěn)定的交聯(lián)方法,，但最常用的RRI交聯(lián)試劑 psoralen和4′-氨基-甲基三氧雜沙侖（AMT）-僅能低效交聯(lián)嘧啶，降低了方法的敏感性,。此外,，鄰近連接步驟效率低下，并且可能同時連接相互作用和非相互作用的RNA,，從而進一步降低了靈敏度,。

研究RNA與蛋白質(zhì)的相互作用。

ChIP-seq已成為探索DNA-蛋白質(zhì)相互作用的必不可少的工具,。一種類似的IP方法可以用于研究RNA與蛋白質(zhì)的相互作用,。RNA與蛋白質(zhì)的相互作用方法也依靠IP，利用一種針對感興趣的蛋白的抗體來捕獲其結(jié)合的RNA進行分析（最初是結(jié)合微陣列芯片使用）（圖6c）,。各種RNA與蛋白質(zhì)相互作用方法之間最明顯的區(qū)別是互作的RNA和蛋白質(zhì)是否進行交聯(lián)以及如何交聯(lián)：有些方法避免交聯(lián)（直接IP）,，另一些方法則使用甲醛進行交聯(lián)，而另一些方法則使用紫外線（UV）進行交聯(lián),。.最簡單的方法是RIP-seq（ RNA
immunoprecipitation and sequencing ）,，通常但并非總是使用細胞內(nèi)未加改造的蛋白的抗體富集，并且不需要RNA片段化處理,。其操作簡單使得該方法易于采用,。RIP-seq可以獲得有生物意義的分析結(jié)果，但是有兩個大的缺點,。首先,，用于保持RNA與蛋白質(zhì)相互作用的溫和洗滌條件意味著相對高水平的非特異性結(jié)合片段也會得以富集。第二,，RNA片段化步驟的缺失降低了結(jié)合位點的分辨率,。因此，RIP-seq結(jié)果高度可變,，并取決于RNA-蛋白質(zhì)結(jié)合的天然穩(wěn)定性,。使用甲醛交聯(lián)在RNA及其相互作用的蛋白質(zhì)之間產(chǎn)生可逆的共價鍵可以提高穩(wěn)定性并減少非特異性RNA的pull down,，但是甲醛也會產(chǎn)生蛋白質(zhì)-蛋白質(zhì)交聯(lián)?？梢酝ㄟ^與0.1％甲醛進行輕度交聯(lián)（比用于ChIP–seq研究的低10倍）來緩和這種影響,，這在在多個蛋白質(zhì)靶標上獲得了高質(zhì)量的結(jié)果。