在上一期中,我們?cè)破脚_(tái)的生信工程師為大家?guī)?lái)了一款強(qiáng)大的分析工具GSEA,,很多老師覺(jué)得那篇稿子三分鐘繪制一張優(yōu)美的GSEA圖 | 云平臺(tái)看完后仍然意猶未盡,。不過(guò)大家請(qǐng)不要著急,今天會(huì)帶領(lǐng)大家對(duì)一些概念重新溫習(xí)一遍,。 在引出今天的主角GSEA分析之前,,我們先來(lái)談一談大家在挖掘轉(zhuǎn)錄組數(shù)據(jù)中,可能會(huì)遇到的一些共性問(wèn)題——差異分析拿到了一大堆基因無(wú)從下手,,或者拿不到自己要研究的那個(gè)差異基因進(jìn)行下游的研究,。 究竟是測(cè)序公司分析的有問(wèn)題還是自己的實(shí)驗(yàn)設(shè)計(jì)有問(wèn)題呢?別急,,這個(gè)問(wèn)題我們下面會(huì)慢慢聊,。 常規(guī)差異分析存在的問(wèn)題 當(dāng)你想要研究癌癥組織和癌旁組織究竟哪些基因有差異表達(dá)時(shí),你會(huì)把組織寄送到測(cè)序公司提取RNA進(jìn)行轉(zhuǎn)錄組測(cè)序,。 測(cè)序公司標(biāo)準(zhǔn)的差異分析默認(rèn)不考慮通路,,直接進(jìn)行負(fù)二項(xiàng)式分布法、F檢驗(yàn),、2×2卡方分析或T-test等各種你聽(tīng)過(guò)的或沒(méi)有聽(tīng)過(guò)的統(tǒng)計(jì)學(xué)方法,,對(duì)所有有表達(dá)的基因進(jìn)行差異分析。這種方法簡(jiǎn)單粗暴,,每個(gè)基因在每組差異分析中都會(huì)得到一個(gè)p value和fold change值,。 最后你會(huì)拿到一個(gè)測(cè)序公司發(fā)給你的差異分析表格。從上圖中,,我們可以看到,,這21個(gè)基因基本上差異倍數(shù)非常大,且p value都接近于0,。通常我們認(rèn)為,,從純統(tǒng)計(jì)學(xué)角度來(lái)看,只要p<0.05且fold change>2或<0.5,,這個(gè)基因就是有差異的,。 接下來(lái)你會(huì)面臨兩種常見(jiàn)的情況:差異基因過(guò)多,有將近1000個(gè)基因……或差異基因過(guò)少只有不到20個(gè),。這時(shí)候你該怎么辦? 假如差異基因有1000個(gè),,這時(shí)候并不是所有差異基因都是你要研究的對(duì)象,。你會(huì)選擇預(yù)設(shè)的信號(hào)通路或感興趣的候選基因進(jìn)一步縮小范圍。比如把差異基因中與Wnt通路相關(guān)的基因都單獨(dú)拿出來(lái),,或者把自己預(yù)先感興趣的40個(gè)候選基因與這1000個(gè)差異基因取交集后看看還剩下哪些,。 不過(guò)當(dāng)你手中只有19個(gè)差異基因時(shí),,你掃了一圈發(fā)現(xiàn)這19個(gè)基因里居然全都有沒(méi)有你要的那些基因! 舉個(gè)例子如上圖所示,,最郁悶的事情來(lái)了,,無(wú)論是差異基因過(guò)多還是過(guò)少,你最最感興趣的CACYBP并不在當(dāng)中,,而這個(gè)基因確實(shí)是你這項(xiàng)研究中十分關(guān)鍵的分子,。那這批數(shù)據(jù)沒(méi)辦法用了嗎? 這時(shí)候你需要問(wèn)自己一個(gè)問(wèn)題,,假設(shè)某個(gè)你很感興趣的基因在測(cè)序結(jié)果中,,差異倍數(shù)只有1.6倍,p value≈0.09,,那么這個(gè)基因究竟是要繼續(xù)深入做還是放棄,?這批數(shù)據(jù)還能用嗎? 如果你回答是這批數(shù)據(jù)不能用了,,那么你就不必往下看了(開(kāi)玩笑),。事實(shí)上許多基因在差異倍數(shù)不足2倍時(shí),仍然在調(diào)控過(guò)程中發(fā)揮巨大的作用,。下面我們就會(huì)對(duì)傳統(tǒng)的數(shù)據(jù)方法進(jìn)行討論,,從而引出一些標(biāo)準(zhǔn)差異分析的一些弊病以及GSEA分析所具有的獨(dú)特優(yōu)勢(shì)。 三種傳統(tǒng)的數(shù)據(jù)分析方法 (該內(nèi)容引用自【高通量測(cè)序數(shù)據(jù)處理學(xué)習(xí)記錄(三):Pathway Analysis及GSEA】https://www.jianshu.com/p/be1211dce097) 1. ORA:Over-representation analysis 曾經(jīng)一段時(shí)間,,基因芯片microarray技術(shù)的風(fēng)靡產(chǎn)生了對(duì)下游分析的極大需求,, over-representation analysis (ORA) 應(yīng)運(yùn)而生,從一系列基因里根據(jù)閾值提取出部分基因進(jìn)行顯著性分析,,也就是統(tǒng)計(jì)學(xué)常見(jiàn)的“2X2 交叉表格法”,,對(duì)每個(gè)pathway進(jìn)行統(tǒng)計(jì)分析,常見(jiàn)tests都建立在 hypergeometric distribution ,、chi-square,、binomial distribution 等方法上。 ORA分析缺陷: ① 只考慮了差異基因列表,,并不考慮差異基因的表達(dá)情況 ② 只檢驗(yàn)了通過(guò)設(shè)定閾值篩選標(biāo)準(zhǔn)的基因,,對(duì)差異微弱的基因并未考慮,但實(shí)際上會(huì)造成bias ③ 每個(gè)基因會(huì)作為獨(dú)立存在事件考慮,,未加入相互影響干擾因素 ④ Pathway也是作為獨(dú)立存在事件考慮 我們?nèi)粘7治鲋凶畛R?jiàn)的GO/KEGG 分析就是基于這種原理,,雖然老舊但實(shí)用 2. FCS:Functional Class Scoring Approaches FCA 的推測(cè)設(shè)想認(rèn)為雖然強(qiáng)烈的單個(gè)基因的改變可以影響到pathways,但是微弱的相互協(xié)同的功能相關(guān)基因的變化也可以擁有這種影響,,所以這種方法的輸入數(shù)據(jù)是一個(gè)基因水平的統(tǒng)計(jì)數(shù)據(jù)(標(biāo)準(zhǔn)化后食用更佳),,隨后把gene-level的數(shù)據(jù)輸入到pathway-level進(jìn)行統(tǒng)計(jì),現(xiàn)有方法包括Kolmogorov-Smirnov statistic, sum, mean, or median of gene-level statistic, the Wilcoxon rank sum, and the maxmean statistic 等,,最后再做一個(gè)顯著性檢驗(yàn),。 相對(duì)于ORA,,F(xiàn)CS完善了三個(gè)缺陷: ① 不需要人為的閾值確定差異基因list ② FCS使用所有可用的表達(dá)水平進(jìn)行分析 ③ FCS考慮了基因相互間的變化,解釋了基因變化與pathway之間的依賴性 FCS分析的缺陷: ① 類似于ORA,,pathway之間的分析依舊是彼此獨(dú)立的(此種原因可以解釋為單個(gè)基因同時(shí)存有多種功能,,在多個(gè)pathway中發(fā)揮作用,overlap過(guò)多的pathway就會(huì)相互干擾) ② 使用rank的方式縱然有著很多優(yōu)點(diǎn),,但是忽略了單個(gè)基因的變化幅度,,也就是權(quán)重 3. PT:Pathway Topology -Based Approaches 因?yàn)镺RA和FCS只考慮了基因而未利用額外的數(shù)據(jù)信息所以天然的存有著分析短板。PT 就是嘗試?yán)妙~外的信息進(jìn)行統(tǒng)籌分析,,但是它其實(shí)和FCS的分析過(guò)程是沒(méi)有差別的,,唯一的區(qū)別在于在進(jìn)行g(shù)ene-level statistics的時(shí)候使用pathway topology方法。 Rahnenfuhrer et al.推出的ScorePAGE,,通過(guò)計(jì)算相關(guān)和協(xié)方差的方式來(lái)得到類似于FCS的pathway-level的結(jié)果,,但是又綜合考慮了兩組gene list之間需要connect的難度從而進(jìn)行給分,而不是像FCS分配統(tǒng)一權(quán)重,。 PT分析缺陷: ① PT-based的方法千差萬(wàn)別,,結(jié)論也千差萬(wàn)別,很難界定結(jié)果的準(zhǔn)確性 ② 精確的分析結(jié)果依賴于數(shù)據(jù)庫(kù)的信息準(zhǔn)確性,,但是細(xì)胞特異性的基因表達(dá)數(shù)據(jù)目前還非常不完善,,這也是卡住方法開(kāi)發(fā)的門檻 ③ 相關(guān)分析無(wú)法考慮動(dòng)態(tài)變化,畢竟生物系統(tǒng)是一個(gè)不斷協(xié)調(diào)變化的過(guò)程 常規(guī)差異分析的弊病 一般常規(guī)的差異分析,,往往從純統(tǒng)計(jì)學(xué)角度集中關(guān)注幾個(gè)顯著上下調(diào)的基因,,我們稱之為TOP基因。p value<0.05且fold change>2的這種一刀切的粗暴做法,,很容易把不參與重要生物學(xué)功能但有統(tǒng)計(jì)學(xué)意義的TOP基因放在首位,,而一些表達(dá)差異不顯著卻有重要生物學(xué)意義的基因容易被誤差和遺漏。 想想早期的全血樣本中,,是不是有大量的肌紅蛋白基因超高表達(dá),?亦或是血清樣本中,有大量的IgG蛋白讓你頭疼不已,。這些基因或蛋白雖然很重要,,但是容易對(duì)低豐度的一些基因或蛋白產(chǎn)生巨大的干擾。 又比如處于調(diào)控上游的轉(zhuǎn)錄因子往往只要有不到2倍的變化,,就會(huì)引起下游基因乃至蛋白高達(dá)幾十倍的變化,。蛋白的細(xì)微變化又會(huì)引起代謝產(chǎn)物幾百倍的變化。 處于調(diào)控網(wǎng)絡(luò)中的一些基因可以被看作是一個(gè)整體,,常規(guī)的差異分析過(guò)分強(qiáng)調(diào)個(gè)體,,導(dǎo)致遺漏信息。當(dāng)研究相同的生物作用通路時(shí),,兩項(xiàng)研究中具有統(tǒng)計(jì)學(xué)意義的基因列表可能會(huì)很少有重疊,。 那么常規(guī)的GO和KEGG富集分析是如何做的呢?首先依舊是把所有的差異基因都列出來(lái),,比如前期通過(guò)測(cè)序拿到了400個(gè)差異基因,。這些差異基因都會(huì)對(duì)應(yīng)的GO和KEGG注釋。 假設(shè)其中300個(gè)基因都在Wnt通路上有注釋,,270個(gè)基因在MAPK通路上有注釋(可能跟Wnt通路有交集),,20個(gè)基因在Akt通路上有注釋……諸如此類。根據(jù)負(fù)二項(xiàng)式分布計(jì)算來(lái)看,,根據(jù)通路注釋到的基因數(shù)量而言,,Wnt通路顯然是差異極顯著。 但是問(wèn)題來(lái)了,,假設(shè)這300個(gè)基因fpkm也就是表達(dá)量沒(méi)有超過(guò)0.01的,,這種極端情況出現(xiàn)后我們就認(rèn)為哪怕300個(gè)基因有差異但表達(dá)量極低,無(wú)法行使重要的生物學(xué)功能,。而有些只有20多個(gè)基因富集到Akt通路上,,但是表達(dá)量很高差異也很大。那么這種GO和KEGG富集分析結(jié)果將不會(huì)有特別大的參考意義,。 GSEA概念及優(yōu)勢(shì) GSEA全稱是Gene Set Enrichment Analysis,,也叫基因集富集分析。其基本思想是使用預(yù)定義的基因集,,將基因按照在兩類樣本中的差異表達(dá)程度排序,,然后檢驗(yàn)預(yù)先設(shè)定的基因集合(Gene Set)是否在這個(gè)排序表的頂端或者底端富集。 GSEA分析最關(guān)鍵的就是基因集(Gene Set),。這個(gè)基因集通常是人為事先進(jìn)行預(yù)設(shè)及定義的,,在GSEA的官網(wǎng)(http://software./gsea) 就可以進(jìn)行下載。包括免疫相關(guān)基因等都包含在內(nèi)一應(yīng)俱全,。如果對(duì)這些網(wǎng)上整理好的基因集合不感興趣,,還可以人為進(jìn)行手動(dòng)自定義。如最近m6A甲基化比較火熱,,許多老師會(huì)把自己感興趣的10多種甲基化酶和下游某幾個(gè)明星分子整合到一起,,形成一個(gè)自定義基因集合。 上圖就是簡(jiǎn)單說(shuō)明了GSEA分析的大致流程,。左上方是你的基因表達(dá)譜數(shù)據(jù),,這邊以熱圖的形式作為展示,你輸入的數(shù)據(jù)是所有樣本所有的基因表達(dá)譜,。左下方是預(yù)設(shè)的基因集合,。準(zhǔn)備好兩個(gè)文件后,再進(jìn)行GSEA分析,最后獲得富集顯著的一些基因,。 GSEA分析的原理 具體原理如上圖所示,,在給定一個(gè)排序的基因表L和一個(gè)預(yù)先定義的基因集S(比如編碼某個(gè)代謝通路的產(chǎn)物的基因,基因組上物理位置相近的基因,,或同一GO注釋下的基因),,GSEA的目的是判斷S里面的成員s在L里面是隨機(jī)分布還是主要聚集在L的頂部或底部。這些基因排序的依據(jù)是其在不同表型狀態(tài)下的表達(dá)差異,,若研究的基因集S的成員顯著聚集在L的頂部或底部,,則說(shuō)明此基因集成員對(duì)表型的差異有貢獻(xiàn),也是我們關(guān)注的基因集,。 接下來(lái),,我們來(lái)更加直觀看一下常規(guī)差異分析和GSEA分析究竟有何不同。從上圖我們可以看到,,左圖是典型的差異分析即雙邊檢驗(yàn)只要顯著差異表達(dá)的基因就行了,。而右邊我們可以看到,由于基因集合的引入即圖中顯示的Gene Set1,、Gene Set2 Gene Set3等,,我們可以更加直觀看到這種優(yōu)化過(guò)后的結(jié)果更符合我們的預(yù)期。 至于GSEA分析后得到的ES峰圖,,許多老師說(shuō)不太看得懂,,這邊我們會(huì)進(jìn)行小小的解釋。 ① 圖最上面部分展示的是ES值計(jì)算過(guò)程,,從左至右每到一個(gè)基因,,計(jì)算出一個(gè)ES值,連成線,。最高峰為富集得分(ES),。在最左側(cè)或最右側(cè)有一個(gè)特別明顯的峰的基因集通常是感興趣的基因集。 ② 圖中間部分每一條線代表基因集中的一個(gè)基因,,及其在基因列表中的排序位置,,即,本次gene sets里面的基因在本基因的位置,。 ③ 最下面部分展示的是基因與表型關(guān)聯(lián)的矩陣,,紅色為與第一個(gè)表型(MUT)正相關(guān),在MUT中表達(dá)高,,藍(lán)色與第二個(gè)表型(WT)正相關(guān),,在WT中表達(dá)高。 ④ Leading-edge subset:定義其中對(duì)Enrichment score貢獻(xiàn)最大的基因?yàn)楹诵幕?。若富集得分為正值,,則是峰左側(cè)的基因;若富集得分為負(fù)值,則是峰右側(cè)的基因,。 ⑤ FDR GSEA默認(rèn)提供所有的分析結(jié)果,,并且設(shè)定FDR<0.25為可信的富集,最可能獲得有功能研究?jī)r(jià)值的結(jié)果,。但如果樣品數(shù)目少,,而且選擇了gene_set作為Permumation type則需要使用更為嚴(yán)格的標(biāo)準(zhǔn),,比如FDR<0.05,。 ⑥ 如果gene set里面的基因集中在2萬(wàn)個(gè)基因的前面部分,就是在case里面富集,,如果集中在后面部分,,就是在control里面富集著。 需要再次強(qiáng)調(diào)的是,,基因集合富集分析檢測(cè)的是基因集合(也就是一堆基因)而不是單個(gè)基因的表達(dá)變化,,因此這種分析結(jié)果可以包含所有基因更多細(xì)微的表達(dá)變化,預(yù)期得到更為理想的結(jié)果,。 我們假設(shè)上面提到的癌癥組織和癌旁組織提供得到2000個(gè)表達(dá)的基因,,而且還關(guān)注Wnt通路相關(guān)的基因。這時(shí)候我們?cè)跍?zhǔn)備文件的時(shí),,除了癌癥癌旁組織的2000個(gè)基因表達(dá)譜信息外,,還需要輸入額外的Wnt通路相關(guān)的基因集合(網(wǎng)上可以直接下載)。把兩個(gè)文件作為輸入文件進(jìn)行GSEA分析后,,會(huì)告訴你某幾十個(gè)基因顯著富集(也就是差異分析中顯著差異),。 我們?cè)賮?lái)重復(fù)一下GSEA分析的幾個(gè)特點(diǎn): ① 分析出來(lái)的差異或者說(shuō)是富集的結(jié)果是基因集合而不是單個(gè)基因; ② 將基因與預(yù)定義的基因集進(jìn)行比較,; ③ 可以將被統(tǒng)計(jì)學(xué)誤殺的重要基因重新“補(bǔ)救”回來(lái) GSEA官方預(yù)設(shè)的基因集合介紹 GSEA分析最關(guān)鍵的就是基因集(Gene Set),。這個(gè)基因集通常是人為事先進(jìn)行預(yù)設(shè)及定義的,在GSEA的官網(wǎng)(http://software./gsea) 我們可以看到一共有包括H和C1-C7在內(nèi)的八個(gè)大類,,具體介紹如下 ① H: hallmark gene sets (效應(yīng))特征基因集合,,共50組 官網(wǎng)介紹說(shuō)這些基因集合代表著特定明確的生物學(xué)過(guò)程,并呈現(xiàn)出連續(xù)表達(dá)的狀態(tài),。通過(guò)特定的算法對(duì)C1-C6中可能存在Overlap基因進(jìn)行去冗余,,得到了50個(gè)高質(zhì)量的hallmarks。 從上圖中我們看到,,這50個(gè)hallmarks中包括了大量的經(jīng)典基因集合,,如脂肪形成、自噬,、DNA修復(fù),、低氧脅迫、心肌細(xì)胞再生、炎癥應(yīng)答,、干擾素α應(yīng)答,、干擾素β應(yīng)答。信號(hào)通路基因集合還包括了hedgehog信號(hào)通路,、Notch信號(hào)通路,、白介素6介導(dǎo)JAK-STAT3信號(hào)通路、TGF-β信號(hào)通路等,。 這些經(jīng)典的基因集合,,將會(huì)在后期大大縮短老師們篩選數(shù)據(jù)的時(shí)間。即便不進(jìn)行GSEA分析,,這些經(jīng)典的基因集合也會(huì)為大家在后期的數(shù)據(jù)挖掘提供極大的便利,。 ② C1: positional gene sets位置基因集合,根據(jù)染色體位置,,共326個(gè),。 這些基因集合通常根據(jù)染色體的位置而定。對(duì)于一些做GWAS+轉(zhuǎn)錄組研究的老師來(lái)說(shuō),,是非常不錯(cuò)的選擇,。 ③ C2: curated gene sets:(專家)共識(shí)基因集合,基于通路,、文獻(xiàn)等已有的知識(shí)儲(chǔ)備體系整理而成,。 C2這個(gè)基因集合里,包含了龐大的信息量,。如果細(xì)分的話還可以再細(xì)分為化學(xué)及遺傳擾動(dòng)CGP(Chemical and genetic perturbations)和經(jīng)典信號(hào)通路CP(Canonical pathway),。 我們所熟知的KEGG pathway、BioCarta,、Matrisome Project,、Pathway Interaction Database、Reactome,、Signaling Gateway等都包含在內(nèi),。另外一些 來(lái)自工業(yè)界的科學(xué)家們也整理了大量的信息,包括Sigma化學(xué),、sabiosciences,、安捷倫生命科學(xué)部、昂飛Affymetrix等也參與了大量的工作,。 這些手動(dòng)整理的基因集合,,將會(huì)在后期研究中提供大大的便利。從上圖中我們可以看到,,具體可以細(xì)分到每個(gè)數(shù)據(jù)庫(kù)都可以focus到非常narrow的點(diǎn),。 ④ C3: motif gene sets:模式基因集合,,主要包括microRNA和轉(zhuǎn)錄因子靶基因兩部分 這些基因集合目的非常明確,就是找特定的靶向蛋白或靶向基因,。無(wú)論是miRNA還是轉(zhuǎn)錄因子,,數(shù)據(jù)中都收錄了大量分基因集合信息,總計(jì)達(dá)800多個(gè)sets,。 從上圖中可以看到,,無(wú)論是miRNA還是轉(zhuǎn)錄因子本身,都可以與大量的基因相結(jié)合,。這塊工作信息量巨大,,非常非常適合有特定研究目的的老師,如miR-203的靶基因研究等,。 ⑤ C4: computational gene sets:計(jì)算基因集合,,通過(guò)挖掘癌癥相關(guān)芯片數(shù)據(jù)定義的基因集合 這些基因集合通常是已經(jīng)發(fā)表的基因芯片數(shù)據(jù)在生信水平進(jìn)行深入挖掘,一共分為大量大類,,即鄰近的癌癥基因基因集合和癌癥模塊基因集合。 ⑥ C5: GO gene sets:Gene Ontology 基因本體論,,包括BP(生物學(xué)過(guò)程biological process,,細(xì)胞原件cellular component和分子功能molecular function三部分) 大名鼎鼎的Gene Ontology簡(jiǎn)稱GO,是所有生信分析中高頻出現(xiàn)的數(shù)據(jù)庫(kù)注釋之一,。這邊就不再做更多的介紹了,。關(guān)于GO數(shù)據(jù)庫(kù)的詳細(xì)信息,請(qǐng)點(diǎn)擊 http:/// 查詢,。 ⑦ C6: oncogenic signatures:癌癥特征基因集合,,大部分來(lái)源于NCBI GEO 未發(fā)表芯片數(shù)據(jù) ⑧ C7: immunologic signatures: 免疫相關(guān)基因集合 對(duì)于從事免疫學(xué)研究的老師來(lái)說(shuō),這個(gè)C7的基因集合無(wú)論是新手還是老鳥(niǎo),,都非常非常重要,。C7基因集合龐大到多大近5000個(gè)sets。 這些與免疫相關(guān)的基因信息都是由人工手動(dòng)整理完成,,對(duì)于存儲(chǔ)在NCBI的GEO數(shù)據(jù)庫(kù)所有關(guān)于免疫學(xué)研究的芯片數(shù)據(jù)和測(cè)序數(shù)據(jù)進(jìn)行整理分析并得到了高質(zhì)量的基因集合,。 聯(lián)川生物云平臺(tái)GSEA分析實(shí)戰(zhàn)解析(部分關(guān)鍵信息已經(jīng)做了隱藏) 第一步,當(dāng)然是拿到我們的表達(dá)譜數(shù)據(jù),。如上圖所示,,以轉(zhuǎn)錄組為例。在我們差異分析結(jié)果中,,你需要在差異表格所在的文件夾(通常以differential_expression作為關(guān)鍵詞)里,,找到以*_Gene_differential_expression.xlsx結(jié)尾的文件。 第二步,,打開(kāi)*_Gene_differential_expression.xlsx文件,,你會(huì)發(fā)現(xiàn)有5000多個(gè)基因有表達(dá),,其中差異個(gè)數(shù)280個(gè)。但是這280個(gè)中并沒(méi)有發(fā)現(xiàn)想要的一些差異基因,。 第三步,,把*_Gene_differential_expression.xlsx中的核心信息整理出來(lái),即基因名加表達(dá)譜信息,。所以最后我們就得到了上圖所示的新文件,。你會(huì)發(fā)現(xiàn)里面只有三列,基因名加樣本A和樣本B的表達(dá)譜信息,,并保存為test.xlsx,。 第四步,打開(kāi)聯(lián)川生物云平臺(tái),,登錄后點(diǎn)擊GSEA富集分析,。 第五步,我們上傳的數(shù)據(jù)test.xlsx,。需要注意的是:①我們要選擇symbols,,如果是entrez那么最后的富集到的基因名都是數(shù)字;② 基因集這邊我們選擇H hallmarks,,這邊老師可以根據(jù)我們前面的介紹選擇自己感興趣的基因集,,如對(duì)免疫感興趣可以選擇c6等;③ 上傳文件最好格式要符合要求,;④ 這邊既可以單獨(dú)下載圖片和表格,,也可以選擇打包下載。 第六步,,我們?cè)?個(gè)富集的通路上,,找自己這批數(shù)據(jù)中的基因集合信息。最后一列,,就是每個(gè)通路對(duì)應(yīng)在本次測(cè)序數(shù)據(jù)中對(duì)應(yīng)富集基因,。具體操作請(qǐng)參考三分鐘繪制一張優(yōu)美的PCoA圖 | 云平臺(tái) |
|
來(lái)自: 祥強(qiáng)6csdm0n3vs > 《生信類》