男,, 一個(gè)長(zhǎng)大了才會(huì)遇到的帥哥, 穩(wěn)健,瀟灑,,大方,,靠譜。 一段生信緣,,一棵技能樹,, 一枚大型測(cè)序工廠的螺絲釘, 一個(gè)隨機(jī)森林中提燈覓食的津門旅客,。 ATAC-seq 技術(shù)簡(jiǎn)介 Barcode Processing執(zhí)行此步驟是為了修復(fù)條形碼(barcode,細(xì)胞的標(biāo)識(shí))中偶爾出現(xiàn)的測(cè)序錯(cuò)誤,,從而使片段與原始條形碼相關(guān)聯(lián),從而提高數(shù)據(jù)質(zhì)量,。16bp條形碼序列是從“I2”索引讀取得到的,。每個(gè)條形碼序列都根據(jù)正確的條形碼序列的“白名單”進(jìn)行檢查,并計(jì)算每個(gè)白名單條形碼的頻率,。我們?cè)噲D糾正不在白名單上的條形碼,,方法是找出所有白名單上的條形碼,它們與觀察到的序列之間的2個(gè)差異(漢明距離(Hamming distance)<= 2),,并根據(jù)reads數(shù)據(jù)中條形碼的豐度和不正確堿基的質(zhì)量值對(duì)它們進(jìn)行評(píng)分,。如果在此模型中,未出現(xiàn)在白名單中的觀察到的條形碼有90%的概率是真實(shí)的條形碼,,則將其更正為白名單條形碼。 AlignmentCell Ranger ATAC執(zhí)行基于參考(reference-based)的分析,,并要求adapter 和引物寡核苷酸序列(primer oligo sequence)在確定映射之前進(jìn)行修剪,。在目前的策略中,如果讀長(zhǎng)度大于基因組片段的長(zhǎng)度,,讀序列的3'端(讀序列的末端)可能包含引物序列的反補(bǔ)序列,。我們使用cutadapt工具在每次讀取結(jié)束時(shí)識(shí)別引物序列的反向補(bǔ)碼,并在比對(duì)之前從讀取序列中對(duì)其進(jìn)行修剪(trimmed ),。 然后,,使用帶有默認(rèn)參數(shù)的BWA-MEM將修剪后的讀對(duì)(read-pairs)對(duì)齊到指定的引用(reference )。請(qǐng)注意BWA-MEM不會(huì)將讀碼小于25bp對(duì)齊(align ),。這些未對(duì)齊的讀包含在BAM輸出中,,并標(biāo)記為未映射(unmapped)。 Duplicate Marking由于PCR擴(kuò)增,,一個(gè)條形碼片段(fragment )可能被測(cè)序多次,。我們標(biāo)記副本是為了識(shí)別構(gòu)成庫(kù)的原始片段(fragment )并增加其復(fù)雜性。我們通過識(shí)別所有條形碼上的一組讀碼對(duì)來發(fā)現(xiàn)重復(fù)的讀碼,,其中R1和R2的5'端在參考上具有相同的映射位置,,可以進(jìn)行軟裁剪校正。這些讀對(duì)來自于同一個(gè)原始分子,。在這些讀取對(duì)中,,最常見的條形碼序列得到了識(shí)別,。帶有條形碼序列的一個(gè)讀對(duì)被標(biāo)記為“原始的”,組中的其他讀對(duì)被標(biāo)記為BAM文件中該片段的副本,。如果它通過了下一段描述的過濾器,,這是片段文件中作為片段報(bào)告的唯一讀對(duì),并且它將被標(biāo)記為最常見的條形碼序列,。 在處理如上所述的一組相同排列的讀碼對(duì)時(shí),,一旦標(biāo)記了原始片段,我們將確定該片段是否在兩次讀碼時(shí)都使用MAPQ > 30進(jìn)行了映射,,它不是線粒體,,也不是嵌合映射。如果片段通過這些過濾器,我們創(chuàng)建一個(gè)條目在fragments.tsv.gz文件的開始和結(jié)束標(biāo)記片段調(diào)整后5 '末端的read-pair占換位,在轉(zhuǎn)座酶DNA占據(jù)了一個(gè)地區(qū)的9堿基對(duì)長(zhǎng)(見圖),。在這個(gè)條目中,,我們關(guān)聯(lián)了為讀對(duì)組觀察到的最常見的條形碼,以及這個(gè)片段在庫(kù)中觀察到的次數(shù)(組的大小),。注意,,作為這種方法的結(jié)果,基因組上的每個(gè)唯一間隔只能與一個(gè)條形碼相關(guān)聯(lián),。每個(gè)條目是用選項(xiàng)卡分隔的,,文件是位置排序的,然后使用默認(rèn)參數(shù)運(yùn)行SAMtools tabix命令,。 Peak Calling由于每個(gè)片段的末端表示開放染色質(zhì)區(qū)域,,我們分析來自這些片段的組合信號(hào),以確定為開放染色質(zhì)而富集的基因組區(qū)域,,從而推定具有調(diào)控和功能意義,。使用位置排序的片段文件中片段末端所確定的位置,我們計(jì)算了基因組中每個(gè)堿基對(duì)上的轉(zhuǎn)位事件的數(shù)量,。 我們?cè)诿總€(gè)基對(duì)周圍用一個(gè)401bp的移動(dòng)窗口和生成這些事件的平滑輪廓,,并擬合一個(gè)津巴式的混合模型(ZINBA),該模型由幾何分布對(duì)零充氣計(jì)數(shù),、負(fù)二項(xiàng)分布對(duì)噪聲和另一個(gè)幾何分布對(duì)信號(hào)進(jìn)行建模組成,。擬合的方法是保證混合分量均值的排序是固定的:首先是負(fù)二項(xiàng)噪聲均值,然后是幾何零膨脹均值,,最后是幾何信號(hào)分布均值,。我們根據(jù)1/5的賠率(odds-ratio)設(shè)置一個(gè)信號(hào)閾值,該閾值決定了在堿基對(duì)分辨率下,,一個(gè)區(qū)域是峰值信號(hào)(為開放染色質(zhì)而富集)還是噪聲,。因此,并不是所有的切割點(diǎn)都在一個(gè)峰值區(qū)域內(nèi)。將彼此之間500bp以內(nèi)的峰值合并到一起,,生成一個(gè)位置排序的峰值BED文件,。 窗口大小,odds-ratio和距離選擇操作者曲線下的面積最大化高峰時(shí)相比,一個(gè)高質(zhì)量的DNase hypersensitive sitesGM12878從ENCODE,并產(chǎn)生令人滿意的聚類指標(biāo)以及細(xì)胞類型識(shí)別一組外周血單核細(xì)胞(PBMC)庫(kù)。這種識(shí)別峰的方法獨(dú)立于條形碼和它們的細(xì)胞(或非細(xì)胞)身份,,這使我們能夠包含所有由映射確定的真實(shí)基因組片段的信號(hào),。 Cell Calling此步驟將庫(kù)中觀察到的條形碼子集與從樣本文庫(kù)的cell相關(guān)聯(lián)。這些細(xì)胞條形碼的識(shí)別允許人們?cè)趩渭?xì)胞分辨率下分析數(shù)據(jù)的變化,。對(duì)于每個(gè)條形碼,,我們有通過所有(the fragments.tsv file)的映射高質(zhì)量片段的記錄。在此之前,,我們已經(jīng)確定了峰值,,我們使用重疊于任何峰值區(qū)域的片段(fragments )的數(shù)量,對(duì)于每個(gè)條形碼,,來將信號(hào)從噪聲中分離出來,。與使用每個(gè)條形碼的片段數(shù)量相比,這在實(shí)踐中效果更好,。cell Calling 分兩個(gè)步驟完成,。首先,我們識(shí)別出有片段重疊部分的條形碼,,這些重疊部分稱為峰值,,低于基因組的峰值部分(僅為計(jì)算的目的,為了說明片段長(zhǎng)度,,峰的兩邊都填充了2000 bp),。我們發(fā)現(xiàn),這些條形碼的切割位點(diǎn)通常隨機(jī)分布在基因組中,,不以功能區(qū)域附近的富集為目標(biāo),也不表現(xiàn)出預(yù)期的ATAC-seq“峰值”信號(hào),。因此,,我們屏蔽了這些“低目標(biāo)”條形碼,使其不出現(xiàn)在Peak Calling之前庫(kù)中觀察到的所有條形碼,。 10x Chromium 系統(tǒng)的凝膠珠多聯(lián)率較低(主要是雙聯(lián)),,其中一個(gè)細(xì)胞共享一個(gè)以上的條形碼凝膠珠。然后,,這些cell在數(shù)據(jù)集中顯示為相同單元類型的多個(gè)條形碼,。這些額外的條形碼的存在并不影響二次分析,如聚類分析或差異分析,,盡管它可能會(huì)增加對(duì)非常罕見細(xì)胞類型的豐度測(cè)量,。我們通過觀察這對(duì)條形碼是否彼此共享更多基因組上相連的“連接”片段(共享一個(gè)移位事件的片段)(B1-B2),而不是它們自己(B1-B1或B2-B2),從而識(shí)別出推定凝膠珠雙重態(tài)的一個(gè)小主條形碼對(duì)(B1, B2),。次要條形碼被標(biāo)識(shí)為片段較少的條形碼,,并從cell calling中使用的總條形碼集中丟棄。單細(xì)胞ATAC數(shù)據(jù)還有另一個(gè)來源,,可以產(chǎn)生類似類型的額外細(xì)胞,。這種現(xiàn)象被稱為條形碼多聯(lián),當(dāng)一個(gè)細(xì)胞相關(guān)的凝膠珠不是單克隆的,,并且存在一個(gè)以上的條形碼時(shí),,就會(huì)發(fā)生這種現(xiàn)象。與這種多聯(lián)體相關(guān)的條形碼被識(shí)別為共享大量相互連接的片段以及具有公共后綴或前綴核苷酸序列的條形碼,。同樣,,我們掩蓋了參與這些多聯(lián)的“次要”條形碼,同時(shí)保留了作為相關(guān)cell的唯一代表的主條形碼,。 然后,,我們對(duì)剩余的條形碼執(zhí)行cell calling。我們從所有的條形碼計(jì)數(shù)中減去與深度相關(guān)的固定計(jì)數(shù),,從而對(duì)白名單污染進(jìn)行建模,。這個(gè)固定的計(jì)數(shù)是來自不同GEM的每個(gè)條形碼fragments 的估計(jì)數(shù)量,假設(shè)污染率為0.02,。然后,,我們擬合了兩個(gè)負(fù)二項(xiàng)分布的混合模型來捕獲信號(hào)和噪聲。將比值比設(shè)置為100000(這似乎在內(nèi)部測(cè)試中效果最好),,我們將與實(shí)際細(xì)胞相對(duì)應(yīng)的條形碼與非細(xì)胞條形碼分開,。 在參考中,cell calling 被限制在每個(gè)物種產(chǎn)生< 20k細(xì)胞,,因?yàn)槟壳暗膶?shí)驗(yàn)設(shè)計(jì)支持500-10k細(xì)胞,。如果 Peak-Barcode Matrix與我們對(duì)單細(xì)胞基因表達(dá)解決方案和單細(xì)胞免疫分析解決方案的分析管道類似,,我們生成一個(gè)計(jì)數(shù)矩陣,,其中包含每個(gè)條形碼每個(gè)峰區(qū)域內(nèi)的片段末端(或切割位點(diǎn))計(jì)數(shù),。這是原始的峰條形碼矩陣,它捕獲每個(gè)條形碼的開放染色質(zhì)的富集,。然后將矩陣過濾為只包含單元條形碼,,然后將其用于隨后的分析,如降維,、聚類和可視化,。 Dimensionality Reduction, Clustering and t-SNE Projection生物發(fā)現(xiàn)常常借助于可視化工具,這些工具允許一個(gè)人將一個(gè)細(xì)胞群與另一個(gè)細(xì)胞群進(jìn)行分組和比較,。為了實(shí)現(xiàn)發(fā)現(xiàn),,Cell Ranger ATAC執(zhí)行集群和t-SNE投影。由于數(shù)據(jù)在單細(xì)胞分辨率下是稀疏的,,我們首先進(jìn)行降維,,將其投射到更低的維度空間,這也具有去噪的優(yōu)點(diǎn),。Cell Ranger ATAC通過主成分分析(PCA),、潛在語義分析(LSA)或概率潛在語義分析(PLSA)支持降維。所采用的默認(rèn)方法是LSA,,但是用戶可以通過向Cell Ranger ATAC提供降維參數(shù)(—dim-reduce=< method >)來指定使用哪個(gè)方法,。這些方法中的每一種都作用于經(jīng)過過濾的峰條形碼矩陣,該矩陣由稱為峰的cell條形碼的切割位點(diǎn)計(jì)數(shù)組成,。每個(gè)方法都有一個(gè)在降維之前使用的相關(guān)數(shù)據(jù)歸一化技術(shù)和一組接受降維后數(shù)據(jù)的聚類方法,。我們還提供了Barnes Hut TSNE算法的優(yōu)化實(shí)現(xiàn)(該算法與我們針對(duì)單細(xì)胞基因表達(dá)解決方案的分析管道中的算法相同)。維數(shù)固定為15,,因?yàn)樵谕庵苎獑魏思?xì)胞(PBMCs)上進(jìn)行測(cè)試時(shí),,發(fā)現(xiàn)它能夠以視覺上和生物學(xué)上有意義的方式充分分離聚類。 PCA對(duì)于PCA,,我們首先將數(shù)據(jù)歸一化為每個(gè)條形碼的中間切割點(diǎn)計(jì)數(shù),,并對(duì)其進(jìn)行l(wèi)og轉(zhuǎn)換。我們使用了一種快速,、可伸縮和內(nèi)存有效的IRLBA實(shí)現(xiàn)(增強(qiáng)的,、隱式重新啟動(dòng)的Lanczos雙對(duì)角化算法),它允許原地定心和特征縮放,,并生成轉(zhuǎn)換后的矩陣以及主成分(PC)和奇異值,這些奇異值對(duì)每臺(tái)PC解釋的方差進(jìn)行編碼,。針對(duì)PCA,,我們提供了k-means聚類,可以生成2到10個(gè)用于可視化和分析的聚類,。我們還提出了一種基于社區(qū)檢測(cè)的k近鄰圖聚類方法,,該方法采用louvain模塊化優(yōu)化算法,。轉(zhuǎn)換后的矩陣由默認(rèn)參數(shù)的t-SNE算法操作,并為每個(gè)條形碼提供二維坐標(biāo)以進(jìn)行可視化,。使用我們的單細(xì)胞基因表達(dá)解決方案的用戶可能會(huì)認(rèn)識(shí)到,,使用PCA進(jìn)行的分析類似于運(yùn)行Cell Ranger (cellranger count)。 LSA靈感來自于大量的信息檢索領(lǐng)域的工作,我們通過文件規(guī)范化數(shù)據(jù)頻率(idf)變換,每個(gè)峰值計(jì)數(shù)是縮放的日志的數(shù)量的比率矩陣條形碼,條形碼的數(shù)量的峰值有非零的數(shù),。這為出現(xiàn)在更少條形碼中的峰值計(jì)數(shù)提供了更大的權(quán)重,。利用不定標(biāo)、不定心的IRLBA對(duì)該歸一化矩陣進(jìn)行奇異值分解(SVD),,生成低維空間的變換矩陣,,以及表示各分量重要性的分量和奇異值。在聚類之前,,我們通過在低維空間中將每個(gè)條形碼數(shù)據(jù)點(diǎn)縮放到單位L2-norm來對(duì)深度進(jìn)行歸一化,。我們發(fā)現(xiàn)這些標(biāo)準(zhǔn)化技術(shù)的組合避免了刪除第一個(gè)PC的需要。針對(duì)LSA,,我們提供了球形k-means聚類,,可以產(chǎn)生2到10個(gè)用于下游分析的聚類。通過在l2歸一化的球形流形數(shù)據(jù)上使用k-means識(shí)別簇,,球形k-means的性能優(yōu)于普通k-means,。與PCA類似,我們還通過t-SNE提供了一個(gè)基于圖的集群和可視化,。但是,,與球形k-means聚類相似,在進(jìn)行基于圖的聚類和t-SNE投影之前,,我們將數(shù)據(jù)歸一化為單位范數(shù),。 PLSAPLSA是一種特殊類型的非負(fù)矩陣分解,起源于自然語言處理,。在PLSA中,,通過期望最大化算法,我們最小化了經(jīng)驗(yàn)確定的條形碼中觀察到峰值的概率與該峰值的低秩近似之間的kl -散度,。在通過PLSA降維之前,,我們不會(huì)對(duì)數(shù)據(jù)進(jìn)行歸一化處理。與LSA和PCA類似,,我們生成一個(gè)轉(zhuǎn)換矩陣,、組件向量和一組值來解釋每個(gè)組件的重要性。PLSA提供了組件和轉(zhuǎn)換矩陣的自然解釋,。每個(gè)組件都可以被解釋為一個(gè)隱藏的主題,,轉(zhuǎn)換后的矩陣就是從給定主題觀察到條形碼的概率,即Prob(條碼|主題),。分量向量是一個(gè)給定主題(Prob(peak|topic))觀察到一個(gè)峰值的概率,,LSA/PCA的奇異值對(duì)應(yīng)的是數(shù)據(jù)中觀察到的每個(gè)主題(Prob(topic))的概率,。與LSA類似,我們將變換后的矩陣歸一化為單位l2范數(shù),,并進(jìn)行球形k-means聚類,,生成2到10個(gè)聚類,并通過t-S實(shí)現(xiàn)基于圖的聚類和可視化.雖然PLSA在低維空間的可解釋性方面提供了巨大的優(yōu)勢(shì),,但它比PCA和LSA都要慢得多,,而且在大型數(shù)據(jù)集上也不能擴(kuò)展超過20個(gè)組件。為了在一定程度上改進(jìn)這一點(diǎn),,PLSA的內(nèi)部實(shí)現(xiàn)是多線程的(計(jì)算集群上的4個(gè)線程),,用c++編寫和編譯。為了確保一個(gè)合理的運(yùn)行時(shí)間,,如果不首先收斂,,則算法的迭代次數(shù)上限為3000次。 下面總結(jié)了降維技術(shù)以及相關(guān)的聚類和可視化方法,。
Peak Annotation由于峰是富含開放染色質(zhì)的區(qū)域,,因此具有潛在的調(diào)節(jié)功能,因此觀察峰相對(duì)于基因的位置是很有意義的,。我們使用最接近-D=b的工具將每個(gè)峰與基于最接近轉(zhuǎn)錄起始位點(diǎn)的基因聯(lián)系起來(包裝在參考文獻(xiàn)中),,這樣,峰在TSS上游的1000個(gè)堿基或下游的100個(gè)堿基內(nèi),。此外,,我們還將基因與假定的遠(yuǎn)端峰值相關(guān)聯(lián),這些遠(yuǎn)端峰值距離TSS遠(yuǎn)得多,,且位于轉(zhuǎn)錄本末端上游或下游的距離小于100kb,。這種關(guān)聯(lián)被我們的可視化軟件(Loupe Cell Browser)采用,用于構(gòu)建和可視化派生的特性,,比如啟動(dòng)子和,,它們從與基因相關(guān)的峰值累積計(jì)數(shù)。轉(zhuǎn)錄因子(TF)結(jié)合基序的峰被富集,,某些基序的存在表明了轉(zhuǎn)錄因子的活性,。為了識(shí)別這些基序,我們首先計(jì)算峰值的GC%分布,,然后將這些峰值分配到GC內(nèi)容分布中的相等分位數(shù)范圍,。我們使用包裝在Cell Ranger ATAC中的Python庫(kù)來掃描每個(gè)峰,尋找與motif位置權(quán)重矩陣(motif position-weight-matrices, PWMs)匹配的轉(zhuǎn)錄因子,,這些轉(zhuǎn)錄因子來自直接構(gòu)建在參考包中的JASPAR數(shù)據(jù)庫(kù),。我們將p值閾值設(shè)置為1E-7,背景核苷酸頻率設(shè)置為每個(gè)GC桶中峰值區(qū)域內(nèi)觀察到的核苷酸頻率,。在這些bucket上統(tǒng)一了motif-peak匹配列表,,從而避免了掃描過程中的GC偏差。 TF Motif Enrichment Analysis由于轉(zhuǎn)錄因子(TF)傾向于在包含其同源基序的位點(diǎn)上結(jié)合,,因此將可達(dá)性測(cè)量值與常見基序進(jìn)行分組,,可以在單個(gè)細(xì)胞間對(duì)TFs進(jìn)行有益的富集分析。我們按照以下方式為每個(gè)細(xì)胞條碼的每個(gè)TF構(gòu)建一個(gè)整數(shù)計(jì)數(shù):我們考慮所有與給定TF匹配的峰值,,正如在TF motif檢測(cè)中發(fā)現(xiàn)的那樣,。然后,對(duì)于每個(gè)條形碼,,我們將經(jīng)過篩選的峰值條形碼矩陣中這些匹配峰的切割點(diǎn)計(jì)數(shù)匯集在一起,。它計(jì)算細(xì)胞條形碼中共享TF基序的峰值的總切割點(diǎn)。我們計(jì)算了一個(gè)條形碼中TF的切割位點(diǎn)占該條形碼所有切割位點(diǎn)的比例,,從而使其歸一化到深度,。我們通過對(duì)給定TF的這些比例值在條形碼上的分布進(jìn)行z分?jǐn)?shù)來檢測(cè)TF的富集。為了使它對(duì)異常值具有魯棒性,,我們使用修改后的z分?jǐn)?shù),,該分?jǐn)?shù)使用中位數(shù)和中位數(shù)與中位數(shù)的比例絕對(duì)偏差(MAD)計(jì)算,而不是使用平均值和標(biāo)準(zhǔn)偏差,。當(dāng)您在Loupe中加載數(shù)據(jù)集并將差異分析內(nèi)置于Loupe中時(shí),,這些z分?jǐn)?shù)值是可見的。 Differential Accessibility Analysis為了識(shí)別每個(gè)簇可達(dá)性不同的轉(zhuǎn)錄因子motifs, Cell Ranger ATAC對(duì)每個(gè)motif和每個(gè)cluster進(jìn)行測(cè)試,,看簇內(nèi)均值和簇外均值是否存在差異,。熟悉我們的單細(xì)胞基因表達(dá)解決方案的用戶可能會(huì)認(rèn)識(shí)到,這與Cell Ranger用于識(shí)別差異基因表達(dá)的工作是相同的,。為了發(fā)現(xiàn)細(xì)胞群之間的差異可達(dá)基序,,Cell Ranger ATAC使用負(fù)二項(xiàng)(NB2)廣義線性模型來發(fā)現(xiàn)集群的特定均值及其標(biāo)準(zhǔn)差,然后使用Wald檢驗(yàn)進(jìn)行推理,。對(duì)于每個(gè)集群,,相對(duì)于所有其他cell,該算法在該集群上運(yùn)行,,生成一個(gè)TF基序列表,,這些TF基序在該集群中相對(duì)于樣本的其余部分有差異的表達(dá)。使用GLM框架,,我們可以將每個(gè)細(xì)胞的測(cè)序深度和每個(gè)細(xì)胞的GC含量峰值直接作為協(xié)變量進(jìn)行建模,。這使我們能夠?qū)⑺鼈冏匀坏貧w一化,作為模型估計(jì)和推斷過程的一部分,。我們還使用泊松廣義線性模型對(duì)峰中的可達(dá)性進(jìn)行微分富集分析,,這與我們對(duì)TF基序的分析方法非常相似。在這種情況下,,我們只將每個(gè)單元深度作為協(xié)變量進(jìn)行建模,。 Aggregation在aggr管道中,,用戶可以提供要聚合的庫(kù)列表。聚合管道根據(jù)運(yùn)行時(shí)指定的規(guī)范化模式,,執(zhí)行將每個(gè)列出的庫(kù)中的片段合并到一個(gè)聚合文件中的任務(wù),。合并是通過向下采樣每個(gè)庫(kù)來執(zhí)行的,速率由標(biāo)準(zhǔn)化模式?jīng)Q定,。如果規(guī)范化模式為“None”,,則保留所有片段并合并在一起。如果歸一化模式是“深度”,,則每個(gè)庫(kù)都向下采樣以具有相同的靈敏度(定義為每個(gè)單元格片段的中位數(shù)),。如果歸一化模式是“信號(hào)”,則下采樣率是利用每個(gè)文庫(kù)中沿基因組分布的剪切位點(diǎn)的信息來確定的,。具體來說,,對(duì)于每個(gè)庫(kù),我們構(gòu)建了一個(gè)窗口分割站點(diǎn)計(jì)數(shù)的分布,,并擬合了3個(gè)組件的混合模型,,這與我們?cè)诜逯嫡{(diào)用中所做的工作是相同的。下采樣率是通過匹配每個(gè)庫(kù)的信號(hào)分量的平均值來設(shè)置的,。一旦這些fragments 合并在一起,,它們就按照位置進(jìn)行排序,并被制成表格以供后續(xù)使用,,如降維,、聚類、可視化和差異分析,。 References
|
|