甲基化芯片背景甲基化芯片原理:https://www.jianshu.com/p/c4f758e0399d 芯片主要分為EPIC和450k兩種,,EIPC也就是850k,兩種探針的都是以cg開頭的數字編號,,所謂注釋也就是提取這些探針的所對應的信息,,例如,,探針序列的CpG位置信息,對應的基因信息,,染色體上的位置信息,,等等。很多包在安裝的時候都會自動下載這些注釋信息,,并包裝在一起,,如果我們想要自己注釋這些探針,就要考慮如何獲取獨立的注釋信息,。而所需要注釋數據的,,大部分都來自于兩個數據庫,GEO和TCGA,。 下面介紹三種提取注釋信息的方法 # 方法一:從UCSC Xena下載直接從UCSC Xena相應的癌癥甲基化數據庫里下載對應的文件,。可以看到是來自GPL16304平臺的芯片,,其實和下面要介紹的從GEO下載注釋信息是一樣的,,不過TCGA的探針數可能會少于45w,大約39w,,因為提前過濾了一些低質量的探針,。 # 方法二:從GEO下載對應平臺的注釋文件在GEO的官網platform下搜索Illumina HumanMethylation450,可以看到450k的芯片主要來自三個平臺,,探針數也是不一樣的,,TCGA中下載時一般都會標明來自那個平臺,從GEO中下載數據都會得知平臺的信息,。直接進入對應平臺的介紹就可以了,。 表格中展示了部分信息,,直接下載然后就可以提取我們需要的注釋信息了,,485577個探針一個不差,,可能是因為我網速的問題,只有下載CSV這個的時候速度比較快,,其他速度都非常感人 ids<-a[,c("IlmnID", # 方法三:從ChAMP包中提取這個方法嚴格來說其實是從ChAMP依賴的兩個注釋包中提取的,,但是我又懶又笨,,懶得看原始的包里數據藏在哪里了,ChAMP包在做甲基化分析的時候也很方便,,而其中 myimport <- champ.import(directory=system.file("extdata",package="ChAMPdata")) 850k和450k本質上沒有什么區(qū)別,,所以方法都是通用的。 寫在后面以上教程,,來自于2019年9月份學徒,,謝謝大家觀看! 實際上,,芯片探針如果有坐標,,也可以參考:對bed格式的基因組區(qū)間文件進行基因注釋 表達芯片的公共數據庫挖掘系列推文感興趣的也可以去看看; 10月巡講
|
|