寫在前面寫在前面
最近分析的物種由于國外品種與國內品種差異還是比較大,,雖然大部分文章用的參考基因組都是以國外品種為主,但是由于考慮到目前我這邊數(shù)據幾乎全部都是來源于國內品種,,因此在考慮是不是用國內品種的基因組會更妥善,。 剛好今年4月份國內品種的基因組又更新了一版,似乎是國內品種中目前質量最高的參考基因組,,有被吸引到,,因此有了這篇踩坑記錄。。,。。,。
一,、在基因組文獻中找到參考基因組及注釋的存儲路徑 如圖可知該基因組存儲在ncbi上,也給出了BioProject Number,。注釋文件存儲在另外一個網站,,似乎類似于FTP,直接下載即可,,并沒有太大問題,。
二、NCBI下載基因組與注釋文件(開始踩坑)根據給出的BioProject Number,,直接在NCBI上進入物種基因組下載界面,,并點擊下載 在NCBI上,一般能夠下載到某物種的基因組文件及其對應的注釋文件,。但是我要下的該物種似乎確實沒有將注釋文件一并上傳到NCBI上,。因此直接去文章中給出的鏈接下載。 得到基因組與注釋文件之后,,使用TBtools提取CDS序列一直提不出來,,非常奇怪。 一般來說遇到這種情況,,基本上都是用戶操作不當或者文件有問題,。因此直接查一下文件的完整性。 使用TBtools的File MD5 Sum 功能計算下載的基因組的MD5,,發(fā)現(xiàn)文件完整度沒問題。 提不出CDS序列,,輸出的是空文件,。也許是GFF3文件哪里有問題。檢查了一下,,發(fā)現(xiàn)似乎也沒異常,,該有的信息都有,除了基因ID長得比較奇怪,。,。。而且TBtools也能夠成功提取該GFF3文件的信息,, 順道看了一眼參考基因組內容,,驚呆了。。,。問題竟然出現(xiàn)在染色體ID上,,應該是NCBI默認給染色體ID更改過了名字,導致參考基因組中的染色體ID與GFF3中的染色體ID不一致,。雖然信息很全,,但是并沒有啥用,甚至還會導致一系列報錯,。,。
fine,既然找到了原因,,那么只需要寫個命令將基因組中的染色體名稱改成與GFF3中一致即可,。 三、關于下載參考基因組我覺得下載參考基因組首先還是要直接看基因組文章里面DATA AVAILABILITY 部分,,是否有給出基因組及其注釋文件的下載鏈接或者存儲網站,,直接訪問下載,往往會比較靠譜,。 網上搜索是否有所需物種相應的基因組數(shù)據庫 權威的綜合數(shù)據庫,如Ensembl,、Phytozome等等,。
最后,關于Ensembl ID,。 通常Symbol是我們更愿意看到的ID,,即基因的官方名稱,如GFAP,、MYB等,,便于我們直觀的知道這是個什么基因,但是在數(shù)據分析的過程中,,基因ID往往不會直接以Symbol的形式出現(xiàn),,這個時候可以借助轉換工具來對其進行轉換,如Y叔的clusterProfiler ,,或者直接在Ensembl網站上轉換等,。 Ensembl ID的含義,如ENSSSCG00000037372 其中ENS是Ensembl ID的標識符,; SSC為物種名的縮寫(SSC指的是豬,如果是人的話,,則默認為ENS,,沒有物種名); G表示該ID為基因ID,,指的是一個基因,;如果是T,則為轉錄本ID,,指的是某個基因的轉錄本,;P則為蛋白;具體的縮寫可以參考Ensembl官方說明:http://asia./info/genome/stable_ids/prefixes.html 字母后面的一串數(shù)字為唯一的ID號,,若ID后面還帶著.1,、.2等版本號標識符(如:ENSSSCG00000037372.3),則表示其在Ensembl中更新的次數(shù),,一般在做分析時需要將版本號給去掉,。
寫在最后近期狀態(tài)似乎還不錯,雖然通勤真的很累,,特別是要擠早高峰和晚高峰的廣州死亡3號線。,。,。 嗯。,。愿天下打工人都不用通勤
|