相關疾?。?ul data-article="16204004">
UCSC Genome Browser是由University of California Santa Cruz (UCSC) 創(chuàng)立和維護的,該站點包含有人類,、小鼠和大鼠等多個物種的基因組草圖,并提供一系列的網(wǎng)頁分析工具,。站點用戶可以通過它可靠和迅速地瀏覽基因組的任何一部分,,并且同時可以得到與該部分有關的基因組注釋信息,如已知基因,預測基因,,表達序列標簽,,信使RNA,,CpG島,,克隆組裝間隙和重疊,染色體帶型,,小鼠同源性等,。用戶也可以因為教育或科研目的加上他們自己的注釋信息。UCSC Genome Browser目前應用相當廣泛,,比如Ensembl 就是使用它的人類基因組序列草圖為基礎的,。用戶在使用數(shù)據(jù)庫及其工具(Genome Browser、Table Browser,、Gene Sorter,、Proteome Browser、VisiGene,、Genome Graphs,、BLAT等)時可以從以下站點獲得大量的適時幫助,包括http://genome.ucsc. edu/goldenPath/help,、http://genome./FAQ,、http://等。還可以寫郵件到genome@soe.獲得幫助,。 1 新物種信息 目前,,GBD新增了13個新物種的基因組序列信息,包括猩猩,、絨猴,、豚鼠、斑胸草雀,、八目鰻,、文昌魚和三種線蟲品種——brenneri、remanei,、japonica在內的9個以前沒有收錄的物種信息,,以及牛、斑馬魚,、海膽,、秀麗隱桿線蟲(C.elegans)這4個已收錄物種的更新信息。GBD為每一個新信息都提供了注釋,,也將這些信息和GenBank中的其它物種序列進行了比對,。此外,他們還對上述9種新物種信息中的7個物種進行了多重比對注釋,,還將6種蠕蟲的序列和最新的秀麗隱桿線蟲序列進行了比對,。 2 UCSC基因組數(shù)據(jù)庫的新注釋信息 除了收錄新物種序列之外,GBD還在去年新增了200多條注釋信息,??梢渣c擊Genome Browser上的相應按鈕獲得更多新注釋信息。 對人類基因組集合(數(shù)據(jù)庫)hg18和基因及基因預測組(Genes and Gene Prediction Track Group)中的Pos Sel基因進行新的注釋后發(fā)現(xiàn)了承受正向選擇壓力(positive selection)的基因,。網(wǎng)站上顯示了通過對人類,、黑猩猩、獼猴,、小鼠,、大鼠和狗基因組進行多基因組比對后篩出的全基因組范圍內承受正向選擇壓力的基因。同時,,還使用了9種基于Yang和Nielsen發(fā)明的branch-site framework模型的似然比檢驗法(likelihood ratio test,,LRT)對一些直系同源基因進行了檢測來驗證上述結論的正確性。 開放的調控元件注釋項目(Open Regulatory Annotation,,OregAnno)的研究已經(jīng)取得了一定成果,,獲得了人類、小鼠,、黑腹果蠅和酵母這四種模式生物調控元件的注釋信息,。每一條 OregAnno的注釋信息包括經(jīng)過試驗驗證后公開的基因調控序列(如啟動子、增強子等),、轉錄因子結合位點以及調控區(qū)域的多態(tài)性(regulatory polymorphism)等信息,,同時每一條OregAnno的注釋信息也都會鏈接到OregAnno數(shù)據(jù)庫。 數(shù)據(jù)庫中,人類目錄下現(xiàn)在還收錄了Kidd等人對國際人類基因組單體型圖計劃(HapMap Project)里8個人的序列同參考序列比對后獲得的注釋信息(HGSV Discordant Track),。這些注釋信息顯示了那些人類序列中與參考序列的不符之處,,表明該處可能存在著大段的缺失或插入序列,這對尋找人類基因組中的變異具有非常重大的意義,。 小鼠mm9集合(數(shù)據(jù)庫)現(xiàn)在提供了小鼠與其它30種脊椎動物的比對信息,。這些比對信息是通過多重比對和phastCons計算(phastCons computation)之后得出的,它們有助于了解不同物種之間在進化上的相關性,。GBD還在小鼠mm9集合(數(shù)據(jù)庫)中新增了一個子數(shù)據(jù)庫用來收錄從維爾康姆基金會桑格研究所(Wellcome Trust Sanger Institute)miRBase數(shù)據(jù)庫中獲取的microRNA信息,。 在大鼠rn4集合(數(shù)據(jù)庫)中GBD還提供了從RGD中獲取的數(shù)量性狀基因座(QTL)信息。這些QTL信息與大鼠基因組中1000多個與血壓,、血糖等處于持續(xù)動態(tài)波動之中的表型特征相關基因座有關,。 在dm3基因組數(shù)據(jù)庫中收錄有黑腹果蠅基因組中超過7500個基因插入突變的注釋信息。通過網(wǎng)站上提供的這些注釋信息加上與位于美國布魯明頓的信息儲存中心之間的鏈接,,可以發(fā)現(xiàn)果蠅基因組中由P元件和Minos元件導致的插入,。 3 UCSC基因組數(shù)據(jù)庫新收錄的基因 2008年9月,最新版的UCSC基因數(shù)據(jù)——hg18人類基因數(shù)據(jù)集發(fā)布,。UCSC基因注釋信息包括參考各種數(shù)據(jù)庫(RefSeq,、UniProt、GenBank)后使用比較基因組學方法得出的已知編碼基因和非編碼基因的多種異構體信息,。 在CCDS信息和 RefSeq信息不一致時,最新的UCSC基因注釋信息就會使用CCDS蛋白質信息來選擇最合適的比對結果,。GBD做出這個選擇是因為他們相信國際公認的蛋白質信息比隨便比較一下基因串聯(lián)重復序列和轉錄體RNA 5’端所獲得的差別更有意義,。例如在對人類基因IFI35(位于hg18 chr17:38,418,889-38,419,044上, http://genome./cgibin/hgTracks?db=hg18& position=chr17:38418889-38419044&knownGene=pack&refGene=pack)第四號外顯子和第五號外顯子之間的剪接情況進行注釋時,他們選擇的就是CCDS信息,。 新的UCSC基因庫中包括66,803個基因(包括異構體)信息,,其中13,767個基因是非編碼基因,這些基因共組成26,570個基因簇(表1),。 這次更新還在Genome Browser中新增了與外部數(shù)據(jù)庫中幾種模式生物內直系同源基因之間的鏈接,。這些模式生物數(shù)據(jù)庫包括小鼠基因組數(shù)據(jù)庫(MGD)、大鼠基因組數(shù)據(jù)庫(RGD),、斑馬魚信息庫(ZFIN),、線蟲信息庫(WormBase)、果蠅信息庫(FlyBase)和酵母基因組數(shù)據(jù)庫(Saccharomyces Genome Database),。他們還計劃繼續(xù)定期更新,,以保證人類基因組數(shù)據(jù)和小鼠基因組數(shù)據(jù)都是最新最全面的。 使用Genome Browser瀏覽UCSC數(shù)據(jù)庫中某一個基因的注釋信息,,只需要在Genome Browser網(wǎng)頁的搜索框中輸入該基因的名稱等關鍵詞就可以了,。同時,可以使用各種基因標識符來進行搜索,,例如HGNC名稱,、UniProt ID,、即使是GenBank或UniProt中對該基因的一些描述性關鍵詞都行。通過搜索還可以發(fā)現(xiàn)與目的基因產(chǎn)物間有相互作用的基因,,對這些基因的注釋以RefSeq形式給出,。 UCSC Gene track頁面還包括與網(wǎng)站內資源之間的鏈接,例如與GeneSorter,、Proteome Browser,、VisiGene、in situ hybridization image archive等頁面的鏈接,。今年還新增了與艾倫腦科學研究所(Allen Brain Institute)的Human Cortex Gene data數(shù)據(jù)庫,、Human Genome Epidemiology(HuGE)data數(shù)據(jù)庫、Comparative Toxicogenomics Database(CTD)等外部數(shù)據(jù)庫之間的鏈接,。 4 基因變異信息 hg18人類基因庫提供了大量人類基因變異信息,,其中有一些信息是去年才新增的。尤其值得一提的是他們從dbSNP 129中補充了一些以前dbSNP 128和dbSNP 126中沒有的SNP信息,。 Genome Browser中可以查詢到這些SNP信息的詳細情況,,包括SNP的類型(例如編碼區(qū)、非編碼區(qū),、同義突變等等),。GBD現(xiàn)在還能將包含這些SNP位點的序列與參考序列進行比對。此外,,為了用戶比較的方便,,他們還給出了幾種靈長類動物(黑猩猩、猩猩,、獼猴)的直系同源基因供大家使用,。圖1就顯示了SNP 129網(wǎng)頁查詢SNP rs 1128456的部分結果。 此外,,他們還從dbSNP 128中獲取信息更新了mm9 SNP注釋信息,,從dbSNP 127中獲取信息更新了bosTau3牛數(shù)據(jù)庫信息。 GBD使用比較基因組學對人hg18數(shù)據(jù)庫的注釋進行了更新,,比較了人,、小鼠和狗的基因組進化上保守的部分,找出了人類參考基因組序列中的小插入或缺失片段,。其它新增的hg18變異信息還包括DGV結構變異信息(DGV Structural variants),、Segmental Dups、Exapted Repeats,、Interrupted Repeats等,。 根據(jù)NIH的決定,UCSC移除了威康信托基金會病例控制協(xié)會(Wellcome Trust Case Control Consortium)的研究數(shù)據(jù)以及NIMH對躁狂抑郁雙向障礙的研究數(shù)據(jù),因為這些數(shù)據(jù)有可能會在某些特性情況下泄露患者的隱私,,這與研究的本意是相悖的,。他們還將繼續(xù)與其它國際研究機構合作,研究如何才能更好的保護那些參與人類基因組相關研究(genome-wide association studies,,GWAS)的志愿人員的隱私,。他們將來會在保護個人隱私的前提下提供更多的GWAS數(shù)據(jù),也會提供更新的圖像化工具來瀏覽,、分析臨床試驗數(shù)據(jù),。 5 Transmap 有一組新的數(shù)據(jù)GBD稱之為Transmap,并把Transmap放在了脊椎動物基因組集合下,。Transmap是在不同物種間使用同線性過濾配對基因組比對的方法(synteny-filtered pairwise genome alignment)來發(fā)現(xiàn)這些物種間最有可能的直系同源基因及其相應的注釋信息,。TransMap中每一條信息都包括mRNA、RefSeq,、UCSC Genes等各方面的證據(jù),。例如,就人類mRNA證據(jù)來說,,TransMap使用了23種脊椎動物的超過400,000條mRNA與庫中的人類mRNA進行了高嚴謹性的BLAT比對,。然后又使用Blastz這種在區(qū)分不同物種的能力上比BLAT更強的方法再次進行了比對。與translated BLAT法(Non-Human RefSeq Gene,圖2)相比較,,TransMap發(fā)現(xiàn)的旁系同源基因更少,,而比較的UTR堿基更多(圖2)。 為了研究密切相關的低覆蓋率基因組數(shù)據(jù),,使用的比對方法采用了相互最佳關系,,以此來提高線性預測的準確性。就像GBD中所有的注釋信息一樣,,數(shù)據(jù)庫的結構信息也能從相應的Genome Browser頁面中了解到。 6 新的基因分類(Gene Sorter) 用戶可以使用Gene Sorter借助不同的標準,,例如基因表達譜或蛋白同源性以及其它的一些用戶自行設定的條件對基因進行分類,。通過網(wǎng)頁上的鏈接可以很方便地切換到 Genome Browser頁面和其它的UCSC網(wǎng)站頁面,了解更多的表達譜信息,、蛋白間相互作用信息和其它的相關信息,。去年,GBD還在Gene Sorter中添加了幾個新的內容,,現(xiàn)在Gene Sorter可以對人類,、小鼠、大鼠,、秀麗隱桿線蟲,、黑腹果蠅和酵母等六種模式生物的基因進行分類。 內含子大小欄目(Intron Size column)能顯示每一個基因內最大的或最小的內含子;編碼SNP欄目(Coding SNP column)能快速地了解外顯子多態(tài)性相關信息,;CDS值(CDS Score)表示該基因是編碼基因的可能性大?。换蚍诸悾℅ene Category)能對基因按編碼,、非編碼,、反義等情況進行分類;外顯子計數(shù)(Exon Count)記錄外顯子數(shù)目(見圖3),。 7 新的顯示特點 GBD在去年為 Genome Browser新增了幾項顯示特點,,其中很多都是按照用戶的反饋在實用性方面做出的一些改進。堿基位置跟蹤(Base Position track)現(xiàn)在可以提供一個選項,,即在網(wǎng)頁上自動顯示縮放條配置,。在網(wǎng)頁下方的反轉按鈕(Reverse button)能讓用戶方便的將整條序列反向顯示,這樣就能從5’-3’方向來顯示用戶的目的基因了(圖2)?,F(xiàn)在,,直接在定位框(Position box)中輸入“坐標值(coordinate)”來定位到一個核苷酸也是允許的了,例如輸入chr1:226356466就能定位到SNP rs 1128456位點(也可以在框中直接輸入SNP的rs號),。 此外,,在網(wǎng)頁中還做了幾項改進;例如,,Track group增加了下拉菜單,,這樣用戶就可以隱藏不需要或不感興趣的選項了。Tracks也可以輕易的從一個組(group)移動到另一個組,,包括移動到網(wǎng)頁頂部的Custom Tracks group,,這樣用戶就能在一個地方選擇所有感興趣的選項了,這項功能是大多數(shù)網(wǎng)站都不能提供的?,F(xiàn)在每一個選項的標簽上都有一個刷新按鈕,,這樣用戶就不需要頻繁的滾動頁面修改選項了。網(wǎng)站上還有許多“隱藏的”改進之處,。為了減少網(wǎng)頁中用于控制圖像的“路徑(track)”數(shù),,加快網(wǎng)頁的刷新速度,網(wǎng)站將相關的“路徑”都組合到一起形成“超級路徑(super-track)”來共享配置選項,。 用戶進入多重比對網(wǎng)頁可以獲得genome browser網(wǎng)頁中沒有的低覆蓋率物種的基因組DNA序列,。使用UCSC在線驗證PCR(UCSC In-silico PCR)功能還能讓用戶在Genome Browser網(wǎng)頁上直觀的看到PCR擴增片段與其它序列(例如最有用的外顯子或內含子)的關系。如果PCR引物與參考序列不相符,,網(wǎng)頁上會以紅色高亮的方式標示出它們之間的差別,。 8 用戶自定義選項功能的增強 UCSC Genome Browser提供的用戶自定義選項功能允許用戶按照自己設定的條件只瀏覽感興趣的數(shù)據(jù)結果。 新增了兩種用戶自定義數(shù)據(jù)時提交的數(shù)據(jù)格式,。 用戶自定義數(shù)據(jù)的內在表示法現(xiàn)在是基于專用機器的數(shù)據(jù)庫表,,而不再是以前所使用的基于文件系統(tǒng)的執(zhí)行命令,。 最近幾年,Genome Browser中最受廣大用戶歡迎的工具就是“作業(yè)保存(session-saving)”功能,,用戶使用該功能能夠保存并共享多個瀏覽器配置文件以供日后再次使用,。與“作業(yè)保存”功能相關的用戶選項功能也得到了增強。 因為有許多網(wǎng)頁設置,,還有幾乎無數(shù)的設置與顯示選項組合配置,,所以Genome Browser使用了cookies來保存這些設置。 9 未來的發(fā)展方向 UCSC將持續(xù)收錄新的脊椎動物和非脊椎動物模式生物的基因組數(shù)據(jù),。他們會與NCBI和Ensembl保持密切合作,,為獲得及處理新數(shù)據(jù)制定出標準化的的流程,以保證所有機構的數(shù)據(jù)都是一致的,。 他們希望能為2×覆蓋率的基因組計劃(2×coverage species project)提供包含44種物種基因組的多重比對,,還希望能為最新的人類基因組數(shù)據(jù)提供擴展的多重比對。千人基因組計劃(1000 Genomes project)獲得的數(shù)據(jù)也將收錄進變異信息庫,,還將收錄重組熱點的高分辨率圖譜(high-resolution maps of recombination hotspot),。 此外,GBD還計劃對網(wǎng)站進行進一步的升級,。例如擴展網(wǎng)站工具的實用性和可配置性,,升級isPCR功能,能讓用戶查詢“RNA空隙(RNA space)”來比對被內含子隔開的序列,,還將繼續(xù)升級用戶自定義系統(tǒng)使其支持混合格式數(shù)據(jù),。 在接下來的幾年中,我們計劃能讓用戶在Genome Browser上直接輸入信息,,就像wiki做的那樣,,這樣各種“基因專家”們就能在網(wǎng)站上發(fā)表評論、數(shù)據(jù)和其它各種信息,。最后要說的是,,UCSC一直在與全球傳染性疾病控制組織(Global Solutions for Infectious Diseases)合作開發(fā)限制訪問的醫(yī)藥數(shù)據(jù)系統(tǒng),例如HIV基因組數(shù)據(jù)和相關臨床數(shù)據(jù),。我們還與幾個研究機構合作建立了癌癥基因組網(wǎng)站(cancer genomics browser),。如果網(wǎng)站的訪問和保密問題解決了,我們將很快推出該網(wǎng)站,。 UCSC browser Guide.pdf(1835.27k) 在線查看 UCSC browser.pdf(1182.04k) 在線查看 Analysis of Genomic DNA with the UCSC Genome Browser.pdf(1643.81k) 在線查看 ? UCSC Genome Browser basics.mp4(45725.24k) Using UCSC Genome Browser.mp4(72788.49k) |
|
來自: zhuqiaoxiaoxue > 《生物信息學》