https://sh.qihoo.com/2s21quk9215?sign=look&uid=ea19b43da35dc64062d0b7a25448a7ab 編者按:基因編輯技術(shù)CRISPR就像是一種納米級的“針線包”,,可以在特定位置上對DNA進(jìn)行剪切和修改。為了使CRISPR的操作更加準(zhǔn)確,,研究員們開發(fā)出了一套借助機(jī)器學(xué)習(xí)來讓CRISPR減少“脫靶效應(yīng)”的計算工具--Elevation,。目前,Elevation以及另外一款用于預(yù)測在靶效應(yīng)的補(bǔ)充工具Azimuth一起發(fā)布在微軟Azure上供大家免費(fèi)使用,,同時也以開源的形式向公眾開放,。本文翻譯自Researchers use AI to improve accuracy of gene editing with CRISPR。 從左至右:微軟研究員NicoloFusi,,UC Berkeley教授Jennifer Listgarten,,Broad研究所副總監(jiān)JohnDoench CRISPR(成簇規(guī)則間隔短回文式重復(fù))是一項(xiàng)正在徹底改變醫(yī)療保健和農(nóng)業(yè)等眾多產(chǎn)業(yè)的基因編輯技術(shù),就像是一種納米級的“針線包”,,可以在特定基因的特定位置上對DNA進(jìn)行剪切和修改,。這項(xiàng)技術(shù)可能會帶來突破性的應(yīng)用,例如對細(xì)胞進(jìn)行修改以對抗癌癥,,或生成高產(chǎn),、抗旱的小麥和玉米等農(nóng)作物等。 盡管CRISPR在一些領(lǐng)域有著很好的應(yīng)用前景,,但它也面臨挑戰(zhàn):由于很多基因組區(qū)域是相似的,,納米級“針線包”可能會意外地在錯誤的基因上“動手腳”,從而導(dǎo)致意想不到的后果--即所謂“脫靶效應(yīng)”,。 為了解決上述難題,,來自美國各地研究機(jī)構(gòu)的計算機(jī)科學(xué)家和生物學(xué)家通力合作,開發(fā)了一套可提升CRISPR效率和準(zhǔn)確性的計算工具--Elevation,,它能借助機(jī)器學(xué)習(xí)預(yù)測用CRISPR進(jìn)行編輯基因時可能出現(xiàn)的“脫靶效應(yīng)”,。 目前,Elevation以及另外一款用于預(yù)測在靶效應(yīng)的補(bǔ)充工具Azimuth一起,,已經(jīng)作為基于云的端到端服務(wù)在微軟Azure上供大家免費(fèi)使用,,同時也以開源的形式向公眾開放,。 利用這套工具,研究人員只需輸入他們希望修改的基因名稱,,云基搜索引擎將返回一份向?qū)NA列表,,研究人員可以通過預(yù)測的在靶或脫靶效應(yīng)對其進(jìn)行排序并選擇。 源于自然 CRISPR基因編輯系統(tǒng)源自自然界反病毒機(jī)制,??茖W(xué)家于20世紀(jì)80年代后期在細(xì)菌的DNA中發(fā)現(xiàn)了它,此后花費(fèi)了數(shù)十年的時間弄清了它的工作原理,。CRISPR描述了細(xì)菌基因組中的一種由多個DNA重復(fù)序列區(qū)和多個短小的非重復(fù)的DNA間隔區(qū)組成的DNA序列,。非重復(fù)間隔區(qū)是來自入侵病毒DNA的拷貝,被稱為RNA的分子信使將以它為模板,,識別后續(xù)的病毒侵染,。當(dāng)檢測到入侵者時,RNA將CRISPR復(fù)合物引導(dǎo)至病毒處,,并指派與CRISPR相關(guān)(或稱Cas)的蛋白質(zhì)前去切斷病毒基因,,使之失效。 2012年,,分子生物學(xué)家想出了改造細(xì)菌反病毒系統(tǒng)的方法,,用于對植物、老鼠乃至人類等各類生物的基因進(jìn)行編輯,,這就是CRISPR-Cas9基因編輯技術(shù),。其基本工作機(jī)理如下:科學(xué)家設(shè)計合成向?qū)NA,與他們希望剪切或編輯的基因中的DNA序列進(jìn)行匹配,,并用CRISPR相關(guān)蛋白剪刀(即Cas9)將其釋放到某個細(xì)胞中,。 今天,這項(xiàng)技術(shù)被當(dāng)作一種有效,、精確的方法,,被廣泛用于了解生物中基因個體的作用,以及如何通過改變基因來完成從抗擊疾病到增加食物供給等各項(xiàng)使命,。 對于研究人員來說,,這個方法最大的挑戰(zhàn)就是在給定實(shí)驗(yàn)中決定應(yīng)該選擇什么樣的向?qū)NA。因?yàn)槊總€向?qū)NA中大約有20個核苷酸;在基因敲除實(shí)驗(yàn)中,,每個標(biāo)靶基因都有數(shù)百個潛在向?qū)NA。一般而言,,每個向?qū)NA都具有互不相同的在靶效率和不同程度的脫靶問題,。 計算機(jī)科學(xué)家和生物學(xué)家之間協(xié)作的重點(diǎn)是建立工具,幫助研究人員選擇最適和當(dāng)前實(shí)驗(yàn)的向?qū)NA,。 訓(xùn)練模型 為了能解決在試驗(yàn)中正確選擇向?qū)NA的難題,,研究人員首先用數(shù)據(jù)訓(xùn)練了第一層機(jī)器學(xué)習(xí)模型,。這些數(shù)據(jù)記錄了與給定的向?qū)NA有一項(xiàng)核苷酸不匹配的所有可能的標(biāo)靶區(qū)域里發(fā)生的脫靶活動。 接著,,機(jī)器學(xué)習(xí)專家利用哈佛醫(yī)學(xué)院和馬薩諸塞州總醫(yī)院合作者此前生成的公開數(shù)據(jù),,對第二層機(jī)器學(xué)習(xí)模型進(jìn)行了訓(xùn)練,將第一層模型加以細(xì)化,,并推廣到存在一個以上不匹配核苷酸的標(biāo)靶區(qū)域中,。 專家表示第二層模型非常重要,因?yàn)槊摪谢顒油l(fā)生在向?qū)NA與標(biāo)靶之間存在多個核苷酸不匹配的情況下,。 最后,,團(tuán)隊(duì)用其它幾個公開數(shù)據(jù)集以及哈佛醫(yī)學(xué)院和馬薩諸塞州總醫(yī)院下屬合作機(jī)構(gòu)創(chuàng)建的新數(shù)據(jù)集對雙層機(jī)器學(xué)習(xí)模型進(jìn)行了驗(yàn)證。研究人員發(fā)現(xiàn)一些模型特征非常直觀的,,例如向?qū)NA與核苷酸序列之間的不匹配,。另一些特征則反映了通過機(jī)器學(xué)習(xí)從DNA編碼中發(fā)現(xiàn)的某些未知屬性。 脫靶分值 脫靶分值是針對基因組上可能發(fā)生脫靶活動的每個區(qū)域,,基于機(jī)器學(xué)習(xí)計算出的概率,。針對每一種向?qū)NA,Elevation為研究人員提供了兩類脫靶分值:在某個標(biāo)靶區(qū)域里的單項(xiàng)分值和該向?qū)NA在所有標(biāo)靶區(qū)域的總分,。對于每個向?qū)NA,,Elevation都會返回數(shù)百到數(shù)千個此類脫靶分值。向?qū)NA的數(shù)量可能成千上萬,,針對某個特定實(shí)驗(yàn),,研究人員想要通過對比這些單項(xiàng)的脫靶分值來選擇適合的向?qū)NA非常困難。所以就需要把所有單項(xiàng)的脫靶分值加總出一個單一的總分,,用來反映特定向?qū)NA的所有潛在脫靶效應(yīng)在多大程度上會對細(xì)胞造成破壞,。對于生物學(xué)家來說,重要的并非基因組中每個點(diǎn)上的概率,,而是某向?qū)NA的各種脫靶活動導(dǎo)致細(xì)胞破壞的總體概率,。
|
|