久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

NEJM|分子醫(yī)學(xué)中的人工智能

 智藥邦 2023-10-05 發(fā)布于上海
機(jī)器學(xué)習(xí)等人工智能方法在圖像識別,、語音識別,、自動駕駛方面的應(yīng)用備受矚目。如今,,這些方法正在被應(yīng)用于醫(yī)學(xué)領(lǐng)域,,以產(chǎn)生具有臨床指導(dǎo)意義的醫(yī)學(xué)信息。
2023年6月9日,,醫(yī)學(xué)頂級期刊N Engl J Med (最新影響因子158.5) 發(fā)表文章Artificial Intelligence in Molecular Medicine,,討論了機(jī)器學(xué)習(xí)在分子醫(yī)學(xué)中所發(fā)揮的關(guān)鍵作用。

大規(guī)模的分子數(shù)據(jù)生成

過去幾十年里,,我們大規(guī)模分析分子的能力發(fā)生了重大變化,。
以基因測序為例,最初,,基于Sanger技術(shù)的基因測序主要針對長度不超過幾百個堿基的DNA或RNA片段,。到了本世紀(jì)初,合成測序等方法逐漸受到重視,,可以同時合成和讀取數(shù)百乃至數(shù)十億的短DNA模板,。
人類基因組計劃花費10年時間對一個不完整的單倍體基因組進(jìn)行測序,耗資數(shù)十億美元,,而到2022年,,只需幾百美元就能在5小時內(nèi)對一個更完整的人類基因組進(jìn)行測序。
基因組測序產(chǎn)生的數(shù)據(jù)量巨大。在測序過程產(chǎn)生的計算機(jī)文本文件中,,每一行都代表一個單獨"讀取"的DNA或RNA分子,。基因組的一個子集的文本文件大小可以達(dá)到100到200千兆字節(jié),。

圖1.用于分子分析的數(shù)據(jù)處理

從組織樣本收集到準(zhǔn)確的臨床診斷,,需要使用新的測量技術(shù)來生成和分析數(shù)據(jù),需要復(fù)雜的實驗室和計算管道,。初始工作流程步驟通常包括樣品采集和文庫制備,。DNA和RNA測序通常通過合成測序(Illumina),納米孔測序(Oxford Nanopore)或單分子實時測序(SMRT,,Pacific Biosciences)完成,。每種方法都以原始數(shù)據(jù)的形式產(chǎn)生輸出

在分子數(shù)據(jù)規(guī)模化生成的同時,,分析工具也在同步改進(jìn),,以適應(yīng)這些分子"大數(shù)據(jù)"的數(shù)量、速度和種類,。事實證明,,機(jī)器學(xué)習(xí)的出現(xiàn)尤其具有價值。

以下是機(jī)器學(xué)習(xí)在生物醫(yī)學(xué)中的應(yīng)用,。

圖2.機(jī)器學(xué)習(xí)在生物醫(yī)學(xué)中的應(yīng)用

機(jī)器學(xué)習(xí)在基因組學(xué)中的應(yīng)用

機(jī)器學(xué)習(xí)在基因組學(xué)中的應(yīng)用,,取得的最重要進(jìn)展在于變異識別 (variant calling)--確定分析物序列(例如來自患者的樣本)與參考序列的不同之處。當(dāng)單個讀數(shù)被映射到參考基因組中的相應(yīng)位置時,,它們可以被可視化為一個"堆積(pile up)",,其中與參考序列不同的堿基被突出顯示 (圖1)。
這種可視化的表現(xiàn)形式有助于在基因組的復(fù)雜區(qū)域進(jìn)行快速人工審查,,這種洞察力促成了利用計算機(jī)視覺和圖像識別技術(shù)的進(jìn)步來進(jìn)行變異識別的深度學(xué)習(xí)方法的發(fā)展,。

圖3.機(jī)器學(xué)習(xí)在組學(xué)數(shù)據(jù)中的應(yīng)用

變異識別可以被視為圖像分類問題。在示例中,,序列數(shù)據(jù),、質(zhì)量分?jǐn)?shù)和其他讀取特征被編碼為多通道特征表示。然后將該特征表示輸入卷積神經(jīng)網(wǎng)絡(luò),,以計算三種基因型狀態(tài)的基因型可能性:純合參考、雜合或純合交替
深度神經(jīng)網(wǎng)絡(luò)是適用于大型數(shù)據(jù)集的復(fù)雜非線性函數(shù),。多層交替的"神經(jīng)元"權(quán)重和非線性將數(shù)據(jù)轉(zhuǎn)化為抽象的低維表示,,有助于分類。
有了神經(jīng)網(wǎng)絡(luò)的強(qiáng)大功能和讀取更長DNA分子的能力,,單體分型(將DNA鏈映射到親本染色體)的新時代就可能到來,。單體分型方法能更好地代表起源的DNA分子,從而提高變異識別的質(zhì)量,并能為臨床管理提供信息--例如,,在復(fù)合雜合子的情況下,,對同一基因座上兩個變異的起源親本的鑒定可能會影響病人的治療。
美國國家標(biāo)準(zhǔn)與技術(shù)研究院通過其"Genome in a Bottle Consortium"聯(lián)盟,、美國FDA通過其" precisionFDA initiative"計劃推動了上述進(jìn)展帶來的變異識別的改進(jìn),。這些組織利用標(biāo)準(zhǔn)化樣本共同舉辦了公開的"Truth Challenge"競賽。結(jié)果表明,,全基因組的變異識別準(zhǔn)確率不斷提高,,特別是在基因組中具有挑戰(zhàn)性的區(qū)域,如6號染色體上編碼主要組織相容性復(fù)合體的區(qū)域,。
機(jī)器學(xué)習(xí)在確定罕見病變異的優(yōu)先次序方面也被證明非常有用,。此外,應(yīng)用所有這些方法在確定罕見遺傳疾病方面尤為成功,。         

轉(zhuǎn)錄組學(xué)的機(jī)器學(xué)習(xí)

對轉(zhuǎn)錄組(生物體內(nèi)所有RNA轉(zhuǎn)錄本的總和)的讀取正被用作識別罕見病病因基因的另一種工具,。
最初的研究表明,通過將每個基因的表達(dá)譜與參考范圍進(jìn)行比較來識別表達(dá)異常值,,可以找出未被發(fā)現(xiàn)的病因基因,。在一大批未確診的罕見病患者中,血液轉(zhuǎn)錄組測序發(fā)現(xiàn)了8%的患者存在因果變異,。研究人員開發(fā)了一個包含基因表達(dá),、等位基因特異性表達(dá)和替代剪接數(shù)據(jù)的分層貝葉斯模型,可以用于識別基因驅(qū)動的轉(zhuǎn)錄組異常,。

盡管取得了這些進(jìn)展,,但預(yù)測剪接接頭仍然是一個具有挑戰(zhàn)性的問題。已有研究開發(fā)了一個32層深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,,顯示出了改善罕見疾病診斷的前景,。此外,使用自動編碼器已被證明可改善RNA測序數(shù)據(jù)的異常剪接預(yù)測(圖2),。

表觀基因組學(xué)應(yīng)用

表觀基因組學(xué)被定義為影響基因表達(dá)的一整套修飾,。
雖然人們知道表觀遺傳機(jī)制在某些罕見和常見疾病中起作用,但對DNA化學(xué)修飾的大規(guī)模表征才剛剛開始對臨床醫(yī)學(xué)產(chǎn)生影響,。

有研究顯示,,使用一系列神經(jīng)網(wǎng)絡(luò)(包括卷積神經(jīng)網(wǎng)絡(luò)、雙向遞歸神經(jīng)網(wǎng)絡(luò)和兩種類型的組合)的方法在甲基化檢測方面的C statistic超過了0.95,,優(yōu)于之前的基準(zhǔn)模型,。

蛋白質(zhì)組學(xué)的機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)對蛋白質(zhì)組學(xué)的影響是多方面的,在譜圖預(yù)測,、保留時間預(yù)測,、蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測,、蛋白質(zhì)磷酸化量化分析、生物標(biāo)志物預(yù)測等方面都有不同程度的應(yīng)用,。
有研究采用深度學(xué)習(xí)方法,,對已知化學(xué)分子的光譜圖 (Spectral Plots) 進(jìn)行訓(xùn)練,改進(jìn)了對候選肽段譜圖的預(yù)測--這是基于串聯(lián)質(zhì)譜的蛋白質(zhì)組學(xué)的關(guān)鍵步驟,。
肽的保留時間是肽從液相色譜柱洗脫出來的時間點,,使用基于卷積神經(jīng)網(wǎng)絡(luò)的工具能夠準(zhǔn)確預(yù)測肽的保留時間。
蛋白質(zhì)結(jié)構(gòu)預(yù)測工具AlphaFold的成功備受矚目,。大型語言模型最近也應(yīng)用于蛋白質(zhì)功能預(yù)測,,目的是加速藥物發(fā)現(xiàn)。
蛋白質(zhì)在磷酸化等過程中的翻譯后修飾對蛋白質(zhì)的功能,、調(diào)控和降解至關(guān)重要,,但量化仍是一個尚未解決的難題。目前,,從蛋白質(zhì)序列對翻譯后修飾位點進(jìn)行深度學(xué)習(xí)預(yù)測取得了成功,,通過結(jié)合機(jī)器學(xué)習(xí)方法(即隱馬爾可夫模型和卷積神經(jīng)網(wǎng)絡(luò)組合),從肽序列預(yù)測蛋白質(zhì)功能的工作也得到了改進(jìn),。

近年來,,預(yù)測生物標(biāo)志物一直是蛋白質(zhì)組學(xué)的主要臨床重點。有研究基于機(jī)器學(xué)習(xí)輔助的蛋白質(zhì)組學(xué)方法,,發(fā)現(xiàn)了酒精性肝病,、阿爾茨海默病和帕金森病的循環(huán)生物標(biāo)記物。 

代謝組學(xué)的應(yīng)用

蛋白質(zhì)組學(xué)側(cè)重于蛋白質(zhì)組分分析,,而代謝組學(xué)包括脂肪酸,、脂類、有機(jī)酸,、氨基酸,、類固醇和碳水化合物的測量。
代謝組學(xué)的主要臨床應(yīng)用之一是診斷先天性代謝錯誤,。傳統(tǒng)上,,嘌呤和氨基酸等特定類別代謝物的定量分析是通過單獨的檢測方法進(jìn)行的,其主要局限性在于對可能受影響途徑的先驗假設(shè),。與此相反,,基于質(zhì)譜的代謝組學(xué)可以與基因組測序相結(jié)合,作為一種非靶向策略,,以解決具有先天性代謝錯誤典型癥狀但標(biāo)準(zhǔn)篩查結(jié)果為陰性的患者診斷率低的問題,。
機(jī)器學(xué)習(xí)在代謝組學(xué)中已有一些應(yīng)用案例。例如,,代謝指紋方法利用支持向量機(jī)確定了丙酮酸激酶缺乏癥的診斷,。在另一個例子中,金屬蛋白基因中的變異為多通道卷積神經(jīng)網(wǎng)絡(luò)提供了訓(xùn)練數(shù)據(jù),,該網(wǎng)絡(luò)顯示,,金屬蛋白鐵結(jié)合位點的突變與代謝性疾病的關(guān)系比其他位置的突變更為密切。         

多組學(xué)應(yīng)用

隨著來自多種類型技術(shù)的高維數(shù)據(jù)越來越容易獲得,,結(jié)合數(shù)據(jù)的計算方法也變得越來越重要,。

最早的多組學(xué)研究(即整合基因組或蛋白質(zhì)組等多種"組學(xué)"數(shù)據(jù)類型的方法)實例之一是對一個人進(jìn)行的縱向分析,該分析結(jié)合了基因組,、轉(zhuǎn)錄組,、蛋白質(zhì)組、代謝組和自身抗體譜,。

這些方法要么在早期融合數(shù)據(jù),,將組學(xué)數(shù)據(jù)合并,然后進(jìn)行單一分析,,要么在后期融合數(shù)據(jù),,創(chuàng)建一個聯(lián)合模型,將多個單一組學(xué)分析的輸出結(jié)果結(jié)合起來,。

一些多組學(xué)方法已在臨床領(lǐng)域取得了成功,,例如,有研究利用以前發(fā)表的機(jī)器學(xué)習(xí)模型,,將亮氨酸拉鏈轉(zhuǎn)錄因子樣 1(LZTFL1)鑒定為Covid-19風(fēng)險位點的候選效應(yīng)基因,。此外,有研究通過使用支持向量機(jī)分析癌癥的基因組,、轉(zhuǎn)錄組和免疫組反應(yīng)數(shù)據(jù),,發(fā)現(xiàn)了免疫療法反應(yīng)的新型生物標(biāo)記物。         

結(jié)論

技術(shù)進(jìn)步極大地增強(qiáng)了我們大規(guī)模測量基本生物過程的能力,。由此產(chǎn)生的大量數(shù)據(jù)與機(jī)器學(xué)習(xí)方法相得益彰,,這些方法越來越適合分析多維生物數(shù)據(jù)集。這些方法正在臨床醫(yī)學(xué)中得到應(yīng)用,,其中進(jìn)展最大的是罕見遺傳病的診斷和治療,。

挑戰(zhàn)依然存在,主要包括數(shù)據(jù)質(zhì)量,、數(shù)據(jù)一致性和臨床醫(yī)生的認(rèn)識,。

隨著基準(zhǔn)指標(biāo)的擴(kuò)展、技術(shù)流程的標(biāo)準(zhǔn)化,、以及數(shù)據(jù)處理速度的提升和準(zhǔn)確性的提高,,人工智能有潛力對精準(zhǔn)醫(yī)療產(chǎn)生深遠(yuǎn)影響。

參考資料
Yu L. Artificial Intelligence in Molecular Medicine. N Engl J Med. 2023 Sep 28;389(13):1251-1252.
doi: 10.1056/NEJMc2308776.

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多