今天給大家介紹由河南農(nóng)業(yè)大學(xué)陳震教授、美國弗吉尼亞聯(lián)邦大學(xué)Lukasz Kurgan教授和澳大利亞蒙納士大學(xué)宋江寧教授等團(tuán)隊(duì)合作于2021年6月份發(fā)表在生物學(xué)頂級(jí)期刊Nucleic Acids Research上的一個(gè)開源自動(dòng)化機(jī)器學(xué)習(xí)平臺(tái),。該平臺(tái)采用“一站式”的方式對(duì)生物序列(包含DNA,、RNA以及蛋白質(zhì)序列)進(jìn)行特征提取和選擇、聚類分析,、構(gòu)建和評(píng)測機(jī)器學(xué)習(xí)模型,,并將預(yù)測結(jié)果可視化。河南農(nóng)業(yè)大學(xué)陳震教授,、中國農(nóng)業(yè)科學(xué)院棉花所趙佩副研究員和蒙納士大學(xué)李晨博士為并列第一作者,。該工具使用Python/PyQt5作為主要開發(fā)工具和編程語言,并在目前所有主流系統(tǒng)包括Windows, MacOS和Linux系統(tǒng)下進(jìn)行了軟件測試運(yùn)行,。iLearnPlus平臺(tái)共包含四個(gè)既可獨(dú)立使用,,又可組合使用的系統(tǒng)模塊,可以分別實(shí)現(xiàn)對(duì)生物序列數(shù)據(jù)進(jìn)行特征提取,、分析,、建模以及數(shù)據(jù)可視化等多種功能。文章通過使用iLearnPlus對(duì)對(duì)長非編碼RNA和蛋白質(zhì)巴豆?;揎椀念A(yù)測作為運(yùn)行實(shí)例充分展示和論證了該工具的強(qiáng)大功能,。 介紹 在過去的幾十年里,由于高通量測序技術(shù)的顯著進(jìn)步和廣泛的應(yīng)用,產(chǎn)生了前所未有的海量生物序列數(shù)據(jù),。隨著這些數(shù)據(jù)的快速積累,,如何有效地、快速地對(duì)生物序列進(jìn)行分析,、挖掘和可視化已成為一項(xiàng)重要的研究課題。隨著機(jī)器學(xué)習(xí)方法在解決生物學(xué)問題中的廣泛應(yīng)用,,在完成主要實(shí)驗(yàn)的基礎(chǔ)上,,越來越多的團(tuán)隊(duì)選擇使用基于機(jī)器學(xué)習(xí)的法方法對(duì)生物序列進(jìn)行精準(zhǔn)預(yù)測和分析。因此,,構(gòu)建“一站式”的機(jī)器學(xué)習(xí)平臺(tái)對(duì)于預(yù)測,、分析生物序列數(shù)據(jù)至關(guān)重要?;跈C(jī)器學(xué)習(xí)的序列分析大致包括序列特征提取,、特征分析、模型構(gòu)建,、模型性能評(píng)價(jià)以及對(duì)數(shù)據(jù)和結(jié)果的可視化五個(gè)步驟(圖1),。 圖1.基于機(jī)器學(xué)習(xí)的生物序列分析的五個(gè)主要步驟 基于機(jī)器學(xué)習(xí)的生物序列分析和預(yù)測是一個(gè)復(fù)雜任務(wù),通常需要掌握多種生物信息學(xué)技能,。因此,,為了能讓更多沒有生物信息學(xué)經(jīng)驗(yàn)的研究人員也能夠進(jìn)行序列分析和預(yù)測,我們采用Python/PyQt5開發(fā)了一個(gè)綜合的能夠?qū)ι镄蛄羞M(jìn)行分析和預(yù)測平臺(tái),,并命名為iLearnPlus,。iLearnPlus能夠在所有主流的操作系統(tǒng)(Windows、Linux,、Mac OSX等)上運(yùn)行,。它包含四個(gè)主要的模塊:Basic模塊、Estimator模塊,、AutoML模塊和LoadModel模塊,,以滿足不同用戶的序列分析和建模需求?;谶@些模塊,,用戶可以方便的實(shí)現(xiàn)圖1中序列分析過程中的所有步驟。iLearnPlus的成功開發(fā)不僅使非生信背景的研究人員能夠方便的進(jìn)行基于機(jī)器學(xué)習(xí)的序列分析和預(yù)測,,而且也能夠降低生信背景研究人員的開發(fā)量,,進(jìn)而提高開發(fā)效率。與其他相關(guān)工具比較,,iLearnPlus具有以下幾方面的優(yōu)點(diǎn):
序列特征提取 Basic模塊可用于對(duì)蛋白質(zhì)和核酸序列進(jìn)行特征提取,。這些特征提取方法可以把輸入序列轉(zhuǎn)換成為各種各樣的數(shù)字表示,并作為后續(xù)機(jī)器學(xué)習(xí)任務(wù)的輸入,。iLearnPlus收集了19大類共總共147種編碼類型(表1和表2),。 序列特征分析 在一般的分析流程當(dāng)中,特征分析雖然是可選項(xiàng),,但是也是一個(gè)非常重要的步驟,。比如:利用特征篩選可以篩選出與目標(biāo)問題最重要的特征,排除其他具有誤導(dǎo)性的或者對(duì)預(yù)測性能起負(fù)面作用的特征,,來構(gòu)建非冗余的特征集,,從而有效的提高后續(xù)模型的性能。iLearnPlus提供了多種特征分析算法,,包含10種聚類算法,、5種特征篩選算法、3種降維算法和兩種特征標(biāo)準(zhǔn)化方法(表3),。 分類器構(gòu)建和模型整合 很多基于機(jī)器學(xué)習(xí)的序列分析任務(wù)可以看作是分類任務(wù),,比如蛋白結(jié)構(gòu)預(yù)測,核酸的功能預(yù)測等,。iLearnPlus支持二分類和多分類任務(wù),,并整合了14種常用的機(jī)器學(xué)習(xí)算法和7種深度學(xué)習(xí)算法(表4)。為了使模型的訓(xùn)練更加方便,,iLearnPlus既支持參數(shù)自動(dòng)優(yōu)化,,同時(shí)也允許用戶指定參數(shù)的設(shè)置。iLearnPlus可以對(duì)這些參數(shù)采用網(wǎng)格搜索的算法進(jìn)行優(yōu)化,。除此之外,,iLearnPlus還能夠?qū)Χ喾N模型進(jìn)行整合。 性能評(píng)價(jià) 為了對(duì)模型的性能進(jìn)行評(píng)價(jià),,iLearnPlus采用K折交叉驗(yàn)證的方式對(duì)模型進(jìn)行訓(xùn)練和優(yōu)化,。對(duì)于二分類任務(wù)采用sensitivity, specificity, accuracy, Matthews correlation coefficient, Precision, F1 score, the area under ROC curve and the area under the PRC curve等指標(biāo)對(duì)模型的性能進(jìn)行評(píng)價(jià),對(duì)于多分類任務(wù)則采用accuracy進(jìn)行評(píng)價(jià),。除此之外,,iLearnPlus還提供了兩種統(tǒng)計(jì)顯著性檢驗(yàn)來對(duì)不同特征編碼的性能和不同模型的預(yù)測性能進(jìn)行差異顯著性評(píng)測。 數(shù)據(jù)可視化 iLearnPlus提供了多種圖形對(duì)數(shù)據(jù)和結(jié)果進(jìn)行展示(表5),,例如采用柱狀圖和核密度曲線序列編碼的分布進(jìn)行展示,,利用散點(diǎn)圖對(duì)聚類結(jié)果和降維結(jié)果進(jìn)行展示,,采用boxplot對(duì)不同特征編碼的預(yù)測性能和不同模型的性能進(jìn)行比較等。這些圖都可以保存為多種圖片格式,。 iLearnPlus的模塊設(shè)計(jì) iLearnPlus包含四個(gè)基本模塊(圖2),。Basic模塊可以實(shí)現(xiàn)圖1中所概括的五個(gè)主要步驟。用戶可以根據(jù)自己的需要選擇Basic模塊中不同的功能進(jìn)行使用,。例如,,用戶可以輸入蛋白質(zhì)序列然后選擇編碼類型從而獲得序列的特征編碼,也可以直接輸入編碼文件進(jìn)行后續(xù)的特征分析或者模型構(gòu)建,。值得注意的是,,Basic模塊中不同功能中的數(shù)據(jù)可以相互加載,從而方便用戶的使用,。由于Basic模塊只能選擇一種編碼類型進(jìn)行使用,,我們?cè)O(shè)計(jì)了Estimator模塊,。這個(gè)模塊可以有效的解決用戶一次性對(duì)多種編碼進(jìn)行性能測試的需求,。在Estimator模塊中,用戶可以一次選擇多個(gè)特征編碼,,然后選擇一種機(jī)器學(xué)習(xí)算法,,對(duì)多種編碼的性能進(jìn)行測試。測試的結(jié)果以表格和多種圖形進(jìn)行展示,。AutoML模塊則允許用戶同時(shí)對(duì)多個(gè)機(jī)器學(xué)習(xí)算法進(jìn)行性能測試,。三個(gè)模塊所產(chǎn)生的模型都可以以文件的形式進(jìn)行保存,用戶可以通過LoadModel模塊加載保存的模型,,并對(duì)新的測試數(shù)據(jù)進(jìn)行預(yù)測,。 圖2. iLearnPlus的主要框架 安裝iLearnPlus iLearnPlus的安裝十分方便。用戶既可以通過pip命令方便的安裝,,其源碼也可以通過https://github.com/Superzchen/iLearnPlus/鏈接進(jìn)行下載,。此外,我們還開發(fā)了一個(gè)在線的webserver來實(shí)現(xiàn)iLearnPlus-Basic模塊的功能,,其網(wǎng)址為: http://ilearnplus.erc./,。 參考資料 Zhen Chen et al., iFeature: a Python package and web server for features extraction and selection from protein and peptide sequences. Bioinformatics, 2018, 34(14): 2499–2502. https:///10.1093/bioinformatics/bty140 Zhen Chen et al., iLearn: an integrated platform and meta-learner for feature engineering, machine-learning analysis and modeling of DNA, RNA and protein sequence data. Briefings in Bioinformatics, 2020, 21(3): 1047–1057. https:///10.1093/bib/bbz041 Zhen Chen et al., iLearnPlus: a comprehensive and automated machine-learning platform for nucleic acid and protein sequence analysis, prediction and visualization. Nucleic Acids Research , 2021,49(10): e60. https:///10.1093/nar/gkab122 |
|