更多干貨內(nèi)容請(qǐng)關(guān)注微信公眾號(hào)“AI 前線”(ID:ai-front) 邁入機(jī)器學(xué)習(xí)與人工智能領(lǐng)域絕非易事,。考慮到目前市面上存在著大量可用資源,,眾多懷有這一抱負(fù)的專業(yè)人士及愛好者往往發(fā)現(xiàn)自己很難建立正確的發(fā)展路徑,。這一領(lǐng)域正不斷演變,我們必須緊隨時(shí)代的步伐,。為了應(yīng)對(duì)演進(jìn)與創(chuàng)新帶來的壓倒性速度,,保持機(jī)器學(xué)習(xí)認(rèn)知與知識(shí)積累的最好方法無疑在于同技術(shù)社區(qū)開展合作,進(jìn)而為眾多頂尖專家所使用的開源項(xiàng)目及工具提供貢獻(xiàn),。 在今天的文章當(dāng)中,,我們更新了原有信息,旨在對(duì)此前于 2016 年 11 月發(fā)布的二十大 Python 機(jī)器學(xué)習(xí)開源項(xiàng)目清單呈現(xiàn)出的趨勢(shì)作出一番全面整理,。 Tensorflow 憑借著三位數(shù)的貢獻(xiàn)者增長(zhǎng)量成為新的冠軍,,Scikit-learn 雖然跌落至第二,但仍然擁有相當(dāng)龐大的貢獻(xiàn)者群體,。相較于 2016 年,,各項(xiàng)目的貢獻(xiàn)者增長(zhǎng)速度分別為:
圖一:GitHub 上的二十大 Python 人工智能與機(jī)器學(xué)習(xí)項(xiàng)目,。 項(xiàng)目規(guī)模與貢獻(xiàn)者數(shù)量成正比,顏色表示貢獻(xiàn)者的數(shù)量變化——紅色更高,。 可以看到,,TensorFlow、Theano 以及 Caffe 等深度學(xué)習(xí)項(xiàng)目目前擁有極高人氣,。 以下清單整理自 Github 上的貢獻(xiàn)者數(shù)量,,以降序形式排列。感興趣的朋友亦可點(diǎn)擊其中的鏈接以查看各項(xiàng)目的說明文檔頁(yè)面,,并以此為起點(diǎn)開始協(xié)作及學(xué)習(xí)利用 Python 實(shí)現(xiàn)機(jī)器學(xué)習(xí)的具體方式,。 1.TensorFlow 最初由谷歌公司機(jī)器智能研究部門旗下 Brain 團(tuán)隊(duì)的研究人員及工程師們所開發(fā)。這套系統(tǒng)專門用于促進(jìn)機(jī)器學(xué)習(xí)方面的研究,,旨在顯著加快并簡(jiǎn)化由研究原型到生產(chǎn)系統(tǒng)的轉(zhuǎn)化,。貢獻(xiàn)者數(shù)量增長(zhǎng) 168%。 提交數(shù)量:28476 次,。貢獻(xiàn)者數(shù)量:1324 名,。Github URL:https://github.com/tensorflow/tensorflow。排名變化:+1,。 2.Scikit-learn 是一套簡(jiǎn)單且高效的數(shù)據(jù)挖掘與數(shù)據(jù)分析工具,,可供任何人群使用,可在多種場(chǎng)景下進(jìn)行復(fù)用,,立足 NumPy,、SciPy 以及 matplotlib 構(gòu)建,,遵循 BSD 許可且可進(jìn)行商業(yè)使用。貢獻(xiàn)數(shù)量增長(zhǎng) 39%,。 提交數(shù)量:22575 次,。貢獻(xiàn)者數(shù)量:1019 名。Github URL:https://github.com/scikit-learn/scikit-learn,。排名變化:-1,。 3.Theano 允許大家高效對(duì)關(guān)于多維陣列的數(shù)學(xué)表達(dá)式進(jìn)行定義、優(yōu)化與評(píng)估,。貢獻(xiàn)者數(shù)量增加 24%,。 提交數(shù)量:27931 次,。貢獻(xiàn)者數(shù)量:327 名,。Github URL:https://github.com/Theano/Theano。排名變化:0,。 4.Gensim 是一套自由 Python 庫(kù),,其中包含可擴(kuò)展統(tǒng)計(jì)語(yǔ)義,、純文本文檔語(yǔ)義結(jié)構(gòu)分析、語(yǔ)義相似性檢索等功能,。貢獻(xiàn)者數(shù)量增加 81%,。 提交數(shù)量:3549 次。貢獻(xiàn)者數(shù)量:262 名,。Github URL:https://github.com/RaRe-Technologies/gensim,。排名變化:+1,。 5.Caffe 是一套深度學(xué)習(xí)框架,,主要面向表達(dá)、速度與模塊化等使用方向,。此框架由伯克利大學(xué)視覺與學(xué)習(xí)中心(簡(jiǎn)稱 BVLC)以及社區(qū)貢獻(xiàn)者共同開發(fā)完成,。貢獻(xiàn)者數(shù)量增加 21%。 提交數(shù)量:4099 次,。貢獻(xiàn)者數(shù)量:260 名,。Github URL:https://github.com/BVLC/caffe。排名變化:-1,。 6.Chainer 是一套基于 Python 的獨(dú)立開源框架,,專門面向各類深度學(xué)習(xí)模型。Chainer 提供靈活,、直觀且高效的手段以實(shí)現(xiàn)全面的深度學(xué)習(xí)模型,,其中包括遞歸神經(jīng)網(wǎng)絡(luò)以及變分自動(dòng)編碼器等最新模型。貢獻(xiàn)者數(shù)量增加 84%,。 提交數(shù)量:12613 次,。貢獻(xiàn)者數(shù)量:154 名,。Github URL:https://github.com/chainer/chainer。排名變化:+3,。 7.Statsmodels 是一套 Python 模塊,,允許用戶進(jìn)行數(shù)據(jù)探索、統(tǒng)計(jì)模型評(píng)估并執(zhí)行統(tǒng)計(jì)測(cè)試,。其提供包含描述統(tǒng)計(jì),、統(tǒng)計(jì)測(cè)試、繪圖功能以及結(jié)果統(tǒng)計(jì)的廣泛列表,,適用于各種不同類型的數(shù)據(jù)與估算工具,。貢獻(xiàn)者數(shù)量增加 33%。 提交數(shù)量:9729 次,。貢獻(xiàn)者數(shù)量:144 名,。Github URL:https://github.com/statsmodels/statsmodels/。排名變化:0,。 8.Shogun 是一款機(jī)器學(xué)習(xí)工具集其中提供多種統(tǒng)一且高效的機(jī)器學(xué)習(xí)(簡(jiǎn)稱 ML)方興未艾,。這套工具集能夠以無縫化方式對(duì)多種數(shù)據(jù)表達(dá)、算法類以及通用型工具加以組合,。貢獻(xiàn)者數(shù)量增加 33%,。 提交數(shù)量:16362 次。貢獻(xiàn)者數(shù)量:139 名,。Github URL:https://github.com/shogun-toolbox/shogun,。排名變化:0。 9.Pylearn2 是一套機(jī)器學(xué)習(xí)庫(kù),。其主要功能以 Theano 為實(shí)現(xiàn)基礎(chǔ),。這意味著大家可以利用數(shù)學(xué)表達(dá)式編寫 Pylearn2 插件(新模型以及算法等),而 Theano 將對(duì)這些表達(dá)式進(jìn)行優(yōu)化與穩(wěn)定調(diào)整,,并將其編譯至您所選定的后端(CPU 或 GPU),。貢獻(xiàn)者數(shù)量增加 3.5%。 提交數(shù)量:7119 次,。貢獻(xiàn)者數(shù)量:119 名,。Github URL:https://github.com/lisa-lab/pylearn2。排名變化:-3,。 10.NuPIC 是一個(gè)開源項(xiàng)目,,基于所謂新皮層理論中的分層時(shí)間記憶(特立獨(dú)行 HTM)概念。HTM 理論中的部分內(nèi)容已經(jīng)在現(xiàn)實(shí)層面得到應(yīng)用,、測(cè)試以及使用,,而該理論的其余部分則仍處于開發(fā)階段。貢獻(xiàn)者數(shù)量增加 12%,。 提交數(shù)量:6588 次,。貢獻(xiàn)者數(shù)量:85 名,。Github URL:https://github.com/numenta/nupic。排名變化:0,。 11.Neon 為 Nervana 的基于 Python 的深度學(xué)習(xí)庫(kù),。其在實(shí)現(xiàn)易用性的同時(shí),亦可提供極高的性能表現(xiàn),。貢獻(xiàn)者數(shù)量增加 66%,。 提交數(shù)量:1112 次。貢獻(xiàn)者數(shù)量:78 名,。Github URL:https://github.com/NervanaSystems/neon,。排名變化:0。 12.Nilearn 是一套 Python 模塊,,用于對(duì) NeroImaging 數(shù)據(jù)進(jìn)行便捷學(xué)習(xí),。其利用 scikit-learn Python 工具集進(jìn)行多變量統(tǒng)計(jì),并可提供預(yù)測(cè)建模,、分類,、解碼或者連接分析等應(yīng)用選項(xiàng)。貢獻(xiàn)者數(shù)量增加 50%,。 提交數(shù)量:6198 次,。貢獻(xiàn)者數(shù)量:69 名。Github URL:https://github.com/nilearn/nilearn,。排名變化:0,。 13.Orange3 是一套同時(shí)面向新手與專家的開源機(jī)器學(xué)習(xí)與數(shù)據(jù)可視化方案。其中的大規(guī)模工具集可實(shí)現(xiàn)交互數(shù)據(jù)分析工作流,。貢獻(xiàn)者數(shù)量增加 33%,。 提交數(shù)量:8915 次。貢獻(xiàn)者數(shù)量:53 名,。Github URL:https://github.com/biolab/orange3,。排名變化:0,。 14.Pymc 是一款 Python 模塊,,可實(shí)現(xiàn)貝葉斯統(tǒng)計(jì)模型與擬合算法,包括馬爾可夫鏈蒙特卡洛算法,。其出色的靈活性與可擴(kuò)展性使其適用于多種任務(wù),。貢獻(xiàn)者數(shù)量增加 6%。 提交數(shù)量:2721 次,。貢獻(xiàn)者數(shù)量:39 名,。Github URL:https://github.com/pymc-devs/pymc。排名變化:0,。 15.Deap 是一種用于快速原型設(shè)計(jì)與思路測(cè)試的新型進(jìn)化計(jì)算框架,。其目標(biāo)在于提升自滿的明確度與數(shù)據(jù)結(jié)構(gòu)的透明性,。其與多進(jìn)程及 SCOOP 的并行機(jī)制能夠完美契合。貢獻(xiàn)者數(shù)量增加 86%,。 提交數(shù)量:1960 次,。貢獻(xiàn)者數(shù)量:39 名。Github URL:https://github.com/deap/deap,。排名變化:+4,。 16.Annoy (全稱為近似最近毗鄰) 是一套 C++ 庫(kù),且綁定有 Python 以搜索空間當(dāng)中與給定查詢點(diǎn)相信的各點(diǎn),。其亦可創(chuàng)建基于文件的大型只讀數(shù)據(jù)結(jié)構(gòu)并將其映射至內(nèi)存當(dāng)中,,從而實(shí)現(xiàn)多進(jìn)程間共享相同數(shù)據(jù)。貢獻(xiàn)者數(shù)量增加 46%,。 提交數(shù)量:527 次,。貢獻(xiàn)者數(shù)量:35 名。Github URL:https://github.com/spotify/annoy,。排名變化:+2,。 17.PyBrain 是一套面向 Python 的模塊化機(jī)器學(xué)習(xí)庫(kù),其目標(biāo)在于為各類機(jī)器學(xué)習(xí)任務(wù)及多種預(yù)定義環(huán)境提供靈活且易于使用的強(qiáng)大算法,,從而測(cè)試并比較各類算法,。貢獻(xiàn)者數(shù)量增加 3%。 提交數(shù)量:992 次,。貢獻(xiàn)者數(shù)量:32 名,。Github URL:https://github.com/pybrain/pybrain。排名變化:-2,。 18.Fuel 是一套數(shù)據(jù)管道框架,,旨在為您的機(jī)器學(xué)習(xí)模型提供其需要的數(shù)據(jù)。該項(xiàng)目原本專供 Blocks 與 Pylearn2 神經(jīng)網(wǎng)絡(luò)庫(kù)使用,。貢獻(xiàn)者數(shù)量增加 10%,。 提交數(shù)量:1116 次。貢獻(xiàn)者數(shù)量:32 名,。Github URL:https://github.com/mila-udem/fuel,。排名變化:-2。 19.PyMVPA 是一套 Python 工具包,,旨在簡(jiǎn)化對(duì)大型數(shù)據(jù)集的統(tǒng)計(jì)學(xué)習(xí)分析流程,。其提供一套擴(kuò)展框架,可通過一套高級(jí)接口實(shí)現(xiàn)分類,、回歸,、特征選擇、數(shù)據(jù)導(dǎo)入與導(dǎo)出等多種算法,。貢獻(xiàn)者數(shù)量增加 8%,。 提交數(shù)量:9373 次,。貢獻(xiàn)者數(shù)量:28 名。Github URL:https://github.com/PyMVPA/PyMVPA,。排名變化:-2,。 20.Pattern 是一套面向 Python 編程語(yǔ)言的 Web 挖掘模塊。其捆綁多款工具,,可用于數(shù)據(jù)挖掘(谷歌 +Twitter+ 維基百科 API,、Web 爬取器、HTML DOM 解析器),、自然語(yǔ)言處理(詞性標(biāo)注器,、n-gram 搜索、情感分析,、WordNet),、機(jī)器學(xué)習(xí)(向量空間模型、k-means 聚類,、樸素貝葉斯 +k-NN+SVM 分類器)以及網(wǎng)絡(luò)分析(圖形中心性與可視化),。貢獻(xiàn)者數(shù)量減少 5%。 提交數(shù)量:968 次,。貢獻(xiàn)者數(shù)量:19 名,。Github URL:https://github.com/clips/pattern。排名變化:0,。 以上貢獻(xiàn)者與提交次數(shù)數(shù)據(jù)截至 2018 年 2 月 13 日,。 原文鏈接:https://www./2018/02/top-20-python-ai-machine-learning-open-source-projects.html 人工智能時(shí)代,如何快速且有效地入門,?需要哪些數(shù)學(xué)基礎(chǔ),?怎樣掌握機(jī)器學(xué)習(xí)主要方法? 工學(xué)博士,、副教授王天一在他的《人工智能基礎(chǔ)課》里,,會(huì)帶你鞏固人工智能基礎(chǔ),梳理人工智能知識(shí)框架,,了解人工智能的最佳應(yīng)用場(chǎng)景,。 |
|