最新一期的 KDnuggets 調(diào)查展示了一份數(shù)據(jù)科學家使用度最高的算法列表,,這份列表中包含了很多驚喜,,包括最學術(shù)的算法和面向產(chǎn)業(yè)化的算法。
哪些方法/算法是您在過去 12 個月中運用到一個實際的數(shù)據(jù)科學相關(guān)的應(yīng)用程序中的,?
這是基于 844 個投票者的結(jié)果
排名前十的算法以及他們的投票者的比例分布如下:
圖 1 :數(shù)據(jù)科學家使用度最高的 10 大算法
文末有全部算法的集合列表
每個受訪者平均使用 8.1 個算法,,這相比于 2011 的相似調(diào)查顯示的結(jié)果有了巨大的增長
與 2011 年關(guān)于數(shù)據(jù)分析/數(shù)據(jù)挖掘的調(diào)查相比,我們注意到最常用的方法仍然是回歸,、聚類,、決策樹/Rules 和可視化。相對來說最大的增長是由 (pct2016 /pct2011 - 1) 測定的以下算法:
Boosting,,從 2011 年的 23.5% 至 2016 年的 32.8%,,同比增長 40% 文本挖掘,從 2011 年的 27.7% 至 2016 年的 35.9%,,同比增長 30% 可視化,,從 2011 年的 38.3% 至 2016 年的 48.7%,同比增長 27% 時間序列/序列分析,,從 2011 年的 29.6% 至 2016 年的 37.0%,,同比增長 25% 異常/偏差檢測,從 2011 年的 16.4% 至 2016 年的 19.5%,,同比增長 19% 集成方法,,從 2011 年的 28.3%至 2016 年的 33.6%,同比增長 19% 支持向量機,,從 2011 年的 28.6% 至 2016 年的 33.6%,,同比增長 18% 回歸,從 2011 年的 57.9% 至 2016 年的 67.1%,,同比增長 16%
最受歡迎算法在 2016 年的調(diào)查中有了新的上榜名單:
最大幅下降的有:
關(guān)聯(lián)規(guī)則,,從 2011 年的 28.6% 至 2016 年的 15.3%,同比下降 47% 隆起造型,,從 2011 年的 4.8% 至 2016 年的 3.1%,,同比下降 36% 因素分析,從 2011 年的 18.6% 至 2016 年的 14.2%,,同比下降 24% 生存分析,,從 2011 年的 9.3% 至 2016 年的 7.9%,同比下降 15%
下表顯示了不同的算法類型的使用:監(jiān)督算法,、無監(jiān)督算法,、元算法,以及職業(yè)類型決定的對算法的使用,。我們排除 NA(4.5%)和其他(3%)的職業(yè)類型,。
|
職業(yè)類型 |
% 投票者比例 |
平均算法使用個數(shù) |
% 監(jiān)督算法使用度 |
% 無監(jiān)督算法使用度 |
% 元使用度 |
%其他方法使用度 | 1 | 產(chǎn)業(yè) | 59% | 8.4 | 94% | 81% | 55% | 83% | 2 | 政府/非營利機構(gòu) | 4.10% | 9.5 | 91% | 89% | 49% | 89% | 3 | 學生 | 16% | 8.1 | 94% | 76% | 47% | 77% | 4 | 學術(shù)界 | 12% | 7.2 | 95% | 81% | 44% | 77% | 5 | 整體 |
| 8.3 | 94% | 82% | 48% | 81% |
表 1:根據(jù)職業(yè)類型顯示的不同算法使用度
我們注意到,幾乎每個人都使用監(jiān)督學習算法,。
政府和產(chǎn)業(yè)業(yè)數(shù)據(jù)科學家比學生和學術(shù)研究人員使用更多不同類型的算法,,而產(chǎn)業(yè)數(shù)據(jù)科學家們更傾向于使用元算法。
接下來,,我們根據(jù)職業(yè)類型分析了前 10 名的算法+深度學習使用情況,。
| 算法 | 產(chǎn)業(yè) | 政府/非盈利機構(gòu) | 學術(shù)界 | 學生 | 整體 | 1 | 回歸 | 71% | 63% | 51% | 64% | 67% | 2 | 聚類 | 58% | 63% | 51% | 58% | 57% | 3 | 決策 | 59% | 63% | 38% | 57% | 55% | 4 | 可視化 | 55% | 71% | 28% | 47% | 49% | 5 | K-近鄰法 | 46% | 54% | 48% | 47% | 46% | 6 | 主成分分析 | 43% | 57% | 48% | 40% | 43% | 7 | 統(tǒng)計 | 47% | 49% | 37% | 36% | 43% | 8 | 隨機森林 | 40% | 40% | 29% | 36% | 38% | 9 | 時間序列 | 42% | 54% | 26% | 24% | 37% | 10 | 文本挖掘 | 36% | 40% | 33% | 38% | 36% | 11 | 深度學習 | 18% | 9% | 24% | 19% | 19% |
表 2:根據(jù)職業(yè)類型分類的 10 大算法+深度學習使用情況
為了更明顯的看到差異,我們計算了具體職業(yè)分類相比于平均算法使用度的一個算法偏差,,即偏差(ALG,,類型)=使用(ALG,類型)/使用(ALG,,所有的)
圖 2:職業(yè)對算法的使用偏好
我們注意到,,產(chǎn)業(yè)數(shù)據(jù)科學家們更傾向于使用回歸、可視化,、統(tǒng)計,、隨機森林和時間序列,。政府/非營利更傾向于使用可視化、主成分分析和時間序列,。學術(shù)研究人員更傾向于使用主成分分析和深度學習,。學生普遍使用更少的算法,但多為文本挖掘和深度學習,。
接下來,,我們看看某一具體地域的參與度,表示整體的 KDnuggets 的用戶:
美國/加拿大,,40% 歐洲,,32% 亞洲,18% 拉丁美洲,,5% 非洲/中東,,3.4% 澳洲/新西蘭,2.2%
由于在 2011 年的調(diào)查中,,我們將產(chǎn)業(yè)/政府分在了一組,,而將學術(shù)研究/學生分在了第二組,并計算了算法對于業(yè)界/政府的親切度:
N(Alg,Ind_Gov) / N(Alg,Aca_Stu) ------------------------------- - 1 N(Ind_Gov) / N(Aca_Stu)
因此親切度為 0 的算法表示它在產(chǎn)業(yè)/政府和學術(shù)研究人員或?qū)W生之間的使用情況對等,。越高 IG 親切度表示算法越被產(chǎn)業(yè)界普遍使用,,反之越接近「學術(shù)」。
最「產(chǎn)業(yè)」的算法是:
而 uplifting modeling 又是最「產(chǎn)業(yè)的算法」,令人驚訝的發(fā)現(xiàn)是,,它的使用率極低 - 只有 3.1% - 是本次調(diào)查的算法中最低的,。
最學術(shù)的算法是:
下圖顯示了所有的算法及其產(chǎn)業(yè)/學術(shù)親切度,。
圖 3:KDnuggets 投票:最常被數(shù)據(jù)科學家使用的算法:產(chǎn)業(yè)界 VS 學術(shù)界
下表有關(guān)于算法的細節(jié)、兩次調(diào)查中使用算法的比例,、以及像上面解釋的產(chǎn)業(yè)親切度,。
表 3:KDnuggets 2016 調(diào)查:數(shù)據(jù)科學家使用的算法
接下來的圖表展示了算法的細節(jié),按列
N:根據(jù)使用度排名 算法:算法名稱,, 類型:S - 監(jiān)督,,U - 無監(jiān)督,,M - 元,Z - 其他,, 在 2016 年調(diào)查中使用這種算法的調(diào)查者比例 在 2011 年調(diào)查中使用這種算法的調(diào)查者比例 變動(%2016 年/2011% - 1),, 產(chǎn)業(yè)親切度(如上所述)
N | 算法 | 類型 | 2016 年使用度 % | 2011 年使用度 % | 改變度 % | 產(chǎn)業(yè)親和度 | 1 | 回歸 | S | 67% | 58% | 16% | 0.21 | 2 | 聚類 | U | 57% | 52% | 8.70% | 0.05 | 3 | 決策樹/Rules | S | 55% | 60% | -7.30% | 0.21 | 4 | 可視化 | Z | 49% | 38% | 27% | 0.44 | 5 | K-近鄰法 | S | 46% |
|
| 0.32 | 6 | 主成分分析 | U | 43% |
|
| 0.02 | 7 | 統(tǒng)計 | Z | 43% | 48% | -11% | 1.39 | 8 | 隨機森林 | S | 38% |
|
| 0.22 | 9 | 時間序列/序列分析 | Z | 37% | 30% | 25% | 0.69 | 10 | 文本挖掘 | Z | 36% | 28% | 29.80% | 0.01 | 11 | 組合方法 | M | 34% | 28% | 18.90% | -0.17 | 12 | 支持向量機 | S | 34% | 29% | 17.60% | -0.24 | 13 | Boosting | M | 33% | 23% | 40% | 0.24 | 14 | 常規(guī)神經(jīng)網(wǎng)絡(luò) | S | 24% | 27% | -10.50% | -0.35 | 15 | 最優(yōu)化 | Z | 24% |
|
| 0.07 | 16 | 樸素貝葉斯 | S | 24% | 22% | 8.90% | -0.02 | 17 | Bagging | M | 22% | 20% | 8.80% | 0.02 | 18 | 偏差檢測 | Z | 20% | 16% | 19% | 1.61 | 19 | 神經(jīng)網(wǎng)絡(luò)-深度學習 | S | 19% |
|
| -0.35 | 20 | 奇異值分解 | U | 16% |
|
| 0.29 | 21 | 關(guān)聯(lián)規(guī)則 | Z | 15% | 29% | -47% | 0.5 | 22 | 圖/連接/社會網(wǎng)絡(luò)分析 | Z | 15% | 14% | 8% | -0.08 | 23 | 因素分析 | U | 14% | 19% | -23.80% | 0.14 | 24 | 貝葉斯網(wǎng)絡(luò) | S | 13% |
|
| -0.1 | 25 | 遺傳算法 | Z | 8.80% | 9.30% | -6% | 0.83 | 26 | 生存分析 | Z | 7.90% | 9.30% | -14.90% | -0.15 | 27 | 最大期望 | U | 6.60% |
|
| -0.19 | 28 | 其他方法 | Z | 4.60% |
|
| -0.06 | 29 | Uplift modeling | S | 3.10% | 4.80% | -36.10% | 2.01 |
表 4:KDnuggets 2016 調(diào)查:數(shù)據(jù)科學家使用的算法
本文由機器之心編譯,轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán),。
------------------------------------------------ 加入機器之心(全職記者/實習生):[email protected] 投稿或?qū)で髨蟮溃篹[email protected] 廣告&商務(wù)合作:[email protected]
|