久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

深度 | KDnuggets 官方調(diào)查:數(shù)據(jù)科學家最常用的十種算法

 學習雪雪 2017-05-18

選自kdnuggets

機器之心編譯 

參與:Terrence L、李亞洲


最新一期的 KDnuggets 調(diào)查展示了一份數(shù)據(jù)科學家使用度最高的算法列表,,這份列表中包含了很多驚喜,,包括最學術(shù)的算法和面向產(chǎn)業(yè)化的算法。


哪些方法/算法是您在過去 12 個月中運用到一個實際的數(shù)據(jù)科學相關(guān)的應(yīng)用程序中的,?


這是基于 844 個投票者的結(jié)果


排名前十的算法以及他們的投票者的比例分布如下:



圖 1 :數(shù)據(jù)科學家使用度最高的 10 大算法


文末有全部算法的集合列表


每個受訪者平均使用 8.1 個算法,,這相比于 2011 的相似調(diào)查顯示的結(jié)果有了巨大的增長


與 2011 年關(guān)于數(shù)據(jù)分析/數(shù)據(jù)挖掘的調(diào)查相比,我們注意到最常用的方法仍然是回歸,、聚類,、決策樹/Rules 和可視化。相對來說最大的增長是由 (pct2016 /pct2011 - 1) 測定的以下算法:


  • Boosting,,從 2011 年的 23.5% 至 2016 年的 32.8%,,同比增長 40%

  • 文本挖掘,從 2011 年的 27.7% 至 2016 年的 35.9%,,同比增長 30%

  • 可視化,,從 2011 年的 38.3% 至 2016 年的 48.7%,同比增長 27%

  • 時間序列/序列分析,,從 2011 年的 29.6% 至 2016 年的 37.0%,,同比增長 25%

  • 異常/偏差檢測,從 2011 年的 16.4% 至 2016 年的 19.5%,,同比增長 19%

  • 集成方法,,從 2011 年的 28.3%至 2016 年的 33.6%,同比增長 19%

  • 支持向量機,,從 2011 年的 28.6% 至 2016 年的 33.6%,,同比增長 18%

  • 回歸,從 2011 年的 57.9% 至 2016 年的 67.1%,,同比增長 16%


最受歡迎算法在 2016 年的調(diào)查中有了新的上榜名單:


  • K-近鄰,,46%

  • 主成分分析,43%

  • 隨機森林,,38%

  • 優(yōu)化,,24%

  • 神經(jīng)網(wǎng)絡(luò) - 深度學習,19%

  • 奇異值分解,,16%


最大幅下降的有:


  • 關(guān)聯(lián)規(guī)則,,從 2011 年的 28.6% 至 2016 年的 15.3%,同比下降 47%

  • 隆起造型,,從 2011 年的 4.8% 至 2016 年的 3.1%,,同比下降 36%

  • 因素分析,從 2011 年的 18.6% 至 2016 年的 14.2%,,同比下降 24%

  • 生存分析,,從 2011 年的 9.3% 至 2016 年的 7.9%,同比下降 15%


下表顯示了不同的算法類型的使用:監(jiān)督算法,、無監(jiān)督算法,、元算法,以及職業(yè)類型決定的對算法的使用,。我們排除 NA(4.5%)和其他(3%)的職業(yè)類型,。




職業(yè)類型


% 投票者比例


平均算法使用個數(shù)


% 監(jiān)督算法使用度


% 無監(jiān)督算法使用度


% 元使用度


%其他方法使用度

1

產(chǎn)業(yè)

59%

8.4

94%

81%

55%

83%

2

政府/非營利機構(gòu)

4.10%

9.5

91%

89%

49%

89%

3

學生

16%

8.1

94%

76%

47%

77%

4

學術(shù)界

12%

7.2

95%

81%

44%

77%

5

整體


8.3

94%

82%

48%

81%

表 1:根據(jù)職業(yè)類型顯示的不同算法使用度


我們注意到,幾乎每個人都使用監(jiān)督學習算法,。


政府和產(chǎn)業(yè)業(yè)數(shù)據(jù)科學家比學生和學術(shù)研究人員使用更多不同類型的算法,,而產(chǎn)業(yè)數(shù)據(jù)科學家們更傾向于使用元算法。


接下來,,我們根據(jù)職業(yè)類型分析了前 10 名的算法+深度學習使用情況,。




算法

產(chǎn)業(yè)

政府/非盈利機構(gòu)

學術(shù)界

學生

整體
1回歸71%63%51%64%67%
2聚類58%63%51%58%57%
3決策59%63%38%57%55%
4可視化55%71%28%47%49%
5K-近鄰法46%54%48%47%46%
6主成分分析43%57%48%40%43%
7統(tǒng)計47%49%37%36%43%
8隨機森林40%40%29%36%38%
9時間序列42%54%26%24%37%
10文本挖掘36%40%33%38%36%
11深度學習18%9%24%19%19%

表 2:根據(jù)職業(yè)類型分類的 10 大算法+深度學習使用情況


為了更明顯的看到差異,我們計算了具體職業(yè)分類相比于平均算法使用度的一個算法偏差,,即偏差(ALG,,類型)=使用(ALG,類型)/使用(ALG,,所有的)



圖 2:職業(yè)對算法的使用偏好


我們注意到,,產(chǎn)業(yè)數(shù)據(jù)科學家們更傾向于使用回歸、可視化,、統(tǒng)計,、隨機森林和時間序列,。政府/非營利更傾向于使用可視化、主成分分析和時間序列,。學術(shù)研究人員更傾向于使用主成分分析和深度學習,。學生普遍使用更少的算法,但多為文本挖掘和深度學習,。


接下來,,我們看看某一具體地域的參與度,表示整體的 KDnuggets 的用戶:


  • 美國/加拿大,,40%

  • 歐洲,,32%

  • 亞洲,18%

  • 拉丁美洲,,5%

  • 非洲/中東,,3.4%

  • 澳洲/新西蘭,2.2%


由于在 2011 年的調(diào)查中,,我們將產(chǎn)業(yè)/政府分在了一組,,而將學術(shù)研究/學生分在了第二組,并計算了算法對于業(yè)界/政府的親切度:


N(Alg,Ind_Gov) / N(Alg,Aca_Stu)
------------------------------- - 1
N(Ind_Gov) / N(Aca_Stu)


因此親切度為 0 的算法表示它在產(chǎn)業(yè)/政府和學術(shù)研究人員或?qū)W生之間的使用情況對等,。越高 IG 親切度表示算法越被產(chǎn)業(yè)界普遍使用,,反之越接近「學術(shù)」。


最「產(chǎn)業(yè)」的算法是:


  • 異常檢測,,1.61

  • 生存分析,,1.39

  • 因子分析,0.83

  • 時間序列/序列,,0.69

  • 關(guān)聯(lián)規(guī)則,,0.5


而 uplifting modeling 又是最「產(chǎn)業(yè)的算法」,令人驚訝的發(fā)現(xiàn)是,,它的使用率極低 - 只有 3.1% - 是本次調(diào)查的算法中最低的,。


最學術(shù)的算法是:


  • 常規(guī)神經(jīng)網(wǎng)絡(luò),-0.35

  • 樸素貝葉斯,,-0.35

  • 支持向量機,,-0.24

  • 深度學習,-0.19

  • EM,,-0.17


下圖顯示了所有的算法及其產(chǎn)業(yè)/學術(shù)親切度,。



圖 3:KDnuggets 投票:最常被數(shù)據(jù)科學家使用的算法:產(chǎn)業(yè)界 VS 學術(shù)界


下表有關(guān)于算法的細節(jié)、兩次調(diào)查中使用算法的比例,、以及像上面解釋的產(chǎn)業(yè)親切度,。


表 3:KDnuggets 2016 調(diào)查:數(shù)據(jù)科學家使用的算法


接下來的圖表展示了算法的細節(jié),按列


  • N:根據(jù)使用度排名

  • 算法:算法名稱,,

  • 類型:S - 監(jiān)督,,U - 無監(jiān)督,,M - 元,Z - 其他,,

  • 在 2016 年調(diào)查中使用這種算法的調(diào)查者比例

  • 在 2011 年調(diào)查中使用這種算法的調(diào)查者比例

  • 變動(%2016 年/2011% - 1),,

  • 產(chǎn)業(yè)親切度(如上所述)



N

算法

類型

2016 年使用度 %

2011 年使用度 %

改變度 %

產(chǎn)業(yè)親和度
1回歸S67%58%16%0.21
2聚類U57%52%8.70%0.05
3決策樹/RulesS55%60%-7.30%0.21
4可視化Z49%38%27%0.44
5K-近鄰法S46%

0.32
6主成分分析U43%

0.02
7統(tǒng)計Z43%48%-11%1.39
8隨機森林S38%

0.22
9時間序列/序列分析Z37%30%25%0.69
10文本挖掘Z36%28%29.80%0.01
11組合方法M34%28%18.90%-0.17
12支持向量機S34%29%17.60%-0.24
13BoostingM33%23%40%0.24
14常規(guī)神經(jīng)網(wǎng)絡(luò)S24%27%-10.50%-0.35
15最優(yōu)化Z24%

0.07
16樸素貝葉斯S24%22%8.90%-0.02
17BaggingM22%20%8.80%0.02
18偏差檢測Z20%16%19%1.61
19神經(jīng)網(wǎng)絡(luò)-深度學習S19%

-0.35
20奇異值分解U16%

0.29
21關(guān)聯(lián)規(guī)則Z15%29%-47%0.5
22圖/連接/社會網(wǎng)絡(luò)分析Z15%14%8%-0.08
23因素分析U14%19%-23.80%0.14
24貝葉斯網(wǎng)絡(luò)S13%

-0.1
25遺傳算法Z8.80%9.30%-6%0.83
26生存分析Z7.90%9.30%-14.90%-0.15
27最大期望U6.60%

-0.19
28其他方法Z4.60%

-0.06
29Uplift modelingS3.10%4.80%-36.10%2.01

表 4:KDnuggets 2016 調(diào)查:數(shù)據(jù)科學家使用的算法



本文由機器之心編譯,轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán),。

------------------------------------------------

加入機器之心(全職記者/實習生):[email protected]

投稿或?qū)で髨蟮溃篹[email protected]

廣告&商務(wù)合作:[email protected]

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,,謹防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多