深度 | KDnuggets 官方調(diào)查：數(shù)據(jù)科學家最常用的十種算法

學習雪雪 2017-05-18

展開全文

選自kdnuggets

機器之心編譯

參與：Terrence L、李亞洲

最新一期的 KDnuggets 調(diào)查展示了一份數(shù)據(jù)科學家使用度最高的算法列表,，這份列表中包含了很多驚喜,，包括最學術(shù)的算法和面向產(chǎn)業(yè)化的算法。

哪些方法/算法是您在過去 12 個月中運用到一個實際的數(shù)據(jù)科學相關(guān)的應(yīng)用程序中的,？

這是基于 844 個投票者的結(jié)果

排名前十的算法以及他們的投票者的比例分布如下：

圖 1 ：數(shù)據(jù)科學家使用度最高的 10 大算法

文末有全部算法的集合列表

每個受訪者平均使用 8.1 個算法,，這相比于 2011 的相似調(diào)查顯示的結(jié)果有了巨大的增長

與 2011 年關(guān)于數(shù)據(jù)分析/數(shù)據(jù)挖掘的調(diào)查相比，我們注意到最常用的方法仍然是回歸,、聚類,、決策樹/Rules 和可視化。相對來說最大的增長是由 (pct2016 /pct2011 - 1) 測定的以下算法：

Boosting,，從 2011 年的 23.5% 至 2016 年的 32.8％,，同比增長 40％
文本挖掘，從 2011 年的 27.7% 至 2016 年的 35.9％,，同比增長 30％
可視化,，從 2011 年的 38.3% 至 2016 年的 48.7％，同比增長 27％
時間序列/序列分析,，從 2011 年的 29.6% 至 2016 年的 37.0%,，同比增長 25％
異常/偏差檢測，從 2011 年的 16.4% 至 2016 年的 19.5％,，同比增長 19％
集成方法,，從 2011 年的 28.3％至 2016 年的 33.6％，同比增長 19％
支持向量機,，從 2011 年的 28.6% 至 2016 年的 33.6％,，同比增長 18％
回歸，從 2011 年的 57.9% 至 2016 年的 67.1％,，同比增長 16％

最受歡迎算法在 2016 年的調(diào)查中有了新的上榜名單：

K-近鄰,，46％
主成分分析，43％
隨機森林,，38％
優(yōu)化,，24％
神經(jīng)網(wǎng)絡(luò) - 深度學習，19％
奇異值分解,，16％

最大幅下降的有：

關(guān)聯(lián)規(guī)則,，從 2011 年的 28.6% 至 2016 年的 15.3％，同比下降 47％
隆起造型,，從 2011 年的 4.8% 至 2016 年的 3.1％,，同比下降 36％
因素分析，從 2011 年的 18.6% 至 2016 年的 14.2％,，同比下降 24％
生存分析,，從 2011 年的 9.3% 至 2016 年的 7.9％，同比下降 15％

下表顯示了不同的算法類型的使用：監(jiān)督算法,、無監(jiān)督算法,、元算法，以及職業(yè)類型決定的對算法的使用,。我們排除 NA（4.5％）和其他（3％）的職業(yè)類型,。

	職業(yè)類型	% 投票者比例	平均算法使用個數(shù)	% 監(jiān)督算法使用度	% 無監(jiān)督算法使用度	% 元使用度	%其他方法使用度
1	產(chǎn)業(yè)	59%	8.4	94%	81%	55%	83%
2	政府/非營利機構(gòu)	4.10%	9.5	91%	89%	49%	89%
3	學生	16%	8.1	94%	76%	47%	77%
4	學術(shù)界	12%	7.2	95%	81%	44%	77%
5	整體		8.3	94%	82%	48%	81%

表 1：根據(jù)職業(yè)類型顯示的不同算法使用度

我們注意到，幾乎每個人都使用監(jiān)督學習算法,。

政府和產(chǎn)業(yè)業(yè)數(shù)據(jù)科學家比學生和學術(shù)研究人員使用更多不同類型的算法,，而產(chǎn)業(yè)數(shù)據(jù)科學家們更傾向于使用元算法。

接下來,，我們根據(jù)職業(yè)類型分析了前 10 名的算法+深度學習使用情況,。

	算法	產(chǎn)業(yè)	政府/非盈利機構(gòu)	學術(shù)界	學生	整體
1	回歸	71%	63%	51%	64%	67%
2	聚類	58%	63%	51%	58%	57%
3	決策	59%	63%	38%	57%	55%
4	可視化	55%	71%	28%	47%	49%
5	K-近鄰法	46%	54%	48%	47%	46%
6	主成分分析	43%	57%	48%	40%	43%
7	統(tǒng)計	47%	49%	37%	36%	43%
8	隨機森林	40%	40%	29%	36%	38%
9	時間序列	42%	54%	26%	24%	37%
10	文本挖掘	36%	40%	33%	38%	36%
11	深度學習	18%	9%	24%	19%	19%

表 2：根據(jù)職業(yè)類型分類的 10 大算法+深度學習使用情況

為了更明顯的看到差異，我們計算了具體職業(yè)分類相比于平均算法使用度的一個算法偏差,，即偏差（ALG,，類型）=使用（ALG，類型）/使用（ALG,，所有的）

圖 2：職業(yè)對算法的使用偏好

我們注意到,，產(chǎn)業(yè)數(shù)據(jù)科學家們更傾向于使用回歸、可視化,、統(tǒng)計,、隨機森林和時間序列,。政府/非營利更傾向于使用可視化、主成分分析和時間序列,。學術(shù)研究人員更傾向于使用主成分分析和深度學習,。學生普遍使用更少的算法，但多為文本挖掘和深度學習,。

接下來,，我們看看某一具體地域的參與度，表示整體的 KDnuggets 的用戶：

美國/加拿大,，40%
歐洲,，32%
亞洲，18%
拉丁美洲,，5%
非洲/中東,，3.4%
澳洲/新西蘭，2.2%

由于在 2011 年的調(diào)查中,，我們將產(chǎn)業(yè)/政府分在了一組,，而將學術(shù)研究/學生分在了第二組，并計算了算法對于業(yè)界/政府的親切度：

N(Alg,Ind_Gov) / N(Alg,Aca_Stu)
------------------------------- - 1
N(Ind_Gov) / N(Aca_Stu)

因此親切度為 0 的算法表示它在產(chǎn)業(yè)/政府和學術(shù)研究人員或?qū)W生之間的使用情況對等,。越高 IG 親切度表示算法越被產(chǎn)業(yè)界普遍使用,，反之越接近「學術(shù)」。

最「產(chǎn)業(yè)」的算法是：

異常檢測,，1.61
生存分析,，1.39
因子分析，0.83
時間序列/序列,，0.69
關(guān)聯(lián)規(guī)則,，0.5

而 uplifting modeling 又是最「產(chǎn)業(yè)的算法」，令人驚訝的發(fā)現(xiàn)是,，它的使用率極低 - 只有 3.1％ - 是本次調(diào)查的算法中最低的,。

最學術(shù)的算法是：

常規(guī)神經(jīng)網(wǎng)絡(luò)，-0.35
樸素貝葉斯,，-0.35
支持向量機,，-0.24
深度學習，-0.19
EM,，-0.17

下圖顯示了所有的算法及其產(chǎn)業(yè)/學術(shù)親切度,。

圖 3：KDnuggets 投票：最常被數(shù)據(jù)科學家使用的算法：產(chǎn)業(yè)界 VS 學術(shù)界

下表有關(guān)于算法的細節(jié)、兩次調(diào)查中使用算法的比例,、以及像上面解釋的產(chǎn)業(yè)親切度,。

表 3：KDnuggets 2016 調(diào)查：數(shù)據(jù)科學家使用的算法

接下來的圖表展示了算法的細節(jié)，按列

N：根據(jù)使用度排名
算法：算法名稱,，
類型：S - 監(jiān)督,，U - 無監(jiān)督,，M - 元，Z - 其他,，
在 2016 年調(diào)查中使用這種算法的調(diào)查者比例
在 2011 年調(diào)查中使用這種算法的調(diào)查者比例
變動（％2016 年/2011％ - 1）,，
產(chǎn)業(yè)親切度（如上所述）

N	算法	類型	2016 年使用度 %	2011 年使用度 %	改變度 %	產(chǎn)業(yè)親和度
1	回歸	S	67%	58%	16%	0.21
2	聚類	U	57%	52%	8.70%	0.05
3	決策樹/Rules	S	55%	60%	-7.30%	0.21
4	可視化	Z	49%	38%	27%	0.44
5	K-近鄰法	S	46%			0.32
6	主成分分析	U	43%			0.02
7	統(tǒng)計	Z	43%	48%	-11%	1.39
8	隨機森林	S	38%			0.22
9	時間序列/序列分析	Z	37%	30%	25%	0.69
10	文本挖掘	Z	36%	28%	29.80%	0.01
11	組合方法	M	34%	28%	18.90%	-0.17
12	支持向量機	S	34%	29%	17.60%	-0.24
13	Boosting	M	33%	23%	40%	0.24
14	常規(guī)神經(jīng)網(wǎng)絡(luò)	S	24%	27%	-10.50%	-0.35
15	最優(yōu)化	Z	24%			0.07
16	樸素貝葉斯	S	24%	22%	8.90%	-0.02
17	Bagging	M	22%	20%	8.80%	0.02
18	偏差檢測	Z	20%	16%	19%	1.61
19	神經(jīng)網(wǎng)絡(luò)-深度學習	S	19%			-0.35
20	奇異值分解	U	16%			0.29
21	關(guān)聯(lián)規(guī)則	Z	15%	29%	-47%	0.5
22	圖/連接/社會網(wǎng)絡(luò)分析	Z	15%	14%	8%	-0.08
23	因素分析	U	14%	19%	-23.80%	0.14
24	貝葉斯網(wǎng)絡(luò)	S	13%			-0.1
25	遺傳算法	Z	8.80%	9.30%	-6%	0.83
26	生存分析	Z	7.90%	9.30%	-14.90%	-0.15
27	最大期望	U	6.60%			-0.19
28	其他方法	Z	4.60%			-0.06
29	Uplift modeling	S	3.10%	4.80%	-36.10%	2.01