傳說中的數(shù)據(jù)挖掘工程師,，究竟是做什么的？

學(xué)掌門 2021-07-01

展開全文

數(shù)據(jù)挖掘,，從字面上理解,，就是在數(shù)據(jù)中找到有用的東西，哪些東西有用就要看具體的業(yè)務(wù)目標(biāo)了,。最簡單的就是統(tǒng)計應(yīng)用了,，比如電商數(shù)據(jù)，如淘寶統(tǒng)計過哪個省購買泳衣最多等,。

進一步,，可以基于用戶的瀏覽、點擊,、收藏,、購買等行為推斷用戶的年齡、性別,、購買能力,、愛好等能表示一個人的畫像，就相當(dāng)于用這些挖掘出來的屬性來刻畫一個人,，這些還是最簡單的東西,，更深層次的比如預(yù)測（股票預(yù)測），但是比較難,。

1,、數(shù)據(jù)挖掘的過往

說到數(shù)據(jù)挖掘。往往與機器學(xué)習(xí)離不開,。比如分類,、聚類、關(guān)聯(lián)規(guī)則挖掘,、個性化推薦,、預(yù)測、神經(jīng)網(wǎng)絡(luò),、深度學(xué)習(xí)等,。

很多年前說人工智能AI（比如產(chǎn)生式系統(tǒng)、專家系統(tǒng)等,，好像現(xiàn)在提得比較少了）,，90年代AI到了瓶頸階段，機器學(xué)習(xí)是一個突破口，現(xiàn)在機器學(xué)習(xí)又遇到了瓶頸階段,，深度學(xué)習(xí)又是一個突破口（其實神經(jīng)網(wǎng)絡(luò)出來了很久,，但是為什么中間一段時間沉寂了，在70年代左右出現(xiàn)了低潮（根據(jù)評論修改）,，我歸結(jié)是兩點：

第一,，神經(jīng)網(wǎng)絡(luò)就像一個黑夾子一樣，很多東西不透明,，模型的解釋性不強,，以及當(dāng)時沒辦法處理非線性分類問題（后面多層感知器便可以對非線性問題進行擬合，如解決XOR問題）,。參數(shù)過多,，訓(xùn)練復(fù)雜，容易出錯,，容易過擬合,，無法保證全局最優(yōu)，加上很多問題無法用數(shù)學(xué)方法證明（個人理解）等等,。

科學(xué)家和工程師還是有區(qū)別的,，科學(xué)家都想把一個問題歸結(jié)為數(shù)學(xué)問題，然后證明出來,，他們就會認(rèn)為是有意義的,，數(shù)學(xué)上證明其有效往往比做千百個實驗說明其有效要好些吧，工程師往往更在乎效果與結(jié)果）,，直到后來出現(xiàn)了BP算法,。

第二，得益于現(xiàn)在的大規(guī)模計算工具,，能夠處理PB級別的數(shù)據(jù)了,。總之現(xiàn)在人工智能還遠(yuǎn)沒達(dá)到人類的水平,，最后結(jié)果會怎樣,，這個暫時不設(shè)想。

目前正處于大數(shù)據(jù)時代,，很多企業(yè)擁有巨大的數(shù)據(jù),，比如阿里擁有消費數(shù)據(jù),、百度擁有搜索數(shù)據(jù),，騰訊擁有社交數(shù)據(jù)，消費數(shù)據(jù)與搜索數(shù)據(jù)都可以直接變現(xiàn)形成商業(yè)模式,，而社交數(shù)據(jù)暫時還無法直接變現(xiàn),，至少企鵝現(xiàn)在還在探尋中。舉個例子，你的朋友圈,，qq空間到處是廣告,，你是不是很討厭？

數(shù)據(jù)有了,，還有個重要的方面,，處理數(shù)據(jù)的能力，也就是數(shù)據(jù)處理工具,，能夠處理這么大的數(shù)據(jù)量,，二者不可或缺，缺一談什么大數(shù)據(jù)都是耍流氓,。

2,、數(shù)據(jù)挖掘工程師應(yīng)具備的技能

首先你數(shù)學(xué)知識肯定要扎實吧。統(tǒng)計與概率論是最基本（也有人說現(xiàn)在的機器學(xué)習(xí)是統(tǒng)計學(xué)習(xí),，確實有道理）,、微分與積分肯定要知道、數(shù)學(xué)公式要看的懂吧,，進階階段最優(yōu)化,，隨機過程等。建議去看看機器學(xué)習(xí)十大算法與一些深度學(xué)習(xí)的東西,，多看大牛的博客,。

其次，作為一個工程師,，肯定要會寫代碼吧,。不懂寫代碼的工程師都是扯淡，不要寫代碼的數(shù)據(jù)挖掘與機器學(xué)習(xí),，那是研究員,，懂得一門高級語言與一門腳本語言就差不多了（如JAVA或C++，Python或R,，個人推薦Java與Python,，因為像Hadoop、Spark,、Hive,、MPI之類的都對Java提供了很方便的接口，Python寫腳本很爽）,，還需要懂得Linux,、Shell、SQL,，這都是個人意見,，至少在阿里，用java+sql+python+shell，阿里有個很牛逼的東西,，叫做ODPS,，現(xiàn)在叫MaxCoupute，可以去阿里云官網(wǎng)查查相關(guān)資料,。

對于你所說的excel,、SAS、SPSS,，數(shù)據(jù)分析人員專用,，因為工程師嘛，編程語言還是必須的,。

另外是工具,，會用就行。對于是否需要學(xué)習(xí)hadoop,、hive之類的,，個人意見是只要知道用，然后怎么用,，怎么在上面實現(xiàn)一些算法,，怎么去優(yōu)化自己寫的程序就差不多了，它們只是工具,，而且更新得很快,，就說hadoop吧，我還沒完全搞明白,，就逐漸被spark取代了,，記住，這些只是工具而已,。推薦個加深你數(shù)據(jù)挖掘功力的東西weka（單機版的）與mahout（分布式的,，有基于hadoop與spark），都是開源的,。

最后,，對于工作是否需要設(shè)計新算法，我覺得在企業(yè)還是沒有要求這么高,。除非你覺得自己很牛逼,，想向google看齊，但是設(shè)計一個好的算法并能解決實際問題的算法,，不是一朝一夕的,，個人觀點，很多算法可以想出來,，最大的問題就是怎樣去證明其正確,，其有效。想到企業(yè)中去,，多看看google與ms工程性的文章,，想研究就多看看學(xué)術(shù)大牛的文章，比如ICML,，IJCAI,，KDD，NIPS,，CVPR等,。大部分工作是，將已有的機器學(xué)習(xí)與數(shù)據(jù)挖掘算法應(yīng)用到具體的實踐中,，根據(jù)業(yè)務(wù)場景與數(shù)據(jù)特點對算法進行改造或者調(diào)整等,。

舉個例子，你在淘寶上買一件衣服,，系統(tǒng)怎樣向你推薦你感興趣的并且和這件衣服搭配的褲子或者飾品,，這就是數(shù)據(jù)挖掘工程師的一方面工作。

3,、常用的知識點介紹

對于數(shù)據(jù)挖掘與機器學(xué)習(xí),，也不是小小的幾百字能說清楚的，所以再補充一些想從事機器學(xué)習(xí)與數(shù)據(jù)挖掘的需要學(xué)習(xí)的知識點：

1）Basis(基礎(chǔ))：

MSE(均方誤差),，LMS(最小均方),，LSM(最小二乘法)，MLE(最大似然估計),，QP(二次規(guī)劃),，CP(條件概率)，JP(聯(lián)合概率),，MP(邊緣概率),；

Bayesian Formula(貝葉斯公式)，L1 /L2(L1/L2正則,，以及更多的,，現(xiàn)在比較火的L2.5正則等)；

GD(梯度下降),，SGD(隨機梯度下降),，Eigenvalue(特征值)，Eigenvector(特征向量),，QR-decomposition(QR分解),，Quantile (分位數(shù))，Covariance(協(xié)方差矩陣),。

2）常見分布：

離散型分布：貝努利分步/二項分布,；負(fù)二項分布,；多式分布；幾何分布,；超幾何分布,；泊松分

連續(xù)型分布：均勻分布；正態(tài)分布/高斯分布,；指數(shù)分布,；對數(shù)正態(tài)分布；Gamma分布,；Beta分布,；狄利克雷分布；瑞利分布,；柯西分布,；韋伯分布

三大抽樣分布：卡方分布；t-distribution,；F-分布

3）數(shù)據(jù)預(yù)處理：

缺失值填充,；離散化；映射,；歸一化/標(biāo)準(zhǔn)化),。

4）采樣：

簡單隨機采樣；離線等可能K采樣,；在線等可能K采樣,；等比例隨機采樣；接受-拒絕采樣,；重要性采樣,；馬爾科夫蒙特卡羅采樣算法。

5）聚類：

K-Means,；K-Mediods,；二分K-Means；FK-Means,；Canopy,；譜聚類；混合高斯模型-期望最大化算法解決,；K-Pototypes,；基于劃分；基于層次,；基于層次,；基于密度；基于密度和基于網(wǎng)格,；2014年Science上的密度聚類算法等,。

6）聚類效果評估：

純度,；芮氏指標(biāo)；調(diào)整的芮氏指標(biāo),；規(guī)范化互信息,；F測量等。

7）分類&回歸：

線性回歸,；邏輯回歸；多分類邏輯回歸,；廣義線性模型,；嶺回歸/L2正則最小二乘回歸；正則最小二乘回歸,；隨機森林,；決策樹；梯度下降決策樹,；分類回歸樹,；近鄰；支持向量機,；核函數(shù),；多項式核函數(shù)；高斯核函數(shù),；徑向基函數(shù),；字符串核函數(shù)；樸素貝葉斯,；貝葉斯網(wǎng)絡(luò)/貝葉斯信度網(wǎng)絡(luò)/信念網(wǎng)絡(luò),；線性判別分析；集成學(xué)習(xí),；自適應(yīng)增強,；最大熵模型。

8）分類效果評估：

混淆矩陣,；精確度,；召回率；準(zhǔn)確率,；F得分,；ROC曲線；AUC面積,；Lift曲線,；KS曲線。

9）概率圖模型：

貝葉斯網(wǎng)絡(luò)/貝葉斯信度網(wǎng)絡(luò)/信念網(wǎng)絡(luò),；馬爾科夫鏈,；馬爾科夫模型,；最大熵馬爾科夫模型；條件隨機場,；馬爾科夫隨機場,。

10）神經(jīng)網(wǎng)絡(luò)：

人工神經(jīng)網(wǎng)絡(luò)；誤差反向傳播,；HN,；循環(huán)神經(jīng)網(wǎng)絡(luò)；回聲狀態(tài)網(wǎng)絡(luò),；長短記憶神經(jīng)網(wǎng)絡(luò),；CW-RNN；時鐘驅(qū)動循環(huán)神經(jīng)網(wǎng)絡(luò)等,。

11）深度學(xué)習(xí)：

自動編碼器,；堆疊自動編碼器；稀疏自動編碼器,；去噪自動編碼器,；收縮自動編碼器；受限玻爾茲曼機,；深度信念網(wǎng)絡(luò),；卷積神經(jīng)網(wǎng)絡(luò)；詞向量學(xué)習(xí)模型,。

12）降維：

線性判別分析/Fish線性判別,；主成分分析；獨立成分分析,；奇異值分解,；因子分析法。

13）文本挖掘：

向量空間模型,；詞向量學(xué)習(xí)模型,；詞頻；詞頻-逆向文檔頻率,；互信息,；期望交叉熵；二次信息熵,；信息增益,；信息增益率；基尼系數(shù),；x2統(tǒng)計量,；文本證據(jù)權(quán)；優(yōu)勢率,；潛在語義分析,；基于概率的潛在語義分析,；潛在狄利克雷模型；統(tǒng)計語言模型,；神經(jīng)概率語言模型,；連續(xù)詞袋模型；Skip-gram等,。

14）關(guān)聯(lián)挖掘：

Apriori,；頻繁模式樹生長算法；AprioriAll,；Spade,。

15）推薦引擎：

基于人口統(tǒng)計學(xué)的推薦；基于內(nèi)容的推薦,；協(xié)同過濾,；基于用戶的協(xié)同過濾推薦,；基于項目的協(xié)同過濾推薦,。

16）相似性與距離度量：

歐式距離；曼哈頓距離,；切比雪夫距離,；閔可夫斯基距離；標(biāo)準(zhǔn)化歐氏距離,；馬氏距離,；余弦；漢明距離/編輯距離,；杰卡德距離,；相關(guān)系數(shù)距離；信息熵,；KL散度/相對熵等,。

17）最優(yōu)化：

無約束優(yōu)化：變量輪換法；模式搜索法,；可變單純形法,；梯度下降法；牛頓法,；擬牛頓法,；共軛梯度法。

有約束優(yōu)化：近似規(guī)劃法,；可行方向法,；罰函數(shù)法；乘子法,。

啟發(fā)式算法：模擬退火算法,；遺傳算法

18）特征選擇：

互信息,；文檔頻率；信息增益,；卡方檢驗,；基尼系數(shù)。

19）異常點檢測：

基于統(tǒng)計,；基于距離,；基于密度；基于聚類,。

20）基于學(xué)習(xí)的排序：

Pointwise：McRank,；

Pairwise：RankingSVM，RankNet,，F(xiàn)rank,，RankBoost；

Listwise：AdaRank,，SoftRank,，LamdaMART；

21）工具：

MPI,；Hadoop生態(tài)圈,；Spark；BSP,；Weka,；Mahout；Scikit-learn,；PyBrain…以及一些具體的業(yè)務(wù)場景與case等,。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報,。

久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

傳說中的數(shù)據(jù)挖掘工程師,，究竟是做什么的？