久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

傳說中的數(shù)據(jù)挖掘工程師,,究竟是做什么的?

 學(xué)掌門 2021-07-01

數(shù)據(jù)挖掘,,從字面上理解,,就是在數(shù)據(jù)中找到有用的東西,哪些東西有用就要看具體的業(yè)務(wù)目標(biāo)了,。最簡單的就是統(tǒng)計應(yīng)用了,,比如電商數(shù)據(jù),如淘寶統(tǒng)計過哪個省購買泳衣最多等,。

進一步,,可以基于用戶的瀏覽、點擊,、收藏,、購買等行為推斷用戶的年齡、性別,、購買能力,、愛好等能表示一個人的畫像,就相當(dāng)于用這些挖掘出來的屬性來刻畫一個人,,這些還是最簡單的東西,,更深層次的比如預(yù)測(股票預(yù)測),但是比較難,。

1,、數(shù)據(jù)挖掘的過往

說到數(shù)據(jù)挖掘。往往與機器學(xué)習(xí)離不開,。比如分類,、聚類、關(guān)聯(lián)規(guī)則挖掘,、個性化推薦,、預(yù)測、神經(jīng)網(wǎng)絡(luò),、深度學(xué)習(xí)等,。

很多年前說人工智能AI(比如產(chǎn)生式系統(tǒng)、專家系統(tǒng)等,,好像現(xiàn)在提得比較少了),,90年代AI到了瓶頸階段,機器學(xué)習(xí)是一個突破口,現(xiàn)在機器學(xué)習(xí)又遇到了瓶頸階段,,深度學(xué)習(xí)又是一個突破口(其實神經(jīng)網(wǎng)絡(luò)出來了很久,,但是為什么中間一段時間沉寂了,在70年代左右出現(xiàn)了低潮(根據(jù)評論修改),,我歸結(jié)是兩點

第一,,神經(jīng)網(wǎng)絡(luò)就像一個黑夾子一樣,很多東西不透明,,模型的解釋性不強,,以及當(dāng)時沒辦法處理非線性分類問題(后面多層感知器便可以對非線性問題進行擬合,如解決XOR問題),。參數(shù)過多,,訓(xùn)練復(fù)雜,容易出錯,,容易過擬合,,無法保證全局最優(yōu),加上很多問題無法用數(shù)學(xué)方法證明(個人理解)等等,。

科學(xué)家和工程師還是有區(qū)別的,,科學(xué)家都想把一個問題歸結(jié)為數(shù)學(xué)問題,然后證明出來,,他們就會認(rèn)為是有意義的,,數(shù)學(xué)上證明其有效往往比做千百個實驗說明其有效要好些吧,工程師往往更在乎效果與結(jié)果),,直到后來出現(xiàn)了BP算法,。

第二,得益于現(xiàn)在的大規(guī)模計算工具,,能夠處理PB級別的數(shù)據(jù)了,。總之現(xiàn)在人工智能還遠(yuǎn)沒達(dá)到人類的水平,,最后結(jié)果會怎樣,,這個暫時不設(shè)想。

目前正處于大數(shù)據(jù)時代,,很多企業(yè)擁有巨大的數(shù)據(jù),,比如阿里擁有消費數(shù)據(jù),、百度擁有搜索數(shù)據(jù),,騰訊擁 有社交數(shù)據(jù),消費數(shù)據(jù)與搜索數(shù)據(jù)都可以直接變現(xiàn)形成商業(yè)模式,,而社交數(shù)據(jù)暫時還無法直接變現(xiàn),,至少企鵝現(xiàn)在還在探尋中舉個例子,你的朋友圈,,qq空間到處是廣告,,你是不是很討厭

數(shù)據(jù)有了,,還有個重要的方面,,處理數(shù)據(jù)的能力,也就是數(shù)據(jù)處理工具,,能夠處理這么大的數(shù)據(jù)量,,二者不可或缺,缺一談什么大數(shù)據(jù)都是耍流氓,。

2,、數(shù)據(jù)挖掘工程師應(yīng)具備的技能

首先你數(shù)學(xué)知識肯定要扎實吧。統(tǒng)計與概率論是最基本(也有人說現(xiàn)在的機器學(xué)習(xí)是統(tǒng)計學(xué)習(xí),,確實有道理),、微分與積分肯定要知道、數(shù)學(xué)公式要看的懂吧,,進階階段最優(yōu)化,,隨機過程等。建議去看看機器學(xué)習(xí)十大算法與一些深度學(xué)習(xí)的東西,,多看大牛的博客,。

其次,作為一個工程師,,肯定要寫代碼吧,。不懂寫代碼的工程師都是扯淡,不要寫代碼的數(shù)據(jù)挖掘與機器學(xué)習(xí),,那是研究員,,懂得一門高級語言與一門腳本語言就差不多了(如JAVA或C++,Python或R,,個人推薦Java與Python,,因為像Hadoop、Spark,、Hive,、MPI之類的都對Java提供了很方便的接口,Python寫腳本很爽),,還需要懂得Linux,、Shell、SQL,,這都是個人意見,,至少在阿里,用java+sql+python+shell,阿里有個很牛逼的東西,,叫做ODPS,,現(xiàn)在叫MaxCoupute,可以去阿里云官網(wǎng)查查相關(guān)資料,。

對于你所說的excel,、SAS、SPSS,,數(shù)據(jù)分析人員專用,,因為工程師嘛,編程語言還是必須的,。

另外是工具,,會用就行對于是否需要學(xué)習(xí)hadoop,、hive之類的,,個人意見是只要知道用,然后怎么用,,怎么在上面實現(xiàn)一些算法,,怎么去優(yōu)化自己寫的程序就差不多了,它們只是工具,,而且更新得很快,,就說hadoop吧,我還沒完全搞明白,,就逐漸被spark取代了,,記住,這些只是工具而已,。推薦個加深你數(shù)據(jù)挖掘功力的東西weka(單機版的)與mahout(分布式的,,有基于hadoop與spark),都是開源的,。

最后,,對于工作是否需要設(shè)計新算法,我覺得在企業(yè)還是沒有要求這么高,。除非你覺得自己很牛逼,,想向google看齊,但是設(shè)計一個好的算法并能解決實際問題的算法,,不是一朝一夕的,,個人觀點,很多算法可以想出來,,最大的問題就是怎樣去證明其正確,,其有效。想到企業(yè)中去,,多看看google與ms工程性的文章,,想研究就多看看學(xué)術(shù)大牛的文章,比如ICML,,IJCAI,,KDD,NIPS,,CVPR等,。大部分工作是,將已有的機器學(xué)習(xí)與數(shù)據(jù)挖掘算法應(yīng)用到具體的實踐中,,根據(jù)業(yè)務(wù)場景與數(shù)據(jù)特點對算法進行改造或者調(diào)整等,。

舉個例子,你在淘寶上買一件衣服,,系統(tǒng)怎樣向你推薦你感興趣的并且和這件衣服搭配的褲子或者飾品,,這就是數(shù)據(jù)挖掘工程師的一方面工作。

3,、常用的知識點介紹

對于數(shù)據(jù)挖掘與機器學(xué)習(xí),,也不是小小的幾百字能說清楚的,所以再補充一些想從事機器學(xué)習(xí)與數(shù)據(jù)挖掘的需要學(xué)習(xí)的知識點:

1)Basis(基礎(chǔ)):

MSE(均方誤差),,LMS(最小均方),,LSM(最小二乘法),MLE(最大似然估計),,QP(二次規(guī)劃),,CP(條件概率),JP(聯(lián)合概率),,MP(邊緣概率),;

Bayesian Formula(貝葉斯公式),L1 /L2(L1/L2正則,,以及更多的,,現(xiàn)在比較火的L2.5正則等);

GD(梯度下降),,SGD(隨機梯度下降),,Eigenvalue(特征值),Eigenvector(特征向量),,QR-decomposition(QR分解),,Quantile (分位數(shù)),Covariance(協(xié)方差矩陣),。

2)常見分布:

離散型分布:貝努利分步/二項分布,;負(fù)二項分布,;多式分布;幾何分布,;超幾何分布,;泊松分

連續(xù)型分布:均勻分布;正態(tài)分布/高斯分布,;指數(shù)分布,;對數(shù)正態(tài)分布;Gamma分布,;Beta分布,;狄利克雷分布;瑞利分布,;柯西分布,;韋伯分布

三大抽樣分布:卡方分布;t-distribution,;F-分布

3)數(shù)據(jù)預(yù)處理:

缺失值填充,;離散化;映射,;歸一化/標(biāo)準(zhǔn)化),。

4)采樣:

簡單隨機采樣;離線等可能K采樣,;在線等可能K采樣,;等比例隨機采樣;接受-拒絕采樣,;重要性采樣,;馬爾科夫蒙特卡羅采樣算法。

5)聚類:

K-Means,;K-Mediods,;二分K-Means;FK-Means,;Canopy,;譜聚類;混合高斯模型-期望最大化算法解決,;K-Pototypes,;基于劃分;基于層次,;基于層次,;基于密度;基于密度和基于網(wǎng)格,;2014年Science上的密度聚類算法等,。

6)聚類效果評估

純度,;芮氏指標(biāo);調(diào)整的芮氏指標(biāo),;規(guī)范化互信息,;F測量等。

7)分類&回歸:

線性回歸,;邏輯回歸;多分類邏輯回歸,;廣義線性模型,;嶺回歸/L2正則最小二乘回歸;正則最小二乘回歸,;隨機森林,;決策樹;梯度下降決策樹,;分類回歸樹,;近鄰;支持向量機,;核函數(shù),;多項式核函數(shù);高斯核函數(shù),;徑向基函數(shù),;字符串核函數(shù);樸素貝葉斯,;貝葉斯網(wǎng)絡(luò)/貝葉斯信度網(wǎng)絡(luò)/信念網(wǎng)絡(luò),;線性判別分析;集成學(xué)習(xí),;自適應(yīng)增強,;最大熵模型。

8)分類效果評估:

混淆矩陣,;精確度,;召回率;準(zhǔn)確率,;F得分,;ROC曲線;AUC面積,;Lift曲線,;KS曲線。

9)概率圖模型:

貝葉斯網(wǎng)絡(luò)/貝葉斯信度網(wǎng)絡(luò)/信念網(wǎng)絡(luò),;馬爾科夫鏈,;馬爾科夫模型,;最大熵馬爾科夫模型;條件隨機場,;馬爾科夫隨機場,。

10)神經(jīng)網(wǎng)絡(luò):

人工神經(jīng)網(wǎng)絡(luò);誤差反向傳播,;HN,;循環(huán)神經(jīng)網(wǎng)絡(luò);回聲狀態(tài)網(wǎng)絡(luò),;長短記憶神經(jīng)網(wǎng)絡(luò),;CW-RNN;時鐘驅(qū)動循環(huán)神經(jīng)網(wǎng)絡(luò)等,。

11)深度學(xué)習(xí):

自動編碼器,;堆疊自動編碼器;稀疏自動編碼器,;去噪自動編碼器,;收縮自動編碼器;受限玻爾茲曼機,;深度信念網(wǎng)絡(luò),;卷積神經(jīng)網(wǎng)絡(luò);詞向量學(xué)習(xí)模型,。

12)降維

線性判別分析/Fish線性判別,;主成分分析;獨立成分分析,;奇異值分解,;因子分析法。

13)文本挖掘:

向量空間模型,;詞向量學(xué)習(xí)模型,;詞頻;詞頻-逆向文檔頻率,;互信息,;期望交叉熵;二次信息熵,;信息增益,;信息增益率;基尼系數(shù),;x2統(tǒng)計量,;文本證據(jù)權(quán);優(yōu)勢率,;潛在語義分析,;基于概率的潛在語義分析,;潛在狄利克雷模型;統(tǒng)計語言模型,;神經(jīng)概率語言模型,;連續(xù)詞袋模型;Skip-gram等,。

14)關(guān)聯(lián)挖掘:

Apriori,;頻繁模式樹生長算法;AprioriAll,;Spade,。

15)推薦引擎:

基于人口統(tǒng)計學(xué)的推薦;基于內(nèi)容的推薦,;協(xié)同過濾,;基于用戶的協(xié)同過濾推薦,;基于項目的協(xié)同過濾推薦,。

16)相似性與距離度量:

歐式距離;曼哈頓距離,;切比雪夫距離,;閔可夫斯基距離;標(biāo)準(zhǔn)化歐氏距離,;馬氏距離,;余弦;漢明距離/編輯距離,;杰卡德距離,;相關(guān)系數(shù)距離;信息熵,;KL散度/相對熵等,。

17)最優(yōu)化:

無約束優(yōu)化:變量輪換法;模式搜索法,;可變單純形法,;梯度下降法;牛頓法,;擬牛頓法,;共軛梯度法。

有約束優(yōu)化:近似規(guī)劃法,;可行方向法,;罰函數(shù)法;乘子法,。

啟發(fā)式算法:模擬退火算法,;遺傳算法

18)特征選擇

互信息,;文檔頻率;信息增益,;卡方檢驗,;基尼系數(shù)。

19)異常點檢測:

基于統(tǒng)計,;基于距離,;基于密度;基于聚類,。

20)基于學(xué)習(xí)的排序:

Pointwise:McRank,;

Pairwise:RankingSVM,RankNet,,F(xiàn)rank,,RankBoost;

Listwise:AdaRank,,SoftRank,,LamdaMART;

21)工具:

MPI,;Hadoop生態(tài)圈,;Spark;BSP,;Weka,;Mahout;Scikit-learn,;PyBrain…以及一些具體的業(yè)務(wù)場景與case等,。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多