Spark 2.x 機(jī)器學(xué)習(xí)實(shí)戰(zhàn)（算法篇：基于Kaggle競賽數(shù)據(jù)集,，六大算法模型構(gòu)建）

老智囊 2018-12-20

展開全文

講師：軒宇老師

課程下載地址：https://pan.baidu.com/s/1RbA3CdHzEYs6ELbfj85BBQ 提取碼: seve

本課程主要講解基于Spark 2.x的機(jī)器學(xué)習(xí)庫，MLlib實(shí)現(xiàn)了常用的機(jī)器學(xué)習(xí),，如：聚類、分類,、回歸等6大算法,，使用Kaggle競賽數(shù)據(jù)集模型構(gòu)建。本課拒絕枯燥的講述,，將循序漸進(jìn)從Spark2.x的基礎(chǔ)知識開始,，然后再透徹講解各個(gè)算法的理論,、詳細(xì)展示Spark實(shí)現(xiàn)，最后均會通過實(shí)例進(jìn)行解析實(shí)戰(zhàn),，幫助大家真正從理論到實(shí)踐全面掌握Spark MLlib分布式機(jī)器學(xué)習(xí),。通過該課程的學(xué)習(xí)同學(xué)們可以全面掌握Spark MLlib機(jī)器學(xué)習(xí)，進(jìn)而能夠在實(shí)際工作中進(jìn)行ML的應(yīng)用開發(fā)和定制開發(fā),。

本課程講解Spark 在機(jī)器學(xué)習(xí)中的應(yīng)用,，并介紹如何從各種公開渠道獲取用于機(jī)器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)。內(nèi)容涵蓋推薦系統(tǒng),、回歸,、聚類、分類等經(jīng)典機(jī)器學(xué)習(xí)算法及其實(shí)際應(yīng)用,，涵蓋使用Spark ML Pipeline API創(chuàng)建和調(diào)試機(jī)器學(xué)習(xí)流程,，內(nèi)容更加系統(tǒng)、全面,、與時(shí)俱進(jìn)，適合所有欲借助Spark來實(shí)現(xiàn)常見機(jī)器學(xué)習(xí)應(yīng)用的開發(fā)者,。

第一章：Spark 構(gòu)建協(xié)同過濾ALS推薦模型

第1節(jié),、推薦系統(tǒng)概述及ALS算法剖析

1、Spark MLlib機(jī)器學(xué)習(xí)庫兩類API及常見四大類算法回顧說明

2,、通過JD推薦和亞馬遜圖書推薦剖析推薦系統(tǒng)功能及核心點(diǎn)：相似度

3,、分享淘寶推薦系統(tǒng)及協(xié)同過濾推薦核心思想及用戶對產(chǎn)品的評分分類

4、協(xié)同過濾推薦算法ALS核心剖析（將稀疏矩陣分解為用戶因子矩陣和產(chǎn)品因子矩陣）

5,、Spark MLlib中基于RDD的ALS算法相關(guān)類的實(shí)現(xiàn)深入剖析

第2節(jié),、基于MovieLens電影推薦和模型評估RMSE

1、基于MovieLens電影評分?jǐn)?shù)據(jù)使用ALS算法訓(xùn)練模型并查看因子舉證

2,、將MatrixFactorizeModel對用戶產(chǎn)品預(yù)測評價(jià)和為用戶,、產(chǎn)品進(jìn)行推薦及保存加載模型

3、如何評估模型為最佳模型（均方根誤差RMSE）及通過調(diào)整數(shù)據(jù)集和算法超參數(shù)獲取最佳模型

第3節(jié),、基于Audioscrobbler音樂推薦及模型調(diào)優(yōu)

1,、回顧復(fù)習(xí)協(xié)同過濾算法核心要點(diǎn)及ALS算法矩陣分解

2、使用Scala語言開發(fā)對音樂推薦數(shù)據(jù)訓(xùn)練模型（ALS中隱式評價(jià)函數(shù)）

3,、組合ALS算法中多個(gè)超參數(shù)訓(xùn)練模型,、評估模型找到最佳模型

4、綜合分析不同超參數(shù)組合訓(xùn)練不同模型狀況（顯示與隱式）

第二章：Spark 構(gòu)建分類模型

第1節(jié),、分類算法概述及鳶尾花數(shù)據(jù)集分類

1,、Spark MLlib中支持的分類算法（SVM、LR,、NB和DT）和集成分類算法（RF和GBDT）及決策樹核心剖析

2,、分類算法數(shù)據(jù)格式LabeledPoint及鳶尾花數(shù)據(jù)調(diào)研

3,、讀取鳶尾花數(shù)據(jù)構(gòu)建特征數(shù)據(jù)Features和標(biāo)簽label、劃分?jǐn)?shù)據(jù)集為訓(xùn)練集和測試集

4,、使用邏輯回歸算法訓(xùn)練模型（二分類,，調(diào)整數(shù)據(jù)集）及預(yù)測分類

5、使用樸素貝葉斯和決策樹回歸算法訓(xùn)練鳶尾花數(shù)據(jù)集并預(yù)測計(jì)算精確度ACC

第2節(jié),、Kaggle競賽Titanic數(shù)據(jù)集預(yù)測生存預(yù)測

1,、回顧復(fù)習(xí)Spark MLlib中分類算法、機(jī)器學(xué)習(xí)三要素及特征表示Vector

2,、Kaggle競賽Titanic生存預(yù)測數(shù)據(jù)集調(diào)研及自定義Schema讀取

3,、構(gòu)建分類算法提取特征和數(shù)據(jù)格式LabeledPoint標(biāo)簽向量

4、劃分?jǐn)?shù)據(jù)集,、使用二分類算法LR算法訓(xùn)練模型和計(jì)算評估指標(biāo)AUC

5,、使用二分類算法LR、DT及RF和GBT算法分別訓(xùn)練模型和計(jì)算AUC值比較

6,、類別特征使用1-of-K方法轉(zhuǎn)換及Titanic數(shù)據(jù)中Sex轉(zhuǎn)換與測試

7,、對Titanic數(shù)據(jù)中Age特征字段劃分范圍及使用1-of-K轉(zhuǎn)換特征（使用DT和RF進(jìn)行分類訓(xùn)練）

第3節(jié)、新聞數(shù)據(jù)NewsCorpora文本分類

1,、文本特征提取詞袋模型BOW及TF-IDF加權(quán)方式剖析

2,、針對新聞分類數(shù)據(jù)集使用樸素貝葉斯算法訓(xùn)練模型和預(yù)測分類（一）

3、針對新聞分類數(shù)據(jù)集使用樸素貝葉斯算法訓(xùn)練模型和預(yù)測分類（二）

4,、樸素貝葉斯算法超參數(shù)解釋說明及分類模型評估指標(biāo)精確度與混淆矩陣說明

5,、Word2Vec算法模型將文本轉(zhuǎn)換為單詞向量及查找某單詞相似單詞

第三章：Spark 構(gòu)建回歸模型

第1節(jié)、回歸算法概述及BikeSharing數(shù)據(jù)集訓(xùn)練模型

1,、Spark MLlib中支持的回歸算法及共享單車數(shù)據(jù)集調(diào)研分析與讀取

2,、針對共享單車數(shù)據(jù)集選取特征（8個(gè)類別特征和4個(gè)數(shù)值特征）及構(gòu)建RDD數(shù)據(jù)集

3、使用決策樹回歸算法訓(xùn)練模型及計(jì)算RMSE值評估模型

4,、模型優(yōu)化兩板斧：特征數(shù)據(jù)及算法超參數(shù),、使用隨機(jī)森林RF回歸算法訓(xùn)練模型及調(diào)整參數(shù)評估模型

5、使用線性回歸算法訓(xùn)練共享單車數(shù)據(jù)（類別特征未處理）及引出類別特征處理重要性

6,、定義函數(shù)轉(zhuǎn)換8個(gè)類別特征及使用線性回歸算法訓(xùn)練模型及RMSE評估

第2節(jié)：線性回歸模型深入剖析（Ridge和Lasso）

1,、復(fù)習(xí)Spark MLlib中三個(gè)回歸算法及從源碼引入模型過擬合及泛化能力（深入剖析）

2、線性回歸正則化Regularization損失函數(shù)及L1和L2兩種正則化方式

3,、從線性回歸算法源碼剖析SGD方法參數(shù)說明及正則化參數(shù)含義說明

4,、線性回歸算法、Lasso算法及Ridge回歸算法分別使用訓(xùn)練數(shù)據(jù)訓(xùn)練模型及調(diào)整參數(shù)訓(xùn)練比較

第四章：Spark 構(gòu)建聚類KMeans模型

第1節(jié)：聚類KMeans對出租車軌跡聚類

1,、機(jī)器學(xué)習(xí)算法分類,、非監(jiān)督學(xué)習(xí)中聚類算法是什么及以KMeans為例講解聚類和數(shù)據(jù)格式Vector

2、深入剖析KMeans算法如何進(jìn)行聚類操作及出租車軌跡數(shù)據(jù)說明

3、使用KMeans算法對出租車軌跡數(shù)據(jù)進(jìn)行聚類和找出10個(gè)類簇中心

4,、使用KMeans模型預(yù)測測試數(shù)據(jù)集所屬類簇

第2節(jié)：基于DataFrame構(gòu)建KMeans模型

1,、基于DataFrame API機(jī)器學(xué)習(xí)庫使用三要點(diǎn)

2、基于DataFrame的KMeans算法針對出租車軌跡數(shù)據(jù)聚類

第五章：Spark 構(gòu)建關(guān)聯(lián)規(guī)則模型

第1節(jié),、使用FP-Growth進(jìn)行關(guān)聯(lián)規(guī)則推薦

1,、關(guān)聯(lián)規(guī)則算法概述及重要概念剖析（支持度、置信度和提升度）

2,、使用FPGrowth算法構(gòu)建模型獲取頻繁項(xiàng)集

3,、依據(jù)FPGrowthModel生成關(guān)聯(lián)規(guī)則AssociationRules

4、使用RDD聚合函數(shù),，依據(jù)關(guān)聯(lián)規(guī)則,，針對業(yè)務(wù)，得到推薦列表

第2節(jié)：使用PrefixSpan構(gòu)建頻繁序列推薦

1,、數(shù)據(jù)挖掘中三種關(guān)聯(lián)算法比較,、頻繁序列算法PrefixSpan概述及Spark MLlib中實(shí)現(xiàn)

2、構(gòu)建數(shù)據(jù)集,，使用PrefixSpan算法訓(xùn)練數(shù)據(jù)獲取頻繁序列集

3,、結(jié)合實(shí)際需要找出符合規(guī)則的頻繁序列集、模型和結(jié)果保存

第六章：Spark ML Pipeline 構(gòu)建機(jī)器學(xué)習(xí)

第1節(jié)：Spark ML Pipeline入門案例

1,、Spark MLlib 總結(jié)回顧發(fā)展及基于DataFrame API的區(qū)別

2,、Spark ML Pipeline幾個(gè)重要概念（Transformer、Estimator及Pipeline）剖析

3,、管道Pipeline組成及簡易文本分類案例需求分析

4,、定義轉(zhuǎn)換器與模型學(xué)習(xí)器,、創(chuàng)建Pipeline和模型預(yù)測

5,、Model持久化及Pipeline如何工作剖析

6、采用TF-IDF方式獲取文本特征及Pipeline中Estimator工作原理

7,、Transformor和Estimator參數(shù)設(shè)置（實(shí)例和ParamMap）

060108_Cross Validation設(shè)置及測試演示

第2節(jié)：Spark ML預(yù)測森林植被

1,、基于ML預(yù)測森林植被之SparkSession讀取CSV數(shù)據(jù)并指定列名

2、基于ML預(yù)測森林植被之提取特征及決策樹算法訓(xùn)練模型（查看決策樹）

3,、基于ML預(yù)測森林植被之決策樹算法中每個(gè)特征重要性及測試數(shù)據(jù)預(yù)測值

4,、基于ML預(yù)測森林植被之多分類評估器使用及分類評估混淆矩陣

5、基于ML預(yù)測森林植被之Pipeline組合預(yù)測流程（轉(zhuǎn)換器,、模型學(xué)習(xí)器,、評估器、訓(xùn)練驗(yàn)證和參數(shù)調(diào)優(yōu)）

6,、基于ML預(yù)測森林植被之解碼還原類別特征數(shù)據(jù)

7,、基于ML預(yù)測森林植被之對類別特征數(shù)據(jù)使用決策樹算法訓(xùn)練模型

8、基于ML預(yù)測森林植被之對類別特征數(shù)據(jù)使用隨機(jī)決策森林算法訓(xùn)練模型

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：老智囊 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)