講師:軒宇老師 課程下載地址:https://pan.baidu.com/s/1RbA3CdHzEYs6ELbfj85BBQ 提取碼: seve 本課程主要講解基于Spark 2.x的機(jī)器學(xué)習(xí)庫,MLlib實(shí)現(xiàn)了常用的機(jī)器學(xué)習(xí),,如:聚類、分類,、回歸等6大算法,,使用Kaggle競賽數(shù)據(jù)集模型構(gòu)建。本課拒絕枯燥的講述,,將循序漸進(jìn)從Spark2.x的基礎(chǔ)知識開始,,然后再透徹講解各個(gè)算法的理論,、詳細(xì)展示Spark實(shí)現(xiàn),最后均會通過實(shí)例進(jìn)行解析實(shí)戰(zhàn),,幫助大家真正從理論到實(shí)踐全面掌握Spark MLlib分布式機(jī)器學(xué)習(xí),。通過該課程的學(xué)習(xí)同學(xué)們可以全面掌握Spark MLlib機(jī)器學(xué)習(xí),進(jìn)而能夠在實(shí)際工作中進(jìn)行ML的應(yīng)用開發(fā)和定制開發(fā),。 本課程講解Spark 在機(jī)器學(xué)習(xí)中的應(yīng)用,,并介紹如何從各種公開渠道獲取用于機(jī)器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)。內(nèi)容涵蓋推薦系統(tǒng),、回歸,、聚類、分類等經(jīng)典機(jī)器學(xué)習(xí)算法及其實(shí)際應(yīng)用,,涵蓋使用Spark ML Pipeline API創(chuàng)建和調(diào)試機(jī)器學(xué)習(xí)流程,,內(nèi)容更加系統(tǒng)、全面,、與時(shí)俱進(jìn),適合所有欲借助Spark來實(shí)現(xiàn)常見機(jī)器學(xué)習(xí)應(yīng)用的開發(fā)者,。 第一章:Spark 構(gòu)建協(xié)同過濾ALS推薦模型 第1節(jié),、推薦系統(tǒng)概述及ALS算法剖析 1、Spark MLlib機(jī)器學(xué)習(xí)庫兩類API及常見四大類算法回顧說明 2,、通過JD推薦和亞馬遜圖書推薦剖析推薦系統(tǒng)功能及核心點(diǎn):相似度 3,、分享淘寶推薦系統(tǒng)及協(xié)同過濾推薦核心思想及用戶對產(chǎn)品的評分分類 4、協(xié)同過濾推薦算法ALS核心剖析(將稀疏矩陣分解為用戶因子矩陣和產(chǎn)品因子矩陣) 5,、Spark MLlib中基于RDD的ALS算法相關(guān)類的實(shí)現(xiàn)深入剖析 第2節(jié),、基于MovieLens電影推薦和模型評估RMSE 1、基于MovieLens電影評分?jǐn)?shù)據(jù)使用ALS算法訓(xùn)練模型并查看因子舉證 2,、將MatrixFactorizeModel對用戶產(chǎn)品預(yù)測評價(jià)和為用戶,、產(chǎn)品進(jìn)行推薦及保存加載模型 3、如何評估模型為最佳模型(均方根誤差RMSE)及通過調(diào)整數(shù)據(jù)集和算法超參數(shù)獲取最佳模型 第3節(jié),、基于Audioscrobbler音樂推薦及模型調(diào)優(yōu) 1,、回顧復(fù)習(xí)協(xié)同過濾算法核心要點(diǎn)及ALS算法矩陣分解 2、使用Scala語言開發(fā)對音樂推薦數(shù)據(jù)訓(xùn)練模型(ALS中隱式評價(jià)函數(shù)) 3,、組合ALS算法中多個(gè)超參數(shù)訓(xùn)練模型,、評估模型找到最佳模型 4、綜合分析不同超參數(shù)組合訓(xùn)練不同模型狀況(顯示與隱式) 第二章:Spark 構(gòu)建分類模型 第1節(jié),、分類算法概述及鳶尾花數(shù)據(jù)集分類 1,、Spark MLlib中支持的分類算法(SVM、LR,、NB和DT)和集成分類算法(RF和GBDT)及決策樹核心剖析 2,、分類算法數(shù)據(jù)格式LabeledPoint及鳶尾花數(shù)據(jù)調(diào)研 3,、讀取鳶尾花數(shù)據(jù)構(gòu)建特征數(shù)據(jù)Features和標(biāo)簽label、劃分?jǐn)?shù)據(jù)集為訓(xùn)練集和測試集 4,、使用邏輯回歸算法訓(xùn)練模型(二分類,,調(diào)整數(shù)據(jù)集)及預(yù)測分類 5、使用樸素貝葉斯和決策樹回歸算法訓(xùn)練鳶尾花數(shù)據(jù)集并預(yù)測計(jì)算精確度ACC 第2節(jié),、Kaggle競賽Titanic數(shù)據(jù)集預(yù)測生存預(yù)測 1,、回顧復(fù)習(xí)Spark MLlib中分類算法、機(jī)器學(xué)習(xí)三要素及特征表示Vector 2,、Kaggle競賽Titanic生存預(yù)測數(shù)據(jù)集調(diào)研及自定義Schema讀取 3,、構(gòu)建分類算法提取特征和數(shù)據(jù)格式LabeledPoint標(biāo)簽向量 4、劃分?jǐn)?shù)據(jù)集,、使用二分類算法LR算法訓(xùn)練模型和計(jì)算評估指標(biāo)AUC 5,、使用二分類算法LR、DT及RF和GBT算法分別訓(xùn)練模型和計(jì)算AUC值比較 6,、類別特征使用1-of-K方法轉(zhuǎn)換及Titanic數(shù)據(jù)中Sex轉(zhuǎn)換與測試 7,、對Titanic數(shù)據(jù)中Age特征字段劃分范圍及使用1-of-K轉(zhuǎn)換特征(使用DT和RF進(jìn)行分類訓(xùn)練) 第3節(jié)、新聞數(shù)據(jù)NewsCorpora文本分類 1,、文本特征提取詞袋模型BOW及TF-IDF加權(quán)方式剖析 2,、針對新聞分類數(shù)據(jù)集使用樸素貝葉斯算法訓(xùn)練模型和預(yù)測分類(一) 3、針對新聞分類數(shù)據(jù)集使用樸素貝葉斯算法訓(xùn)練模型和預(yù)測分類(二) 4,、樸素貝葉斯算法超參數(shù)解釋說明及分類模型評估指標(biāo)精確度與混淆矩陣說明 5,、Word2Vec算法模型將文本轉(zhuǎn)換為單詞向量及查找某單詞相似單詞 第三章:Spark 構(gòu)建回歸模型 第1節(jié)、回歸算法概述及BikeSharing數(shù)據(jù)集訓(xùn)練模型 1,、Spark MLlib中支持的回歸算法及共享單車數(shù)據(jù)集調(diào)研分析與讀取 2,、針對共享單車數(shù)據(jù)集選取特征(8個(gè)類別特征和4個(gè)數(shù)值特征)及構(gòu)建RDD數(shù)據(jù)集 3、使用決策樹回歸算法訓(xùn)練模型及計(jì)算RMSE值評估模型 4,、模型優(yōu)化兩板斧:特征數(shù)據(jù)及算法超參數(shù),、使用隨機(jī)森林RF回歸算法訓(xùn)練模型及調(diào)整參數(shù)評估模型 5、使用線性回歸算法訓(xùn)練共享單車數(shù)據(jù)(類別特征未處理)及引出類別特征處理重要性 6,、定義函數(shù)轉(zhuǎn)換8個(gè)類別特征及使用線性回歸算法訓(xùn)練模型及RMSE評估 第2節(jié):線性回歸模型深入剖析(Ridge和Lasso) 1,、復(fù)習(xí)Spark MLlib中三個(gè)回歸算法及從源碼引入模型過擬合及泛化能力(深入剖析) 2、線性回歸正則化Regularization損失函數(shù)及L1和L2兩種 正則化方式 3,、從線性回歸算法源碼剖析SGD方法參數(shù)說明及正則化參數(shù)含義說明 4,、線性回歸算法、Lasso算法及Ridge回歸算法分別使用訓(xùn)練數(shù)據(jù)訓(xùn)練模型及調(diào)整參數(shù)訓(xùn)練比較 第四章:Spark 構(gòu)建聚類KMeans模型 第1節(jié):聚類KMeans對出租車軌跡聚類 1,、機(jī)器學(xué)習(xí)算法分類,、非監(jiān)督學(xué)習(xí)中聚類算法是什么及以KMeans為例講解聚類和數(shù)據(jù)格式Vector 2、深入剖析KMeans算法如何進(jìn)行聚類操作及出租車軌跡數(shù)據(jù)說明 3、使用KMeans算法對出租車軌跡數(shù)據(jù)進(jìn)行聚類和找出10個(gè)類簇中心 4,、使用KMeans模型預(yù)測測試數(shù)據(jù)集所屬類簇 第2節(jié):基于DataFrame構(gòu)建KMeans模型 1,、基于DataFrame API機(jī)器學(xué)習(xí)庫使用三要點(diǎn) 2、基于DataFrame的KMeans算法針對出租車軌跡數(shù)據(jù)聚類 第五章:Spark 構(gòu)建關(guān)聯(lián)規(guī)則模型 第1節(jié),、使用FP-Growth進(jìn)行關(guān)聯(lián)規(guī)則推薦 1,、關(guān)聯(lián)規(guī)則算法概述及重要概念剖析(支持度、置信度和提升度) 2,、使用FPGrowth算法構(gòu)建模型獲取頻繁項(xiàng)集 3,、依據(jù)FPGrowthModel生成關(guān)聯(lián)規(guī)則AssociationRules 4、使用RDD聚合函數(shù),,依據(jù)關(guān)聯(lián)規(guī)則,,針對業(yè)務(wù),得到推薦列表 第2節(jié):使用PrefixSpan構(gòu)建頻繁序列推薦 1,、數(shù)據(jù)挖掘中三種關(guān)聯(lián)算法比較,、頻繁序列算法PrefixSpan概述及Spark MLlib中實(shí)現(xiàn) 2、構(gòu)建數(shù)據(jù)集,,使用PrefixSpan算法訓(xùn)練數(shù)據(jù)獲取頻繁序列集 3,、結(jié)合實(shí)際需要找出符合規(guī)則的頻繁序列集、模型和結(jié)果保存 第六章:Spark ML Pipeline 構(gòu)建機(jī)器學(xué)習(xí) 第1節(jié):Spark ML Pipeline入門案例 1,、Spark MLlib 總結(jié)回顧發(fā)展及基于DataFrame API的區(qū)別 2,、Spark ML Pipeline幾個(gè)重要概念(Transformer、Estimator及Pipeline)剖析 3,、管道Pipeline組成及簡易文本分類案例需求分析 4,、定義轉(zhuǎn)換器與模型學(xué)習(xí)器,、創(chuàng)建Pipeline和模型預(yù)測 5,、Model持久化及Pipeline如何工作剖析 6、采用TF-IDF方式獲取文本特征及Pipeline中Estimator工作原理 7,、Transformor和Estimator參數(shù)設(shè)置(實(shí)例和ParamMap) 060108_Cross Validation設(shè)置及測試演示 第2節(jié):Spark ML預(yù)測森林植被 1,、基于ML預(yù)測森林植被之SparkSession讀取CSV數(shù)據(jù)并指定列名 2、基于ML預(yù)測森林植被之提取特征及決策樹算法訓(xùn)練模型(查看決策樹) 3,、基于ML預(yù)測森林植被之決策樹算法中每個(gè)特征重要性及測試數(shù)據(jù)預(yù)測值 4,、基于ML預(yù)測森林植被之多分類評估器使用及分類評估混淆矩陣 5、基于ML預(yù)測森林植被之Pipeline組合預(yù)測流程(轉(zhuǎn)換器,、模型學(xué)習(xí)器,、評估器、訓(xùn)練驗(yàn)證和參數(shù)調(diào)優(yōu)) 6,、基于ML預(yù)測森林植被之解碼還原類別特征數(shù)據(jù) 7,、基于ML預(yù)測森林植被之對類別特征數(shù)據(jù)使用決策樹算法訓(xùn)練模型 8、基于ML預(yù)測森林植被之對類別特征數(shù)據(jù)使用隨機(jī)決策森林算法訓(xùn)練模型
|
|