久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

Spark 2.x 機(jī)器學(xué)習(xí)實(shí)戰(zhàn)(算法篇:基于Kaggle競賽數(shù)據(jù)集,,六大算法模型構(gòu)建)

 老智囊 2018-12-20
講師:軒宇老師
課程下載地址:https://pan.baidu.com/s/1RbA3CdHzEYs6ELbfj85BBQ 提取碼: seve

本課程主要講解基于Spark 2.x的機(jī)器學(xué)習(xí)庫,MLlib實(shí)現(xiàn)了常用的機(jī)器學(xué)習(xí),,如:聚類、分類,、回歸等6大算法,,使用Kaggle競賽數(shù)據(jù)集模型構(gòu)建。本課拒絕枯燥的講述,,將循序漸進(jìn)從Spark2.x的基礎(chǔ)知識開始,,然后再透徹講解各個(gè)算法的理論,、詳細(xì)展示Spark實(shí)現(xiàn),最后均會通過實(shí)例進(jìn)行解析實(shí)戰(zhàn),,幫助大家真正從理論到實(shí)踐全面掌握Spark MLlib分布式機(jī)器學(xué)習(xí),。通過該課程的學(xué)習(xí)同學(xué)們可以全面掌握Spark MLlib機(jī)器學(xué)習(xí),進(jìn)而能夠在實(shí)際工作中進(jìn)行ML的應(yīng)用開發(fā)和定制開發(fā),。


本課程講解Spark 在機(jī)器學(xué)習(xí)中的應(yīng)用,,并介紹如何從各種公開渠道獲取用于機(jī)器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)。內(nèi)容涵蓋推薦系統(tǒng),、回歸,、聚類、分類等經(jīng)典機(jī)器學(xué)習(xí)算法及其實(shí)際應(yīng)用,,涵蓋使用Spark ML Pipeline API創(chuàng)建和調(diào)試機(jī)器學(xué)習(xí)流程,,內(nèi)容更加系統(tǒng)、全面,、與時(shí)俱進(jìn),適合所有欲借助Spark來實(shí)現(xiàn)常見機(jī)器學(xué)習(xí)應(yīng)用的開發(fā)者,。


第一章:Spark 構(gòu)建協(xié)同過濾ALS推薦模型
第1節(jié),、推薦系統(tǒng)概述及ALS算法剖析
1、Spark MLlib機(jī)器學(xué)習(xí)庫兩類API及常見四大類算法回顧說明
2,、通過JD推薦和亞馬遜圖書推薦剖析推薦系統(tǒng)功能及核心點(diǎn):相似度
3,、分享淘寶推薦系統(tǒng)及協(xié)同過濾推薦核心思想及用戶對產(chǎn)品的評分分類
4、協(xié)同過濾推薦算法ALS核心剖析(將稀疏矩陣分解為用戶因子矩陣和產(chǎn)品因子矩陣)
5,、Spark MLlib中基于RDD的ALS算法相關(guān)類的實(shí)現(xiàn)深入剖析

第2節(jié),、基于MovieLens電影推薦和模型評估RMSE
1、基于MovieLens電影評分?jǐn)?shù)據(jù)使用ALS算法訓(xùn)練模型并查看因子舉證
2,、將MatrixFactorizeModel對用戶產(chǎn)品預(yù)測評價(jià)和為用戶,、產(chǎn)品進(jìn)行推薦及保存加載模型
3、如何評估模型為最佳模型(均方根誤差RMSE)及通過調(diào)整數(shù)據(jù)集和算法超參數(shù)獲取最佳模型

第3節(jié),、基于Audioscrobbler音樂推薦及模型調(diào)優(yōu)
1,、回顧復(fù)習(xí)協(xié)同過濾算法核心要點(diǎn)及ALS算法矩陣分解
2、使用Scala語言開發(fā)對音樂推薦數(shù)據(jù)訓(xùn)練模型(ALS中隱式評價(jià)函數(shù))
3,、組合ALS算法中多個(gè)超參數(shù)訓(xùn)練模型,、評估模型找到最佳模型
4、綜合分析不同超參數(shù)組合訓(xùn)練不同模型狀況(顯示與隱式)

第二章:Spark 構(gòu)建分類模型
第1節(jié),、分類算法概述及鳶尾花數(shù)據(jù)集分類
1,、Spark MLlib中支持的分類算法(SVM、LR,、NB和DT)和集成分類算法(RF和GBDT)及決策樹核心剖析
2,、分類算法數(shù)據(jù)格式LabeledPoint及鳶尾花數(shù)據(jù)調(diào)研
3,、讀取鳶尾花數(shù)據(jù)構(gòu)建特征數(shù)據(jù)Features和標(biāo)簽label、劃分?jǐn)?shù)據(jù)集為訓(xùn)練集和測試集
4,、使用邏輯回歸算法訓(xùn)練模型(二分類,,調(diào)整數(shù)據(jù)集)及預(yù)測分類
5、使用樸素貝葉斯和決策樹回歸算法訓(xùn)練鳶尾花數(shù)據(jù)集并預(yù)測計(jì)算精確度ACC

第2節(jié),、Kaggle競賽Titanic數(shù)據(jù)集預(yù)測生存預(yù)測
1,、回顧復(fù)習(xí)Spark MLlib中分類算法、機(jī)器學(xué)習(xí)三要素及特征表示Vector
2,、Kaggle競賽Titanic生存預(yù)測數(shù)據(jù)集調(diào)研及自定義Schema讀取
3,、構(gòu)建分類算法提取特征和數(shù)據(jù)格式LabeledPoint標(biāo)簽向量
4、劃分?jǐn)?shù)據(jù)集,、使用二分類算法LR算法訓(xùn)練模型和計(jì)算評估指標(biāo)AUC
5,、使用二分類算法LR、DT及RF和GBT算法分別訓(xùn)練模型和計(jì)算AUC值比較
6,、類別特征使用1-of-K方法轉(zhuǎn)換及Titanic數(shù)據(jù)中Sex轉(zhuǎn)換與測試
7,、對Titanic數(shù)據(jù)中Age特征字段劃分范圍及使用1-of-K轉(zhuǎn)換特征(使用DT和RF進(jìn)行分類訓(xùn)練)

第3節(jié)、新聞數(shù)據(jù)NewsCorpora文本分類
1,、文本特征提取詞袋模型BOW及TF-IDF加權(quán)方式剖析
2,、針對新聞分類數(shù)據(jù)集使用樸素貝葉斯算法訓(xùn)練模型和預(yù)測分類(一)
3、針對新聞分類數(shù)據(jù)集使用樸素貝葉斯算法訓(xùn)練模型和預(yù)測分類(二)
4,、樸素貝葉斯算法超參數(shù)解釋說明及分類模型評估指標(biāo)精確度與混淆矩陣說明
5,、Word2Vec算法模型將文本轉(zhuǎn)換為單詞向量及查找某單詞相似單詞

第三章:Spark 構(gòu)建回歸模型
第1節(jié)、回歸算法概述及BikeSharing數(shù)據(jù)集訓(xùn)練模型
1,、Spark MLlib中支持的回歸算法及共享單車數(shù)據(jù)集調(diào)研分析與讀取
2,、針對共享單車數(shù)據(jù)集選取特征(8個(gè)類別特征和4個(gè)數(shù)值特征)及構(gòu)建RDD數(shù)據(jù)集
3、使用決策樹回歸算法訓(xùn)練模型及計(jì)算RMSE值評估模型
4,、模型優(yōu)化兩板斧:特征數(shù)據(jù)及算法超參數(shù),、使用隨機(jī)森林RF回歸算法訓(xùn)練模型及調(diào)整參數(shù)評估模型
5、使用線性回歸算法訓(xùn)練共享單車數(shù)據(jù)(類別特征未處理)及引出類別特征處理重要性
6,、定義函數(shù)轉(zhuǎn)換8個(gè)類別特征及使用線性回歸算法訓(xùn)練模型及RMSE評估

第2節(jié):線性回歸模型深入剖析(Ridge和Lasso)
1,、復(fù)習(xí)Spark MLlib中三個(gè)回歸算法及從源碼引入模型過擬合及泛化能力(深入剖析)
2、線性回歸正則化Regularization損失函數(shù)及L1和L2兩種 正則化方式
3,、從線性回歸算法源碼剖析SGD方法參數(shù)說明及正則化參數(shù)含義說明
4,、線性回歸算法、Lasso算法及Ridge回歸算法分別使用訓(xùn)練數(shù)據(jù)訓(xùn)練模型及調(diào)整參數(shù)訓(xùn)練比較

第四章:Spark 構(gòu)建聚類KMeans模型
第1節(jié):聚類KMeans對出租車軌跡聚類
1,、機(jī)器學(xué)習(xí)算法分類,、非監(jiān)督學(xué)習(xí)中聚類算法是什么及以KMeans為例講解聚類和數(shù)據(jù)格式Vector
2、深入剖析KMeans算法如何進(jìn)行聚類操作及出租車軌跡數(shù)據(jù)說明
3、使用KMeans算法對出租車軌跡數(shù)據(jù)進(jìn)行聚類和找出10個(gè)類簇中心
4,、使用KMeans模型預(yù)測測試數(shù)據(jù)集所屬類簇
第2節(jié):基于DataFrame構(gòu)建KMeans模型
1,、基于DataFrame API機(jī)器學(xué)習(xí)庫使用三要點(diǎn)
2、基于DataFrame的KMeans算法針對出租車軌跡數(shù)據(jù)聚類

第五章:Spark 構(gòu)建關(guān)聯(lián)規(guī)則模型
第1節(jié),、使用FP-Growth進(jìn)行關(guān)聯(lián)規(guī)則推薦
1,、關(guān)聯(lián)規(guī)則算法概述及重要概念剖析(支持度、置信度和提升度)
2,、使用FPGrowth算法構(gòu)建模型獲取頻繁項(xiàng)集
3,、依據(jù)FPGrowthModel生成關(guān)聯(lián)規(guī)則AssociationRules
4、使用RDD聚合函數(shù),,依據(jù)關(guān)聯(lián)規(guī)則,,針對業(yè)務(wù),得到推薦列表

第2節(jié):使用PrefixSpan構(gòu)建頻繁序列推薦
1,、數(shù)據(jù)挖掘中三種關(guān)聯(lián)算法比較,、頻繁序列算法PrefixSpan概述及Spark MLlib中實(shí)現(xiàn)
2、構(gòu)建數(shù)據(jù)集,,使用PrefixSpan算法訓(xùn)練數(shù)據(jù)獲取頻繁序列集
3,、結(jié)合實(shí)際需要找出符合規(guī)則的頻繁序列集、模型和結(jié)果保存

第六章:Spark ML Pipeline 構(gòu)建機(jī)器學(xué)習(xí)
第1節(jié):Spark ML Pipeline入門案例
1,、Spark MLlib 總結(jié)回顧發(fā)展及基于DataFrame API的區(qū)別
2,、Spark ML Pipeline幾個(gè)重要概念(Transformer、Estimator及Pipeline)剖析
3,、管道Pipeline組成及簡易文本分類案例需求分析
4,、定義轉(zhuǎn)換器與模型學(xué)習(xí)器,、創(chuàng)建Pipeline和模型預(yù)測
5,、Model持久化及Pipeline如何工作剖析
6、采用TF-IDF方式獲取文本特征及Pipeline中Estimator工作原理
7,、Transformor和Estimator參數(shù)設(shè)置(實(shí)例和ParamMap)
060108_Cross Validation設(shè)置及測試演示

第2節(jié):Spark ML預(yù)測森林植被
1,、基于ML預(yù)測森林植被之SparkSession讀取CSV數(shù)據(jù)并指定列名
2、基于ML預(yù)測森林植被之提取特征及決策樹算法訓(xùn)練模型(查看決策樹)
3,、基于ML預(yù)測森林植被之決策樹算法中每個(gè)特征重要性及測試數(shù)據(jù)預(yù)測值
4,、基于ML預(yù)測森林植被之多分類評估器使用及分類評估混淆矩陣
5、基于ML預(yù)測森林植被之Pipeline組合預(yù)測流程(轉(zhuǎn)換器,、模型學(xué)習(xí)器,、評估器、訓(xùn)練驗(yàn)證和參數(shù)調(diào)優(yōu))
6,、基于ML預(yù)測森林植被之解碼還原類別特征數(shù)據(jù)
7,、基于ML預(yù)測森林植被之對類別特征數(shù)據(jù)使用決策樹算法訓(xùn)練模型
8、基于ML預(yù)測森林植被之對類別特征數(shù)據(jù)使用隨機(jī)決策森林算法訓(xùn)練模型

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多