學(xué)好這幾個(gè)算法,，入門機(jī)器學(xué)習(xí)不是難事

2017helloworld 2017-10-31

展開全文

學(xué)好這幾個(gè)算法,，入門機(jī)器學(xué)習(xí)不是難事

1、監(jiān)督學(xué)習(xí)算法

這個(gè)算法由一個(gè)目標(biāo)變量或結(jié)果變量（或因變量）組成。這些變量由已知的一系列預(yù)示變量（自變量）預(yù)測(cè)而來(lái),。利用這一系列變量,，我們生成一個(gè)將輸入值映射到期望輸出值的函數(shù)。這個(gè)訓(xùn)練過(guò)程會(huì)一直持續(xù),，直到模型在訓(xùn)練數(shù)據(jù)上獲得期望的精確度,。監(jiān)督式學(xué)習(xí)的例子有：回歸、決策樹,、隨機(jī)森林,、K – 近鄰算法、邏輯回歸等,。

1）線性回歸

通常用于根據(jù)連續(xù)變量估計(jì)實(shí)際數(shù)值,。我們通過(guò)擬合最佳直線來(lái)建立自變量和因變量的關(guān)系。這條最佳直線叫做回歸線,，并且用 Y= a *X + b 這條線性等式來(lái)表示,。

2）Logistic回歸

這是一個(gè)分類算法而不是一個(gè)回歸算法。該算法可根據(jù)已知的一系列因變量估計(jì)離散數(shù)值（比方說(shuō)二進(jìn)制數(shù)值 0 或 1 ,，是或否,，真或假）。簡(jiǎn)單來(lái)說(shuō),，它通過(guò)將數(shù)據(jù)擬合進(jìn)一個(gè)邏輯函數(shù)來(lái)預(yù)估一個(gè)事件出現(xiàn)的概率,。因此，它也被叫做邏輯回歸,。因?yàn)樗A(yù)估的是概率,，所以它的輸出值大小在 0 和 1 之間。

3）分類和決策樹（CART）

這個(gè)監(jiān)督式學(xué)習(xí)算法通常被用于分類問(wèn)題,。令人驚奇的是,，它同時(shí)適用于分類變量和連續(xù)因變量。在這個(gè)算法中,，我們將總體分成兩個(gè)或更多的同類群,。這是根據(jù)最重要的屬性或者自變量來(lái)分成盡可能不同的組別。

4）樸素貝葉斯法

用更簡(jiǎn)單的話來(lái)說(shuō),，一個(gè)樸素貝葉斯分類器假設(shè)一個(gè)分類的特性與該分類的其它特性不相關(guān),。舉個(gè)例子，如果一個(gè)水果又圓又紅,，并且直徑大約是 3 英寸,，那么這個(gè)水果可能會(huì)是蘋果。即便這些特性互相依賴,，或者依賴于別的特性的存在,，樸素貝葉斯分類器還是會(huì)假設(shè)這些特性分別獨(dú)立地暗示這個(gè)水果是個(gè)蘋果。

5）KNN

該算法可用于分類問(wèn)題和回歸問(wèn)題。然而,，在業(yè)界內(nèi),，K – 最近鄰算法更常用于分類問(wèn)題。K – 最近鄰算法是一個(gè)簡(jiǎn)單的算法,。它儲(chǔ)存所有的案例,，通過(guò)周圍k個(gè)案例中的大多數(shù)情況劃分新的案例。根據(jù)一個(gè)距離函數(shù),，新案例會(huì)被分配到它的 K 個(gè)近鄰中最普遍的類別中去,。

2、非監(jiān)督學(xué)習(xí)算法

在這個(gè)算法中,，沒(méi)有任何目標(biāo)變量或結(jié)果變量要預(yù)測(cè)或估計(jì)。這個(gè)算法用在不同的組內(nèi)聚類分析,。這種分析方式被廣泛地用來(lái)細(xì)分客戶,，根據(jù)干預(yù)的方式分為不同的用戶組。非監(jiān)督式學(xué)習(xí)的例子有：關(guān)聯(lián)算法和 K – 均值算法,。

1）Apriori 算法

Apriori算法是一種用于關(guān)聯(lián)規(guī)則挖掘（Association rule mining）的代表性算法,，它同樣位居十大數(shù)據(jù)挖掘算法之列。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中的一個(gè)非常重要的研究方向,，也是一個(gè)由來(lái)已久的話題,，它的主要任務(wù)就是設(shè)法發(fā)現(xiàn)事物之間的內(nèi)在聯(lián)系。

2）K-均值聚類

使用 K – 均值算法來(lái)將一個(gè)數(shù)據(jù)歸入一定數(shù)量的集群（假設(shè)有 k 個(gè)集群）的過(guò)程是簡(jiǎn)單的,。一個(gè)集群內(nèi)的數(shù)據(jù)點(diǎn)是均勻齊次的,，并且異于別的集群。

3）主成分分析(PCA)

主成分分析（Principal Component Analysis,，PCA）,，是一種統(tǒng)計(jì)方法。通過(guò)正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,，轉(zhuǎn)換后的這組變量叫主成分,。

3、集成學(xué)習(xí)算法

這個(gè)算法訓(xùn)練機(jī)器進(jìn)行決策,。它是這樣工作的：機(jī)器被放在一個(gè)能讓它通過(guò)反復(fù)試錯(cuò)來(lái)訓(xùn)練自己的環(huán)境中,。機(jī)器從過(guò)去的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)，并且嘗試?yán)昧私庾钔笍氐闹R(shí)作出精確的商業(yè)判斷,。強(qiáng)化學(xué)習(xí)的例子有馬爾可夫決策過(guò)程,。

1）Bagging 隨機(jī)森林

在隨機(jī)森林算法中，我們有一系列的決策樹（因此又名“森林”）,。為了根據(jù)一個(gè)新對(duì)象的屬性將其分類,，每一個(gè)決策樹有一個(gè)分類，稱之為這個(gè)決策樹“投票”給該分類。這個(gè)森林選擇獲得森林里（在所有樹中）獲得票數(shù)最多的分類,。

2）AdaBoost 提升

當(dāng)我們要處理很多數(shù)據(jù)來(lái)做一個(gè)有高預(yù)測(cè)能力的預(yù)測(cè)時(shí),，我們會(huì)用到 GBM 和 AdaBoost 這兩種 boosting 算法。boosting 算法是一種集成學(xué)習(xí)算法,。它結(jié)合了建立在多個(gè)基礎(chǔ)估計(jì)值基礎(chǔ)上的預(yù)測(cè)結(jié)果,，來(lái)增進(jìn)單個(gè)估計(jì)值的可靠程度。這些 boosting 算法通常在數(shù)據(jù)科學(xué)比賽如 Kaggl,、AV Hackathon,、CrowdAnalytix 中很有效。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： 2017helloworld > 《學(xué)術(shù)性》

舉報(bào)/認(rèn)領(lǐng)