1、監(jiān)督學(xué)習(xí)算法 這個(gè)算法由一個(gè)目標(biāo)變量或結(jié)果變量(或因變量)組成。這些變量由已知的一系列預(yù)示變量(自變量)預(yù)測(cè)而來(lái),。利用這一系列變量,,我們生成一個(gè)將輸入值映射到期望輸出值的函數(shù)。這個(gè)訓(xùn)練過(guò)程會(huì)一直持續(xù),,直到模型在訓(xùn)練數(shù)據(jù)上獲得期望的精確度,。監(jiān)督式學(xué)習(xí)的例子有:回歸、決策樹,、隨機(jī)森林,、K – 近鄰算法、邏輯回歸等,。 1)線性回歸 通常用于根據(jù)連續(xù)變量估計(jì)實(shí)際數(shù)值,。我們通過(guò)擬合最佳直線來(lái)建立自變量和因變量的關(guān)系。這條最佳直線叫做回歸線,,并且用 Y= a *X + b 這條線性等式來(lái)表示,。 2)Logistic回歸 這是一個(gè)分類算法而不是一個(gè)回歸算法。該算法可根據(jù)已知的一系列因變量估計(jì)離散數(shù)值(比方說(shuō)二進(jìn)制數(shù)值 0 或 1 ,,是或否,,真或假)。簡(jiǎn)單來(lái)說(shuō),,它通過(guò)將數(shù)據(jù)擬合進(jìn)一個(gè)邏輯函數(shù)來(lái)預(yù)估一個(gè)事件出現(xiàn)的概率,。因此,它也被叫做邏輯回歸,。因?yàn)樗A(yù)估的是概率,,所以它的輸出值大小在 0 和 1 之間。 3)分類和決策樹(CART) 這個(gè)監(jiān)督式學(xué)習(xí)算法通常被用于分類問(wèn)題,。令人驚奇的是,,它同時(shí)適用于分類變量和連續(xù)因變量。在這個(gè)算法中,,我們將總體分成兩個(gè)或更多的同類群,。這是根據(jù)最重要的屬性或者自變量來(lái)分成盡可能不同的組別。 4)樸素貝葉斯法 用更簡(jiǎn)單的話來(lái)說(shuō),,一個(gè)樸素貝葉斯分類器假設(shè)一個(gè)分類的特性與該分類的其它特性不相關(guān),。舉個(gè)例子,如果一個(gè)水果又圓又紅,,并且直徑大約是 3 英寸,,那么這個(gè)水果可能會(huì)是蘋果。即便這些特性互相依賴,,或者依賴于別的特性的存在,,樸素貝葉斯分類器還是會(huì)假設(shè)這些特性分別獨(dú)立地暗示這個(gè)水果是個(gè)蘋果。 5)KNN 該算法可用于分類問(wèn)題和回歸問(wèn)題。然而,,在業(yè)界內(nèi),,K – 最近鄰算法更常用于分類問(wèn)題。K – 最近鄰算法是一個(gè)簡(jiǎn)單的算法,。它儲(chǔ)存所有的案例,,通過(guò)周圍k個(gè)案例中的大多數(shù)情況劃分新的案例。根據(jù)一個(gè)距離函數(shù),,新案例會(huì)被分配到它的 K 個(gè)近鄰中最普遍的類別中去,。 2、非監(jiān)督學(xué)習(xí)算法 在這個(gè)算法中,,沒(méi)有任何目標(biāo)變量或結(jié)果變量要預(yù)測(cè)或估計(jì)。這個(gè)算法用在不同的組內(nèi)聚類分析,。這種分析方式被廣泛地用來(lái)細(xì)分客戶,,根據(jù)干預(yù)的方式分為不同的用戶組。非監(jiān)督式學(xué)習(xí)的例子有:關(guān)聯(lián)算法和 K – 均值算法,。 1)Apriori 算法 Apriori算法是一種用于關(guān)聯(lián)規(guī)則挖掘(Association rule mining)的代表性算法,,它同樣位居十大數(shù)據(jù)挖掘算法之列。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中的一個(gè)非常重要的研究方向,,也是一個(gè)由來(lái)已久的話題,,它的主要任務(wù)就是設(shè)法發(fā)現(xiàn)事物之間的內(nèi)在聯(lián)系。 2)K-均值聚類 使用 K – 均值算法來(lái)將一個(gè)數(shù)據(jù)歸入一定數(shù)量的集群(假設(shè)有 k 個(gè)集群)的過(guò)程是簡(jiǎn)單的,。一個(gè)集群內(nèi)的數(shù)據(jù)點(diǎn)是均勻齊次的,,并且異于別的集群。 3)主成分分析(PCA) 主成分分析(Principal Component Analysis,,PCA),, 是一種統(tǒng)計(jì)方法。通過(guò)正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,,轉(zhuǎn)換后的這組變量叫主成分,。 3、集成學(xué)習(xí)算法 這個(gè)算法訓(xùn)練機(jī)器進(jìn)行決策,。它是這樣工作的:機(jī)器被放在一個(gè)能讓它通過(guò)反復(fù)試錯(cuò)來(lái)訓(xùn)練自己的環(huán)境中,。機(jī)器從過(guò)去的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí),并且嘗試?yán)昧私庾钔笍氐闹R(shí)作出精確的商業(yè)判斷,。 強(qiáng)化學(xué)習(xí)的例子有馬爾可夫決策過(guò)程,。 1)Bagging 隨機(jī)森林 在隨機(jī)森林算法中,我們有一系列的決策樹(因此又名“森林”),。為了根據(jù)一個(gè)新對(duì)象的屬性將其分類,,每一個(gè)決策樹有一個(gè)分類,稱之為這個(gè)決策樹“投票”給該分類。這個(gè)森林選擇獲得森林里(在所有樹中)獲得票數(shù)最多的分類,。 2)AdaBoost 提升 當(dāng)我們要處理很多數(shù)據(jù)來(lái)做一個(gè)有高預(yù)測(cè)能力的預(yù)測(cè)時(shí),,我們會(huì)用到 GBM 和 AdaBoost 這兩種 boosting 算法。boosting 算法是一種集成學(xué)習(xí)算法,。它結(jié)合了建立在多個(gè)基礎(chǔ)估計(jì)值基礎(chǔ)上的預(yù)測(cè)結(jié)果,,來(lái)增進(jìn)單個(gè)估計(jì)值的可靠程度。這些 boosting 算法通常在數(shù)據(jù)科學(xué)比賽如 Kaggl,、AV Hackathon,、CrowdAnalytix 中很有效。 |
|
來(lái)自: 2017helloworld > 《學(xué)術(shù)性》