摘要: 機(jī)器學(xué)習(xí)算法入門介紹:隨機(jī)森林與邏輯回歸,! 隨機(jī)森林是用于分類和回歸的監(jiān)督式集成學(xué)習(xí)模型。為了使整體性能更好,,集成學(xué)習(xí)模型聚合了多個(gè)機(jī)器學(xué)習(xí)模型,。因?yàn)槊總€(gè)模型單獨(dú)使用時(shí)性能表現(xiàn)的不是很好,但如果放在一個(gè)整體中則很強(qiáng)大,。在隨機(jī)森林模型下,,使用大量“弱”因子的決策樹,來聚合它們的輸出,結(jié)果能代表“強(qiáng)”的集成,。 權(quán)衡偏差與方差在任何機(jī)器學(xué)習(xí)模型中,,有兩個(gè)誤差來源:偏差和方差。為了更好地說明這兩個(gè)概念,,假設(shè)已創(chuàng)建了一個(gè)機(jī)器學(xué)習(xí)模型并已知數(shù)據(jù)的實(shí)際輸出,,用同一數(shù)據(jù)的不同部分對其進(jìn)行訓(xùn)練,,結(jié)果機(jī)器學(xué)習(xí)模型在數(shù)據(jù)的不同部分產(chǎn)生了不同的輸出,。為了確定偏差和方差,對這兩個(gè)輸出進(jìn)行比較,,偏差是機(jī)器學(xué)習(xí)模型中預(yù)測值與實(shí)際值之間的差異,,而方差則是這些預(yù)測值的分布情況。 簡而言之: 偏差是當(dāng)算法作了太多簡化假設(shè)之后出現(xiàn)的錯(cuò)誤,,這導(dǎo)致模型預(yù)測值與實(shí)際值有所出入,。 方差是由于算法對訓(xùn)練數(shù)據(jù)集中小變化的敏感性而產(chǎn)生的誤差;方差越大,意味著算法受數(shù)據(jù)變化的影響更大,。 理想情況下,,偏差和方差都會(huì)很小,這意味模型在相同數(shù)據(jù)集的不同數(shù)據(jù)中的預(yù)測值很接近真值,。當(dāng)這種情況發(fā)生時(shí),,模型可以精確地學(xué)習(xí)數(shù)據(jù)集中的潛在模式。 隨機(jī)森林是一種減少方差的算法決策樹以高方差,、低偏差為人所知,。這主要是因?yàn)樗軌驅(qū)?fù)雜的關(guān)系,甚至是過擬合數(shù)據(jù)中的噪聲進(jìn)行建模,。簡單地說:決策樹訓(xùn)練的模型通常是精確的,,但常常在同一數(shù)據(jù)集中的不同數(shù)據(jù)樣本之間顯示出很大程度的變化。 隨機(jī)森林通過聚合單個(gè)決策樹的不同輸出來減少可能導(dǎo)致決策樹錯(cuò)誤的方差,。通過多數(shù)投票算法,,我們可以找到大多數(shù)單個(gè)樹給出的平均輸出,從而平滑了方差,,這樣模型就不容易產(chǎn)生離真值更遠(yuǎn)的結(jié)果,。 隨機(jī)森林思想是取一組高方差、低偏差的決策樹,,并將它們轉(zhuǎn)換成低方差,、低偏差的新模型。 為什么隨機(jī)森林是隨機(jī)的?隨機(jī)森林中的隨機(jī)來源于算法用訓(xùn)練數(shù)據(jù)的不同子集訓(xùn)練每個(gè)單獨(dú)的決策樹,,用數(shù)據(jù)中隨機(jī)選擇的屬性對每個(gè)決策樹的每個(gè)節(jié)點(diǎn)進(jìn)行分割,。通過引入這種隨機(jī)性元素,該算法能夠創(chuàng)建彼此不相關(guān)的模型。這導(dǎo)致可能的誤差均勻分布在模型中,,意味著誤差最終會(huì)通過隨機(jī)森林模型的多數(shù)投票決策策略被消除,。 隨機(jī)森林實(shí)際是如何工作的?想象一下,你厭倦了一遍又一遍地聽著同樣的電子音樂,,強(qiáng)烈地想找到一些可能喜歡的新音樂,,所以你上網(wǎng)去尋找推薦,找到了能讓真實(shí)的人根據(jù)你的喜好給你音樂建議的一個(gè)網(wǎng)站,。 那么它是如何工作的呢?首先,,為了避免建議的隨機(jī)性,先填寫一份關(guān)于自己的基本音樂喜好的問卷,,為可能喜歡的音樂類型提供一個(gè)標(biāo)準(zhǔn),。然后網(wǎng)友利用這些信息開始根據(jù)你提供的標(biāo)準(zhǔn)(特征)來分析歌曲,此時(shí)每個(gè)人本質(zhì)上都是一個(gè)決策樹,。 就個(gè)人而言,,網(wǎng)上提出建議的人并不能很好地概括你的音樂喜好。比如,,有人可能會(huì)認(rèn)為你不喜歡80年代之前的任何歌曲,,因此不會(huì)給你推薦這些歌曲。但是這假設(shè)可能不準(zhǔn)確,,并可能會(huì)導(dǎo)致你不會(huì)收到喜歡的音樂的建議,。 為什么會(huì)發(fā)生這種錯(cuò)誤?每一個(gè)推薦人對你的喜好的了解都是有限的,而且他們對自己個(gè)人的音樂品味也是有偏見的,。為了解決這個(gè)問題,,我們統(tǒng)計(jì)來自許多個(gè)人的建議(每個(gè)人都扮演決策樹的角色),并對他們的建議使用多數(shù)投票算法(本質(zhì)上是創(chuàng)建一個(gè)隨機(jī)森林),。 然而,,還有一個(gè)問題——因?yàn)槊總€(gè)人都在使用來自同一份問卷的相同數(shù)據(jù),因此得出的建議將會(huì)是類似的,,而且可能具有高度的偏見和相關(guān)性,。為了擴(kuò)大建議的范圍,每個(gè)推薦人都會(huì)得到一組調(diào)查問卷的隨機(jī)答案,,而不是所有的答案,,這意味著他們的推薦標(biāo)準(zhǔn)更少。最后,,通過多數(shù)投票消除了極端異常值,,你就會(huì)得到一個(gè)準(zhǔn)確而多樣的推薦歌曲列表。 總結(jié)隨機(jī)森林的優(yōu)點(diǎn): 1.不需要特征歸一化,; 2.可并行化:單個(gè)決策樹可以并行訓(xùn)練,; 3.廣泛使用的,; 4.減少過擬合; 隨機(jī)森林的缺點(diǎn): 1.不容易解釋 2.不是最先進(jìn)的方法 邏輯回歸是一個(gè)使用分類因變量預(yù)測結(jié)果的監(jiān)督式統(tǒng)計(jì)模型,。分類變量的值為名稱或標(biāo)簽,,例如:贏/輸、健康/生病或成功/失敗,。該模型也可用于兩類以上的因變量,,這種情況稱多項(xiàng)邏輯回歸。 邏輯回歸是基于歷史信息構(gòu)建給定數(shù)據(jù)集的分類規(guī)則,,這些數(shù)據(jù)集被劃分為不同的類別,。模型公式為: 相關(guān)術(shù)語定義如下: c=1,...,C是因變量Y的所有可能類別; P(Y=c)是因變量為類別c的概率,; \beta_{{i}},i=1,...,I是回歸系數(shù),,當(dāng)進(jìn)行轉(zhuǎn)換時(shí),表示每個(gè)變量在解釋概率方面的重要性,; X_{{i}},i=1,...,I是自變量。 我們將使用之前博文中的鳶尾花數(shù)據(jù)集來說明邏輯回歸是如何工作的,。這些數(shù)據(jù)由150種鳶尾花組成,,按照植物種類(這個(gè)數(shù)據(jù)集中有三種不同的種類)、萼片和花瓣長度,、萼片和花瓣寬度等特征進(jìn)行分類,,我們僅使用萼片和花瓣來描述每朵鳶尾花。我們還將建立一個(gè)分類規(guī)則來判斷數(shù)據(jù)集中引入的新植物的種類,。圖1展示了一朵鳶尾的萼片和花瓣的尺寸,。 首先,我們必須將數(shù)據(jù)集分成兩個(gè)子集:訓(xùn)練和測試,。訓(xùn)練集占整個(gè)數(shù)據(jù)集的60%,,用于使模型與數(shù)據(jù)相匹配,測試集占其余40%的數(shù)據(jù),,用于檢查模型是否與給定的數(shù)據(jù)正確匹配,。 利用上述公式,我們將數(shù)據(jù)擬合到邏輯回歸模型中,。在這種情況下,,因變量為植物種類,類別數(shù)等于3,,自變量(x_{{i}},,i=1,...4\right)是萼片和花瓣的長度和寬度,。圖2顯示了數(shù)據(jù)的一個(gè)子集,。 表1給出了三種植物中每個(gè)自變量系數(shù)的估計(jì)。顯而易見,花瓣的長度和寬度是特征描述過程中最重要的變量,。因此,,在每個(gè)物種的特征重要性圖中強(qiáng)調(diào)了這兩個(gè)變量(圖3)。 接下來,,我們創(chuàng)建了一個(gè)混淆矩陣(誤差矩陣)來檢驗(yàn)?zāi)P偷男阅?。這個(gè)矩陣把測試數(shù)據(jù)集中已知的鳶尾花植物類別與擬合模型預(yù)測的鳶尾花植物類別進(jìn)行比較,我們的目標(biāo)是兩者相同,。在表2中,,我們看到模型的性能相對較好,只有兩種花色植物被錯(cuò)誤分類,。 基于這些結(jié)果,,我們能夠?qū)?shù)據(jù)集中的各種鳶尾植物進(jìn)行正確的分類。然而,,正如前面提到的,,我們現(xiàn)在必須制定一個(gè)分類規(guī)則。接著是通過新鳶尾屬植物的自變量值乘以表1中的系數(shù)估計(jì)來計(jì)算新鳶尾植物屬于給定類別的概率,,新鳶尾的結(jié)果如下表3所示: 然后,,我們使用前面的公式計(jì)算了鳶尾植物為各個(gè)類別的概率。結(jié)果證實(shí)上述鳶尾植物很可能屬于維吉尼亞鳶尾,。 總結(jié) 邏輯回歸的優(yōu)點(diǎn): 1.可解釋性,; 2.模型簡單; 3.可擴(kuò)展性,; 邏輯回歸的缺點(diǎn): 1.假設(shè)特征之間的相對獨(dú)立性,; 以上為譯文。 本文由阿里云云棲社區(qū)組織翻譯,。 文章原標(biāo)題《machine-learning-algorithms-explained-random-forests》,, |
|