聊完方差分析,,就不得不說回歸分析,。 回歸分析是一種應(yīng)用廣泛的統(tǒng)計分析方法,在金融,,醫(yī)學(xué)等領(lǐng)域都已經(jīng)成功應(yīng)用,,而且是比較簡單也比較常用的算法了,是經(jīng)得起考驗的,,結(jié)果解讀也很友好,。 這次我們就先以最常見的Excel表格來做回歸分析,Excel表格的功能遠(yuǎn)比我們想的強大(一般的回歸分析,只要是數(shù)據(jù)量不是很大,,Excel完全可以搞得定,,而且上手十分容易,不需要一行代碼,,就可以輕松搞定)一般是利用最小二乘法來計算出回歸模型的參數(shù)值,。但是得到的回歸方程到底有沒有統(tǒng)計學(xué)意義,還需要對回歸方程進行各種檢驗,,主要是回歸方程顯著性檢驗,,回歸系數(shù)顯著性檢驗,,殘差分析等,。 數(shù)據(jù)集:波士頓房價數(shù)據(jù) 波士頓房價數(shù)據(jù)已被用于許多涉及回歸問題的機器學(xué)習(xí)論文中,所有我們拿這個成熟的數(shù)據(jù)集來預(yù)測房價練練手,!數(shù)據(jù)如下:
做回歸分析前,先看下特征的相關(guān)性,,如下:
好像和價格的相關(guān)性都差不多,,那我們做一個回歸擬合看看,Excel界面如下: 得到結(jié)果如下: 殘差圖 特征殘差擬合圖
結(jié)果說明: 1,,回歸統(tǒng)計:R Square表示擬合度,,就是方程對數(shù)據(jù)的擬合程度,當(dāng)然是越大越好,,此時為0.74 2,,方差分析:F=108.057,這個F是啥,?是F統(tǒng)計量,,回歸方程的顯著性檢驗是用的F檢驗,sig F=6.9468E-135 <> 3,,回歸系數(shù)coefficient顯著性,,看T——Start值,看特征對于的P值,,如圖:特征INDUS,AGE對應(yīng)的T統(tǒng)計量均小于1,,P值大于0.05,說明這兩個系數(shù)與y(price)的線性關(guān)系不顯著,,不應(yīng)該保留在回歸方程中,,也可以再結(jié)合特征殘差擬合圖來看一下特征的有效性 看來得把這兩個線性關(guān)系不顯著的特征去掉之后再重新做回歸! 這一次的回歸方程和回歸系數(shù)都有顯著性,但是這個R Square=0.740545,,好像和不剔除變量沒什么差別,,甚至還小一點,這就有點尷尬了,。 整體的方程擬合度才0.74,,效果不是很好。 我們用python來做一下看看首先來篩選特征,,有兩種方法SelectKBest和f_regression
結(jié)果如下: 這兩種方法得到的結(jié)果一樣,,對應(yīng)的特征的P值都小于0.05,,沒法去掉一些特征
數(shù)據(jù)分成訓(xùn)練集和測試集,,通過在訓(xùn)練集和測試集上的得分對比來判斷是否過擬合還是欠擬合,,可以直接得到回歸系數(shù)和截距,如下如: 從結(jié)果看,,回歸方程的擬合度在0.73左右,,和用Excel做的差不多,沒有提高,,反而略微降低了,。 繪制交叉驗證預(yù)測圖 從結(jié)果看,擬合的并不是很好,。 后記: 結(jié)合Excel和python做的回歸方程擬合度都是在0.74左右,,效果只能是一般,看來得換一種方法來做,。 我們接下來準(zhǔn)備用K近鄰回歸算法來做預(yù)測,。 |
|
來自: 昵稱11935121 > 《待分類》