久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

使用Excel和python來做回歸分析

 昵稱11935121 2018-07-31

聊完方差分析,,就不得不說回歸分析,。

回歸分析是一種應(yīng)用廣泛的統(tǒng)計分析方法,在金融,,醫(yī)學(xué)等領(lǐng)域都已經(jīng)成功應(yīng)用,,而且是比較簡單也比較常用的算法了,是經(jīng)得起考驗的,,結(jié)果解讀也很友好,。

這次我們就先以最常見的Excel表格來做回歸分析,Excel表格的功能遠(yuǎn)比我們想的強大(一般的回歸分析,只要是數(shù)據(jù)量不是很大,,Excel完全可以搞得定,,而且上手十分容易,不需要一行代碼,,就可以輕松搞定)

一般是利用最小二乘法來計算出回歸模型的參數(shù)值,。但是得到的回歸方程到底有沒有統(tǒng)計學(xué)意義,還需要對回歸方程進行各種檢驗,,主要是回歸方程顯著性檢驗,,回歸系數(shù)顯著性檢驗,,殘差分析等,。

數(shù)據(jù)集:波士頓房價數(shù)據(jù)

波士頓房價數(shù)據(jù)已被用于許多涉及回歸問題的機器學(xué)習(xí)論文中,所有我們拿這個成熟的數(shù)據(jù)集來預(yù)測房價練練手,!數(shù)據(jù)如下:

使用Excel和python來做回歸分析

CRIM 城鎮(zhèn)人均犯罪率

ZN 占地面積超過2.5萬平方英尺的住宅用地比例

INDUS 城鎮(zhèn)非零售業(yè)務(wù)地區(qū)的比例

CHAS 查爾斯河虛擬變量 (= 1 如果土地在河邊,;否則是0)

NOX 一氧化氮濃度(每1000萬份)

RM 平均每居民房數(shù)

AGE 在1940年之前建成的所有者占用單位的比例

DIS 與五個波士頓就業(yè)中心的加權(quán)距離

RAD 輻射狀公路的可達性指數(shù)

TAX 每10,000美元的全額物業(yè)稅率

PTRATIO 城鎮(zhèn)師生比例

B 1000(Bk - 0.63)^2 其中 Bk 是城鎮(zhèn)的黑人比例

LSTAT 人口中地位較低人群的百分?jǐn)?shù)

MEDV 以1000美元計算的自有住房的中位數(shù)

使用Excel和python來做回歸分析

做回歸分析前,先看下特征的相關(guān)性,,如下:

注:Excel內(nèi)置的相關(guān)系數(shù)是pearson相關(guān)系數(shù)

使用Excel和python來做回歸分析

好像和價格的相關(guān)性都差不多,,那我們做一個回歸擬合看看,Excel界面如下:

使用Excel和python來做回歸分析

得到結(jié)果如下:

使用Excel和python來做回歸分析

使用Excel和python來做回歸分析

殘差圖

使用Excel和python來做回歸分析

特征殘差擬合圖

注:回歸方程的顯著性檢驗是F檢驗也就是方差分析,,回歸方程系數(shù)檢驗是T檢驗

結(jié)果說明:

1,,回歸統(tǒng)計:R Square表示擬合度,,就是方程對數(shù)據(jù)的擬合程度,當(dāng)然是越大越好,,此時為0.74

2,,方差分析:F=108.057,這個F是啥,?是F統(tǒng)計量,,回歸方程的顯著性檢驗是用的F檢驗,sig F=6.9468E-135 <>

3,,回歸系數(shù)coefficient顯著性,,看T——Start值,看特征對于的P值,,如圖:特征INDUS,AGE對應(yīng)的T統(tǒng)計量均小于1,,P值大于0.05,說明這兩個系數(shù)與y(price)的線性關(guān)系不顯著,,不應(yīng)該保留在回歸方程中,,也可以再結(jié)合特征殘差擬合圖來看一下特征的有效性

看來得把這兩個線性關(guān)系不顯著的特征去掉之后再重新做回歸!

使用Excel和python來做回歸分析

這一次的回歸方程和回歸系數(shù)都有顯著性,但是這個R Square=0.740545,,好像和不剔除變量沒什么差別,,甚至還小一點,這就有點尷尬了,。

整體的方程擬合度才0.74,,效果不是很好。

我們用python來做一下看看

首先來篩選特征,,有兩種方法SelectKBest和f_regression

注:f_regression 是單因素線性回歸F檢驗,,SelectKBest方法可以調(diào)用檢驗方法,如:卡方檢驗chi2,,還有針對分類的方差分析的f_classif,當(dāng)然也可以調(diào)用f_regression方法,,還可以選擇前k個分?jǐn)?shù)較高的特征,去掉其他的特征,。所以這個方法更強大,,推薦使用這個。

結(jié)果如下:

使用Excel和python來做回歸分析

這兩種方法得到的結(jié)果一樣,,對應(yīng)的特征的P值都小于0.05,,沒法去掉一些特征

再注:目前python提供的有方差分析,卡方檢驗的方法,,但是一直沒有發(fā)現(xiàn)T檢驗的方法,。可能是因為T檢驗其實也算是一種F檢驗的緣故吧,至于是不是因為這,,我也不知道,,這只是我猜的!但是用Excel做的時候即使去掉兩個不顯著的特征,,好像對回歸結(jié)果沒有什么大的影響,,所有在python中干脆都顯著了,

數(shù)據(jù)分成訓(xùn)練集和測試集,,通過在訓(xùn)練集和測試集上的得分對比來判斷是否過擬合還是欠擬合,,可以直接得到回歸系數(shù)和截距,如下如:

使用Excel和python來做回歸分析

從結(jié)果看,,回歸方程的擬合度在0.73左右,,和用Excel做的差不多,沒有提高,,反而略微降低了,。

繪制交叉驗證預(yù)測圖

使用Excel和python來做回歸分析

使用Excel和python來做回歸分析

從結(jié)果看,擬合的并不是很好,。

后記:

結(jié)合Excel和python做的回歸方程擬合度都是在0.74左右,,效果只能是一般,看來得換一種方法來做,。

我們接下來準(zhǔn)備用K近鄰回歸算法來做預(yù)測,。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多