廣義線性模型(generalized linear model, GLM)是簡(jiǎn)單最小二乘回歸(OLS)的擴(kuò)展,,在OLS的假設(shè)中,,響應(yīng)變量是連續(xù)數(shù)值數(shù)據(jù)且服從正態(tài)分布,,而且響應(yīng)變量期望值與預(yù)測(cè)變量之間的關(guān)系是線性關(guān)系,。而廣義線性模型則放寬其假設(shè),首先響應(yīng)變量可以是正整數(shù)或分類數(shù)據(jù),,其分布為某指數(shù)分布族,。其次響應(yīng)變量期望值的函數(shù)(連接函數(shù))與預(yù)測(cè)變量之間的關(guān)系為線性關(guān)系。因此在進(jìn)行GLM建模時(shí),,需要指定分布類型和連接函數(shù),。
在R中通常使用glm函數(shù)構(gòu)造廣義線性模型,其中分布參數(shù)包括了binomaial(兩項(xiàng)分布),、gaussian(正態(tài)分布),、gamma(伽馬分布)、poisson(泊松分布)等,。和lm函數(shù)類似,,glm的建模結(jié)果可以通過(guò)下述的泛型函數(shù)進(jìn)行二次處理,,如summary()、coef(),、confint(),、residuals()、anova(),、plot(),、predict()
一、Logistic回歸
Logistic回歸中假設(shè)響應(yīng)變量服從二項(xiàng)分布,,參數(shù)family設(shè)置為binomial,,連接函數(shù)link設(shè)置為logit,我們以AER包中的Affairs數(shù)據(jù)集作為例子,。該數(shù)據(jù)集是關(guān)于婚姻出軌,,其中affairs變量表示出軌次數(shù),數(shù)據(jù)集中還包括結(jié)婚時(shí)間,、教育,、宗教等其它變量。由于affairs為正整數(shù),,為了進(jìn)行Logistic回歸先要將其轉(zhuǎn)化為二元變量。
1 | data (Affairs, package= 'AER' ) |
2 | Affairs$ynaffair[Affairs$affairs < 0] <- 1 |
3 | Affairs$ynaffair[Affairs$affairs < 0] <- 0 |
4 | Affairs$ynaffair <- factor (Affairs$ynaffair, |
7 | model.L <- glm (ynaffair ~ age + yearsmarried + religiousness +rating, data=Affairs, family= binomial ()) |
若樣本觀測(cè)值變異性過(guò)大,,即出現(xiàn)了過(guò)度離散現(xiàn)象,,此時(shí)仍使用二項(xiàng)分布假設(shè)就會(huì)影響系數(shù)檢測(cè)的顯著性。那么補(bǔ)救的方法是使用準(zhǔn)二項(xiàng)分布(quasibinomial),。首先要檢測(cè)樣本是否存在過(guò)度離散現(xiàn)象,,方法是用殘差除以殘差自由度,若超過(guò)1則意味著過(guò)度離散,。那么將family參數(shù)改為quasibinomial,。
其它和Logistic回歸相關(guān)的函數(shù)還包括:robust包中的glmRob函數(shù)實(shí)施穩(wěn)健GLM;mlogit包中的mlogit函數(shù)對(duì)多分類變量進(jìn)行l(wèi)ogistic回歸,;rms包中的lrm函數(shù)對(duì)順序變量進(jìn)行Logistic回歸,。
二、Poisson回歸
泊松回歸假設(shè)響應(yīng)變量服從泊松分布,,而連接函數(shù)為log函數(shù),。仍以前面未轉(zhuǎn)化的Affairs數(shù)據(jù)集為例。建立模型后通過(guò)coef函數(shù)來(lái)提取模型系數(shù),,因?yàn)椴此苫貧w中響應(yīng)變量經(jīng)過(guò)了log函數(shù)變換,,所以對(duì)系數(shù)進(jìn)行指數(shù)變換可更好的對(duì)結(jié)果進(jìn)行解釋。從中觀察到,,在其它變量不變前提下,,結(jié)婚時(shí)間增長(zhǎng)1年,,那么出軌次數(shù)期望值則變?yōu)橹暗?.11倍。
1 | model.P <- glm (affairs ~ age + yearsmarried + religiousness +rating, data=Affairs, family= poisson ()) |
(Intercept) age yearsmarried religiousness rating
15.6175253 0.9733061 1.1163656 0.6971279 0.6691823
同樣,,在進(jìn)行泊松分布也要考慮過(guò)度離散現(xiàn)象,。其檢測(cè)方法同樣是殘差除以其自由度。若確定過(guò)度離散存在,,則要將family參數(shù)設(shè)置為準(zhǔn)泊松分布(quasipoisson),。
本文來(lái)自:http://xccds1977./2012/01/blog-post.html
|