【原】R數(shù)據(jù)分析：雙連續(xù)變量交互作用的簡單斜率圖作圖及解釋

CodewarCodewar 2021-02-04

展開全文

Interaction: When the effect of one independent variable differs based on the level or magnitude of another independent variable

對于交互作用相信很多人都不陌生,，論文中也會經(jīng)常出現(xiàn)，大家自己也會想要看看感興趣變量之間的交互,，交互作用的意思就是在一個自變量的不同水平，另一個自變量的效應(yīng)大小會有差別,，這個和調(diào)節(jié)作用統(tǒng)計上基本上是一樣的,，兩者只有理論意義上的差異,。

今天就帶大家用一個實際例子做一個交互作用

y = A + B + A*B

y = dependent variable
A = independent variable
B = independent variabile
A*B = interaction between A and B

上面的這個公式就是最簡單的，有交互作用的回歸,，對于此方面的詳盡解釋,，大家可以參考文獻：Jaccard & Turrisi 2003 Interaction Effects in Multiple Regression

今天重點給大家寫兩個連續(xù)變量的簡單斜率圖和解釋：

兩連續(xù)變量的交互

先模擬出我們今天的數(shù)據(jù)集：

library(car) 

#此部分為數(shù)據(jù)的模擬  
n <- 250    
#模擬兩個正態(tài)分布的連續(xù)變量
X <- rnorm(n, 2.75, .75)    
Z <- rnorm(n, 15, 15)   
#模擬因變量    
Y <- .7*X + .3*Z + 2.5*X*Z + rnorm(n, sd = 5)
#因變量轉(zhuǎn)化
Y = (Y - min(Y)) / (max(Y) - min(Y))*4
#生成我們的數(shù)據(jù)
GPA.Data <- data.frame(GPA=Y, Work.Ethic=X, IQ=Z)

上面的代碼生成一個模擬的數(shù)據(jù)框，我們假設(shè)應(yīng)變量是學(xué)生的GPA,，兩個自變量分別是學(xué)習(xí)態(tài)度和智商,，我們文章要探討的就是學(xué)習(xí)態(tài)度和智商在影響GPA時的交互作用。

此時智商和態(tài)度都是正態(tài)分布的連續(xù)變量,。

首先擬合模型：

GPA.Data$IQ.C <- scale(GPA.Data$IQ, center = TRUE, scale = FALSE)
GPA.Data$Work.Ethic.C <- scale(GPA.Data$Work.Ethic, center = TRUE, scale = FALSE)


GPA.Model.1 <- lm(GPA~IQ.C+Work.Ethic.C, GPA.Data)
GPA.Model.2 <- lm (GPA~IQ.C*Work.Ethic.C, GPA.Data)

library(stargazer)
stargazer(GPA.Model.1, GPA.Model.2,type="html", 
          column.labels = c("Main Effects", "Interaction"), 
          intercept.bottom = FALSE, 
          single.row=FALSE,     
          notes.append = FALSE, 
          header=FALSE,
          out="test.html",
          out.header=TRUE)

上面的代碼進行了有交互和沒有交互時的模型擬合,，同時我還用了stargazer來輸出模型結(jié)果：

可以看到交互作用是有的，下面準(zhǔn)備畫簡單斜率圖：

簡單斜率圖

兩個連續(xù)變量放在回歸方程中很好理解,，在做交互的簡單斜率圖的時候我們就得指定水平,，比如AB兩個連續(xù)變量有交互作用，我們?nèi)绻訟為x軸做簡單斜率圖,，我們需要表達的是A的效應(yīng)隨著B的不同水平的不同而不同,。

然而B是一個連續(xù)變量，所以我們此時得給B指定作圖的水平,。

指定水平時一般有三種方法：hand picking, quantiles, standard deviation,。

我們先來看hand picking：

library(effects)
Inter.HandPick <- effect('IQ.C*Work.Ethic.C', GPA.Model.2,
                                              xlevels=list(IQ.C = c(-15, 0, 15),
                                              Work.Ethic.C = c(-1.1, 0, 1.1)),
                                              se=TRUE, confidence.level=.95, typical=mean)

Inter.HandPick <- as.data.frame(Inter.HandPick)
head(Inter.HandPick)

可以看到在我們指定的不同水平都有擬合系數(shù)均值：

有了上面的數(shù)據(jù)我們就可以做簡單斜率圖了：

Inter.HandPick$IQ <- factor(Inter.HandPick$IQ.C,
                      levels=c(-15, 0, 15),
                      labels=c("1 SD Below Population Mean", "Population Mean", "1 SD Above Population Mean"))
                     

Inter.HandPick$Work.Ethic <- factor(Inter.HandPick$Work.Ethic.C,
              levels=c(-1.1, 0, 1.1),
              labels=c("Poor Worker", "Average Worker", "Hard Worker"))

library(ggplot2)                
Plot.HandPick<-ggplot(data=Inter.HandPick, aes(x=Work.Ethic, y=fit, group=IQ))+
      geom_line(size=2, aes(color=IQ))+
      ylim(0,4)+
      ylab("GPA")+
      xlab("Work Ethic")+
      ggtitle("Hand Picked Plot")


Plot.HandPick

運行以上代碼即得到簡單斜率圖：

因為我們選擇的B的水平是levels=c(-15, 0, 15)，而我們模擬的B也就是IQ的分布是一個以15為均值15為標(biāo)準(zhǔn)差的正態(tài)分布,，而后進行了中心化,，所以我們畫簡單斜率圖選擇的這個水平levels=c(-15, 0, 15)就是均值和加減一個標(biāo)準(zhǔn)差的水平。這個是我們自己選的,，所以叫做hand picking,。

對于這個簡單斜率圖的解釋如下：

對于IQ均值在總體均值一個標(biāo)準(zhǔn)差以上的這些人，他們的學(xué)習(xí)態(tài)度越好那么GPA也越好,，在普通IQ的學(xué)生中也有這么一種關(guān)系,，但是比較弱一點，但是對于那些IQ低于人群一個標(biāo)準(zhǔn)差的同學(xué),，他們的學(xué)習(xí)態(tài)度再好,，GPA好像也不增加。

我們接著看另外一種劃分水平的方法---quantiles

首先我們將我們的B的水平化出來：

IQ.Quantile <- quantile(GPA.Data$IQ.C, probs=c(0,.25,.50,.75,1))
IQ.Quantile <- round(IQ.Quantile, 2)

其余的步驟和基本就一樣了,，依然還是先跑我們的B的不同水平的系數(shù)均值：

library(effects)

Inter.Quantile <- effect('IQ.C*Work.Ethic.C', GPA.Model.2,
                                      xlevels=list(IQ.C = c(-35.44, -9.78, -0.04, 9.89, 41.90),
                                      Work.Ethic.C = c(-1.1, 0, 1.1)),
                                      se=TRUE, confidence.level=.95, typical=mean)

Inter.Quantile <- as.data.frame(Inter.Quantile)
 

Inter.Quantile$IQ<-factor(Inter.Quantile$IQ.C,
                      levels=c(-35.44, -9.78, -0.04, 9.89, 41.90),
                      labels=c("0%", "25%", "50%", "75%", "100%"))
                     
Inter.Quantile$Work.Ethic<-factor(Inter.Quantile$Work.Ethic.C,
              levels=c(-1.1, 0, 1.1),
              labels=c("Poor Worker", "Average Worker", "Hard Worker"))

然后再畫圖：

library(ggplot2) 
Plot.Quantile<-ggplot(data=Inter.Quantile, aes(x=Work.Ethic, y=fit, group=IQ))+
      geom_line(size=2, aes(color=IQ))+
      ylab("GPA")+
      xlab("Work Ethic")+
      scale_color_manual(values=c("#42c5f4","#54f284","#f45dcc",  
                             "#ff9d35","#d7afff"))+ 
      theme_bw()+ 
      theme(text = element_text(family="Impact", size=14, color="black"))+ #可以在這換字體
      ggtitle("Quantile Plot")

Plot.Quantile

對于上面圖的解釋相信大家都會了,，這兒不多羅嗦，直接繼續(xù)看第三種劃分水平的方法

第三種劃分水平的方法叫做Standard Deviation

其實我們第一種方法就是按照標(biāo)準(zhǔn)差劃分的,，所以這個做出來的圖和第一種方法基本沒有區(qū)別,，首先還是水平劃分：

IQ.SD <- c(mean(GPA.Data$IQ.C)-sd(GPA.Data$IQ.C),
           mean(GPA.Data$IQ.C),
           mean(GPA.Data$IQ.C)+sd(GPA.Data$IQ.C))

IQ.SD <- round(IQ.SD, 2)

然后做交互，得出系數(shù)均值：

Inter.SD <- effect(c("IQ.C*Work.Ethic.C"), GPA.Model.2,
                     xlevels=list(IQ.C=c(-14.75, 0, 14.75),
                                  Work.Ethic.C=c(-1.1, 0, 1.1))) 

Inter.SD <- as.data.frame(Inter.SD)


Inter.SD$IQ<-factor(Inter.SD$IQ.C,
                      levels=c(-14.75, 0, 14.75),
                      labels=c("1 SD Below Mean", "Mean", "1 SD Above Mean"))
                     
Inter.SD$Work.Ethic<-factor(Inter.SD$Work.Ethic.C,
              levels=c(-1.1, 0, 1.1),
              labels=c("Poor Worker", "Average Worker", "Hard Worker"))

然后再出圖：


Plot.SD<-ggplot(data=Inter.SD, aes(x=Work.Ethic, y=fit, group=IQ))+
      geom_line(size=1, aes(color=IQ))+ 
      geom_point(aes(colour = IQ), size=2)+ 
      geom_ribbon(aes(ymin=fit-se, ymax=fit+se),fill="gray",alpha=.6)+ 
      ylim(0,4)+ 
      ylab("GPA")+ 
      xlab("Work Ethic")+ 
      ggtitle("Standard Deviation Plot")+ 
      theme_bw()+ #Removes the gray background 
      theme(panel.grid.major=element_blank(),
          panel.grid.minor=element_blank(),
          legend.key = element_blank())+ #Removes the lines 
     scale_fill_grey()
Plot.SD

此圖的解釋和第一種方法一模一樣哈。

小結(jié)

今天給大家寫了回歸中雙連續(xù)變量交互作用的簡單斜率圖的畫法和解釋,，之后會給大家寫有分類變量的交互,，感謝大家耐心看完。發(fā)表這些東西的主要目的就是督促自己,，希望大家關(guān)注評論指出不足,，一起進步。內(nèi)容我都會寫的很細,，用到的數(shù)據(jù)集也會在原文中給出鏈接,，你只要按照文章中的代碼自己也可以做出一樣的結(jié)果，一個目的就是零基礎(chǔ)也能懂,，因為自己就是什么編程基礎(chǔ)沒有從零學(xué)Python和R的,，加油。數(shù)據(jù)分析問題咨詢,，代處理請私信,。