第19講 觀察性研究統(tǒng)計策略(4): 線性回歸分析的歷史、本質(zhì)與基本方法 無論實驗性研究還是觀察性研究,,線性回歸分析十分重要,,尤其是現(xiàn)況調(diào)查和隊列研究。在現(xiàn)況調(diào)查中,,回歸分析既可以初步探索變量與變量的關(guān)系,,也可以通過多變量的回歸分析開展因果關(guān)聯(lián)性分析(下圖)。現(xiàn)況調(diào)查的分析過程及回歸分析的位置 | 學(xué)習(xí)回歸分析,,首先得了解回歸的歷史,,模型的定義,建模的意義等,,本文將基于簡單線性回歸,,來幫助大家全面了解線性回歸分析。“回歸”是由英國著名生物學(xué)家兼統(tǒng)計學(xué)家高爾頓(Francis Galton,1822~1911.生物學(xué)家達爾文的表弟)在研究人類遺傳問題時提出來的,。為了研究父代與子代身高的關(guān)系,,高爾頓搜集了1078對父親及其兒子的身高數(shù)據(jù)。他發(fā)現(xiàn)這些數(shù)據(jù)的散點圖大致呈直線狀態(tài),,也就是說,,總的趨勢是父親的身高增加時,兒子的身高也傾向于增加,。1855年,, 高爾頓發(fā)表《遺傳的身高向平均數(shù)方向的回歸》一文,他和他的同事通過觀察1078對夫婦的身高數(shù)據(jù),,他發(fā)現(xiàn)這些數(shù)據(jù)的散點圖大致呈直線狀態(tài),,也就是說,總的趨勢是父親的身高增加時,,兒子的身高也傾向于增加,。當父母越高或越矮時,子女的身高會比一般兒童高或矮,。他將兒子與父母身高的這種現(xiàn)象擬合出一種線形關(guān)系,,分析出兒子的身高y與父親的身高x大致可歸結(jié)為一下關(guān)系: Y= 0.8567+0.516*X (單位為米); 假如父母輩的平均身高為1.75米,則預(yù)測子女的身高為1.7597米,。 這種趨勢及回歸方程表明父母身高每增加一個單位時,,其成年兒子的身高平均增加0.516個單位。這就是回歸一詞最初在遺傳學(xué)上的含義,。 有趣的是,,通過觀察,高爾頓還注意到,,盡管這是一種擬合較好的線形關(guān)系,,但仍然存在例外現(xiàn)象:矮個父母所 生的兒子比其父要高,身材較高的父母所生子女的身高卻回降到多數(shù)人的平均身高,。換句話說,,當父母身高走向極端,子女的身高不會象父母身高那樣極端化,,其身高要比父母們的身高更接近平均身高,,即有“回歸”到平均數(shù)去的趨勢,這就是統(tǒng)計學(xué)上最初出現(xiàn)“回歸”時的涵義,,高爾頓把這一現(xiàn)象叫做“向平均數(shù)方向的回歸”(regression toward mediocrity),。“回歸”一詞正式流傳下來,不過后來的統(tǒng)計學(xué)看重的不是“向平均數(shù)方向的回歸”而是高爾頓建立起來的回歸方程,。這個回歸方程是一個函數(shù),,它不能準確反映父親身高和子代身高的關(guān)系,但是卻可以大致判斷,,并且在一個群體水平計算父親身高對子女的影響的平均值,,可以反映父親身高與子女身高的因果關(guān)系。“回歸”逐漸成為根據(jù)一種變量(父母身高)預(yù)測另一種變量(子女身高)或多種變量關(guān)系的描述方法,,成為百年來經(jīng)久不衰的統(tǒng)計學(xué)方法,。 回歸關(guān)系,即一種用數(shù)學(xué)函數(shù)描述的因果關(guān)系,?;貧w即因果!▌什么是模型,? 模型(model)模型是指對于某個實際問題或客觀事物,、規(guī)律進行抽象后的一種形式化表達方式比如,地球儀是一個模型,,它代表著用物理球體來反應(yīng)真實的地球,。 最常見的是用數(shù)學(xué)的方式來反映客觀事物。因此,,全球各國有一個注明的數(shù)學(xué)比賽,,叫做數(shù)學(xué)建模大賽!用數(shù)學(xué)方法來擬合現(xiàn)實事件發(fā)生的一般規(guī)律。
統(tǒng)計模型也是一種數(shù)學(xué)的方式,。比如,,高爾頓的子代身高問題,我們想關(guān)心的是,,子代身高到底受什么影響,?我們能否預(yù)測它,能否用數(shù)學(xué)的方式預(yù)測它,?此時,,便需要構(gòu)建數(shù)學(xué)模型。
高爾頓給出了最為經(jīng)典,,但有十分簡單的方式,,用一元一次,或者多元一次模型來構(gòu)建子代身高的模型: Y= 0.8567+0.516*X (單位為米);回歸模型或者回歸函數(shù)是一類統(tǒng)計學(xué)分析最重要的模型,,除了線性回歸模型,,還有不計其數(shù)的各種回歸模型,典型還有l(wèi)ogistic回歸模型,,Cox模型,,Poisson模型等。本文以線性回歸模型為例,,來探討模型結(jié)構(gòu),。
▌線性回歸模型定義 線性回歸按變量數(shù)量的多少可以分為:簡單線性回歸和多重線性回歸。簡單線性回歸,,也就是有一個自變量,,數(shù)學(xué)上表達為一元一次函數(shù),其模型可以表示如下: 上述公式是基于樣本得到的結(jié)果,,b0和b1均為統(tǒng)計量,,若該公式拓展到總體人群,則為 公式中參數(shù)解釋如下: x:自變量 b0 ,、β0:截距 b1,、β1:變量回歸系數(shù) 其中,關(guān)鍵的指標即為b1和β1,,他們稱之為回歸系數(shù),,反映的是x對y的影響力,是當X每改變一個觀測單位時所引起y的改變量,。 值得注意的是,,這里x是真實的變量值x,而y帶了一頂帽子,,并非是y的真實值,,而是成為y的預(yù)測值或者估計值。
實際上,x和y沒有嚴格上一一對應(yīng)的關(guān)系,,通過x產(chǎn)生的預(yù)測值,,是接近于y但不等于y。 y預(yù)測值與y直接的差值我們稱之為殘差,。
殘差反映了除了x和y之間的線性關(guān)系之外的隨機因素對y的影響,,是不能由x和y之間的線性關(guān)系所解釋的變異性,??梢赃@么來理解?:我們對y的預(yù)測是不可能達到與真實值完全一樣的,這個真實值只有上帝知道,,因此必然會產(chǎn)生誤差,,我們就用?來表示這個無法預(yù)測的誤差。我們通過引入了?可以讓模型達到完美狀態(tài),,也就是理論的回歸模型,。 結(jié)合殘差,真實的y和x關(guān)系如下: 同樣的,,多個自變量存在的情況下,,多重線性回歸模型的表示如下: 其中,bk,、,、βk:回歸系數(shù),在多重線性回歸中,,被稱之為偏回歸系數(shù),,表示每個自變量都對y部分的產(chǎn)生了影響。意義與簡單線性回歸結(jié)果相似,,反映的是x對y的影響力,,是當x每改變一個觀測單位時所引起y的改變量。殘差的概念上文已經(jīng)提及,,但估計初學(xué)者還不知道的概念,,而大多數(shù)人也不知道殘差究竟有何意義。我認為,,如果你真的要掌握回歸方法,,對殘差的理解十分重要。理解殘差,,就得理解回歸分析,,乃至數(shù)據(jù)分析的本質(zhì)。一般認為,,統(tǒng)計學(xué)是探討組間的差異性,,是探討變量與變量的關(guān)聯(lián)性。所以P<0.05, 被認為組間存在著差異,或者兩個變量存在著關(guān)聯(lián),。 實際上這種說法都未真正涉及統(tǒng)計學(xué)的目的和內(nèi)在的本質(zhì),。真正的統(tǒng)計學(xué)目的和本質(zhì)是,探討數(shù)據(jù)變異的來源,!為什么數(shù)據(jù)存在著變異,,什么原因造成的。將出生28天的20只大鼠有些喂養(yǎng)高蛋白和低蛋白飼料,,8周后觀察其體重(g),。133,145,,112,,138,99,,157,,126,121,,139,,106,115,,118,,75,106,,87,,94,110,,102,,124,130從這一堆數(shù)據(jù)以及下圖的直方圖來看,,數(shù)據(jù)是變異的,。那么是什么原因造成的數(shù)據(jù)的變異呢?一般分為三種原因,,一種是個體本身的變異,、一種是測量造成的誤差、還有可能是由于某些因素影響造成(由于一個變量不同水平的影響不同),。本例中,,測量誤差姑且不論,造成體重的變異必然的情況是個體本身的變異,,除此之外,,造成個體變異的原因,,可能是由于高蛋白和低蛋白對體重影響不同造成。
因此,,我們就要探討體重變異的原因來自何方,,到底是只是來自于個體變異,還是還有蛋白飼料變量造成的差異,? 要解決這個問題,,方法很簡單,就是采用t檢驗(詳見公眾號第2篇推文)
高蛋白飼料組大鼠體重為(126.45±17.76)g,,低蛋白飼料組大鼠體重為(105.11±17.80)g,,兩組總體體重總體均數(shù)存在著統(tǒng)計差異(t=2.67,P=0.016),。 差異即相關(guān),!差異代表著飼料喂養(yǎng)這一變量與體重變量存在著相關(guān)!但更深層次的是,,反映了飼料喂養(yǎng)這一變量解釋了一大部分數(shù)據(jù)的變異。高蛋白和低蛋白引起了很大的變異,,均數(shù)分別為126.45和105.11. 如果原始數(shù)據(jù)離均差平方和(反映變異程度)為7942.55,,那么除去飼料喂養(yǎng)解釋的變異之外,剩下來的即沒有被解釋的變異,,我們籠統(tǒng)歸到個體變異中,,剩下的離均差平方和為5687.62。這就是統(tǒng)計分析的本質(zhì),,從表面看,,它在探討差異性,在研究相關(guān)性,,實際上它就是在探討變異的來源,,解釋為什么發(fā)生了變異,當探明變異來原因某一個變量,,那么這個變量就結(jié)局變量存在著相關(guān),,這個變量的不同組別之間在結(jié)局指標上存在著統(tǒng)計學(xué)差異。t,、F,、卡方、秩和,、相關(guān)分析無不在探討變異的來源,,回歸分析更是如此。以簡單線性回歸為例,,β0代表著沒有額外影響變量存在時的平均數(shù),,β1代表著自變量x存在著時,,或者自變量x改變時,對y帶來的額外變異,,因此,,x將解釋y的一部變化(x變化,y變化),,殘差?就是沒有被解釋的部分,,是剩下來的變異,是邊角料,。 一般情況下,, (1)殘差?是一個期望為0的隨機變量,即E(?)=0 (2)對于自變量的所有值,,?的方差σ^2都相同 (3)誤差項?是一個服從正態(tài)分布的隨機變量,,且相互獨立,即?~N(0,σ^2) 一個回歸模型,,必然有殘差,,成功的模型必然也有相應(yīng)的變量來解釋y的變異,一般情況下,,自變量越多,,殘差越小,往往意味著更多的y的變異被解釋掉了,。因此多因素回歸比單因素更好,,更有意義。 總結(jié)來說,,殘差是回歸分析必不可少的東西,,但我們希望它方差越小越好,殘差越小,,意味著更多的變異被已知的其他自變量解釋了,,意味著我們用回歸模擬真實世界的效果越好。 所以,,現(xiàn)在你還認為統(tǒng)計學(xué)只是在探討差異性,,探討相關(guān)性嗎?
例1:現(xiàn)有15例糖尿病患者,,測得每位患者的胰島素和血糖水平,。問題,構(gòu)建回歸模型,,探討糖尿病患者胰島素和血糖水平關(guān)系,?數(shù)據(jù)詳見lincorr.sav 本案例為現(xiàn)況調(diào)查的數(shù)據(jù), 要探討胰島素和血糖的關(guān)系,,兩者均為定量變量資料,。對于能否采用回歸分析,,采用什么樣的回歸分析,最重要的前提是3個,,自變量x和應(yīng)變量y理論上有沒有因果關(guān)系,、結(jié)局y的資料類型,以及x,、y是否存在著線性關(guān)系,。當然,回歸分析必須滿足更多的條件,,我講在后續(xù)介紹,。這里先做個基本的探討。 自變量x和應(yīng)變量y理論上有沒有因果關(guān)系,。這是最重要的條件,,決定著能否開展回歸?;貧w分析必須要求兩個變量必須有因果關(guān)系,,才能探討原因變量對結(jié)局變量單向影響關(guān)系以及影響程度。結(jié)局y的資料類型,。結(jié)局變量是定量還是定性還是等級,,采用的回歸方法不同,定量資料可以采用線性回歸,,而分類資料可以采用logistic回歸等,此外,,更復(fù)雜的結(jié)局意味著更復(fù)雜的統(tǒng)計模型,。x、y是否存在著線性關(guān)系,。回歸模型是多元一次方程,,x與y直接必須有線性趨勢,否則無法直接構(gòu)建回歸模型,,得需要通過對x或者y的轉(zhuǎn)換,,直至回歸分析自變量和因變量線性關(guān)系成立。對于案例1,,探討的是定量變量(胰島素)與定量變量(血糖)的關(guān)系。對此,,上文其實已經(jīng)探討過(直線相關(guān) VS 秩相關(guān):我們該選擇哪一種相關(guān)分析方法),,可以采用線性相關(guān)分析來探討兩個變量的關(guān)系。而簡單線性回歸分析也可以探討兩者之間的關(guān)系,,其P值一致,,差異在于線性回歸分析側(cè)重于影響程度,,而相關(guān)分析側(cè)重于相關(guān)性大小。對于本結(jié)果,
①是回歸系數(shù)b值 ②是回歸系數(shù)的抽樣誤差,,即標準誤 ③Beta值,其實很多人不太理解,,它是標準化b值,,標準化回歸系數(shù)??梢杂脕肀容^各個自變量x對y的影響程度的,。本例是單因素回歸,無法比較,,我們將在多因素回歸進行進一步介紹,。 ④t值,是各個回歸系數(shù)進行假設(shè)檢驗的檢驗統(tǒng)計量,,線性回歸檢驗統(tǒng)計量為t值,。 ⑤顯著性:即P值。P<0.05說明自變量與因變量回歸關(guān)系成立,,有關(guān)系,,有影響。 本例結(jié)果顯示,,胰島素對血糖的影響的存在著統(tǒng)計學(xué)差異(b=-0.415,,P<0.001)。
我們也可以通過下表來看預(yù)測值和殘差結(jié)果,。 在數(shù)據(jù)庫中,,可以發(fā)現(xiàn)增加了PRE_1(預(yù)測值)和RES_1(殘差) ,兩組相加,,剛好是“血糖值”,。最終得到回歸分析方程如下:
血糖=16.852-0.415×胰島素 這意味著,胰島素每增加1個單位,,血糖將降低0.415個單位,。上述就是線性回歸最基本的SPSS教程,更多的操作,,更多的結(jié)果解讀(比如R值,,ANOVA分析),請關(guān)注后續(xù)若干篇文章,。1. 單因素回歸分析與諸多基本統(tǒng)計學(xué)方法結(jié)果一致基本統(tǒng)計學(xué)方法包括t,、F,、卡方、秩和,、相關(guān)分析,。他們都是在探討相關(guān)性,簡單線性回歸,,當只有一個自變量時,,其結(jié)果與t檢驗、線性相關(guān)分析一致,。 對于本文胰島素和血糖案例,,若采用相關(guān)分析,則P<0.001與簡單線性回歸分析結(jié)果一樣,,只不過相關(guān)分析給予的是相關(guān)系數(shù),。將出生28天的20只大鼠有些喂養(yǎng)高蛋白和低蛋白飼料,,8周后觀察其體重(g),。133,145,,112,,138,99,,157,,126,121,,139,,106,115,,118,75,,106,,87,94,,110,,102,124,,130比較兩種飼料體重是否一致,,可以采用t檢驗。結(jié)果如下,,兩組總體體重總體均數(shù)存在著統(tǒng)計差異(t=2.67,,P=0.016)由于結(jié)局變量為定量數(shù)據(jù),,也可以采用線性回歸分析,若本例采用簡單線性回歸分析,,t=2.67,,P值也等于0.016。結(jié)果與t檢驗一致,。2. 單因素回歸分析在觀察性研究中,,不足以探討因果關(guān)系觀察性研究,簡單線性回歸分析雖然可以探討原因變量對結(jié)局變量的影響及影響程度,,但其結(jié)果仍無法說明自變量對因變量是否有真正的因果關(guān)系,,因為觀察性就變量的關(guān)系受到諸多干擾因素影響,如同t,、F,、相關(guān)分析,簡單線性回歸也是關(guān)聯(lián)性的分析方法,,但不是因果關(guān)聯(lián)性的分析手段,。合適的因果關(guān)聯(lián)性分析方法,仍然要借助于多因素回歸分析(多變量回歸分析),。 本文提到了線性回歸,,要求變量之間應(yīng)具有因果關(guān)系、定量數(shù)據(jù),、線性關(guān)系,,數(shù)據(jù)不符合要求者,謹慎開展線性回歸分析,。除此之外,,線性回歸還要求正態(tài)性、獨立性,、方差齊性三個條件,。我將在后續(xù)展開介紹。帶字幕去水印的視頻可復(fù)制以下地址瀏覽器打開 https://evod./resource.html?stationID=1&resourceid=439&isprivate=false&cateid=102-本講結(jié)束-
|