什么是回歸?英文單詞Regression翻譯成中文“回歸”,,那什么是回歸呢,?事實(shí)上,在Logistic回歸出現(xiàn)以前,,人們最先引入的是線性回歸,。了解二者之間的來(lái)龍去脈將幫助你更深刻地認(rèn)識(shí)Logistic回歸。 回歸一詞最早由英國(guó)科學(xué)家弗朗西斯·高爾頓(Francis Galton)提出,,他還是著名的生物學(xué)家,、進(jìn)化論奠基人查爾斯·達(dá)爾文(Charles Darwin)的表弟。高爾頓深受進(jìn)化論思想的影響,,并把該思想引入到人類研究,,從遺傳的角度解釋個(gè)體差異形成的原因。 高爾頓發(fā)現(xiàn),,雖然有一個(gè)趨勢(shì)——父母高,,兒女也高;父母矮,,兒女也矮,,但給定父母的身高,兒女輩的平均身高卻趨向于或者“回歸”到全體人口的平均身高,。換句話說(shuō),,即使父母雙方都異常高或者異常矮,兒女的身高還是會(huì)趨向于人口總體的平均身高,。這也就是所謂的普遍回歸規(guī)律,。 高爾頓的這一結(jié)論被他的朋友,英國(guó)數(shù)學(xué)家,、數(shù)理統(tǒng)計(jì)學(xué)的創(chuàng)立者卡爾·皮爾遜(Karl Pearson)所證實(shí),。皮爾遜收集了一些家庭的1000多名成員的身高記錄,發(fā)現(xiàn)對(duì)于一個(gè)父親高的群體,,兒輩的平均身高低于他們父輩的身高,;而對(duì)于一個(gè)父親矮的群體,兒輩的平均身高則高于其父輩的身高,。這樣就把高的和矮的兒輩一同“回歸”到所有男子的平均身高,,用高爾頓的話說(shuō),這是“回歸到中等”。 回歸分析是被用來(lái)研究一個(gè)被解釋變量(Explained Variable)與一個(gè)或多個(gè)解釋變量(Explanatory Variable)之間關(guān)系的統(tǒng)計(jì)技術(shù),。被解釋變量有時(shí)也被稱為因變量(Dependent Variable),,與之相對(duì)應(yīng)地,解釋變量也被稱為自變量(Independent Variable),。回歸分析的意義在于通過(guò)重復(fù)抽樣獲得的解釋變量的已知或設(shè)定值來(lái)估計(jì)或者預(yù)測(cè)被解釋變量的總體均值,。 如果你對(duì)上面這段話感到困惑,,不妨來(lái)看看下面這張圖。圖上有一些觀測(cè)到的樣本點(diǎn),,線性回歸的任務(wù)就在于通過(guò)一條線來(lái)最大程度地?cái)M合這些點(diǎn),。例如,我們已經(jīng)得到了一些父輩與兒輩身高的數(shù)據(jù),,而且我們認(rèn)為兒輩的身高在很大程度上依賴于父輩的身高,。那么,我們就可以把兒輩身高看成是被解釋變量(即圖中的縱軸),,把父輩身高看成是解釋變量(即圖中的衡軸),。然后通過(guò)一條回歸線來(lái)擬合這些數(shù)據(jù),如此一來(lái),,當(dāng)我們已知一個(gè)父親的身高時(shí),,就可以通過(guò)回歸線所表現(xiàn)出來(lái)的線性關(guān)系推測(cè)出兒子身高的大概水平。 在線性回歸中,,我們假設(shè)被解釋變量 其中
Logistic回歸的引入你已經(jīng)掌握了線性回歸的基本內(nèi)容?,F(xiàn)在我們來(lái)看一個(gè)稍微有點(diǎn)變化的例子,。 為研究與急性心肌梗塞急診治療情況有關(guān)的因素,現(xiàn)收集了200個(gè)急性心肌梗塞的病例,,如下表所示,。其中, 如果要建立回歸模型,,進(jìn)而來(lái)預(yù)測(cè)不同情況下病患生存的概率,考慮用多重回歸來(lái)做,,(注意我們將大寫換成了小寫)即 則顯然將自變量帶入上述回歸方程,,不能保證概率 或 其函數(shù)的圖像如圖下所示,。 然后上面的函數(shù)定義式將多元線性回歸中的因變量替換得到 其中 上式中的 進(jìn)而有(由于下面的計(jì)算過(guò)程使用了截圖,,無(wú)法修改,,請(qǐng)讀者注意其中的 當(dāng)我們得到上面最后一個(gè)公式的時(shí)候,如果再有一組觀察樣本,,將其帶入公式,,就可以算得病人生存與否的概率。
以上我們就通過(guò)了一個(gè)例子向讀者演示了如何從原始的線性回歸演化出Logistic回歸,。而且,,不難發(fā)現(xiàn),Logistic回歸可以用作機(jī)器學(xué)習(xí)中的分類器,。當(dāng)我們得到一個(gè)事件發(fā)生與否的概率時(shí),,自然就已經(jīng)得出結(jié)論,其到底應(yīng)該屬于“發(fā)生”的那一類別,,還是屬于“不發(fā)生”的那一類別,。 接下來(lái)我們要從整個(gè)具體的例子中抽象出Logistic回歸的一般化過(guò)程。并為后續(xù)一些文章的討論埋下伏筆,。 所謂機(jī)器學(xué)習(xí),,最終是讓機(jī)器自己學(xué)到一個(gè)可以用于問(wèn)題解決的模型。而這個(gè)模型本質(zhì)上是由一組參數(shù)定義的,,也就是前面討論的 這里 在給定特征向量 相對(duì)應(yīng)地,在給定條件 而且還可以得到事件發(fā)生與不發(fā)生的概率之比為 這個(gè)比值稱為事件的發(fā)生比,。
概率論的知識(shí)告訴我們參數(shù)估計(jì)時(shí)可以采用最大似然法。假設(shè)有 各個(gè)觀測(cè)樣本之間相互獨(dú)立,,那么它們的聯(lián)合分布為各邊緣分布的乘積。得到似然函數(shù)為 然后我們的目標(biāo)是求出使這一似然函數(shù)值最大的參數(shù)估計(jì),,于是對(duì)函數(shù)取對(duì)數(shù)得到 根據(jù)多元函數(shù)求極值的方法,,為了求出使得 現(xiàn)在,,我們所要做的就是通過(guò)上面已經(jīng)得到的結(jié)論來(lái)求解使得似然函數(shù)最大化的參數(shù)向量。在實(shí)際中有很多方法可供選擇,,其中比較常用的包括梯度下降法,、牛頓法和擬牛頓法等,這部分內(nèi)容我們留待后續(xù)文章中再來(lái)詳談,。
|
|