久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

機(jī)器學(xué)習(xí)之詳解Logistic回歸

 復(fù)雜網(wǎng)絡(luò)621 2017-01-24

之前的幾篇博客文章里,我們已經(jīng)向讀者介紹了機(jī)器學(xué)習(xí)中Logistic回歸的具體應(yīng)用(主要是在微博Sentiment Analysis中的分類應(yīng)用)以及在Python中利用Scikit-Learn提供的函數(shù)進(jìn)行基于Logistic回歸的數(shù)據(jù)挖掘的一般方法,。而本文旨在從源頭上解釋一下Logistic回歸的原理到底是什么,。

什么是回歸?

英文單詞Regression翻譯成中文“回歸”,,那什么是回歸呢,?事實(shí)上,在Logistic回歸出現(xiàn)以前,,人們最先引入的是線性回歸,。了解二者之間的來(lái)龍去脈將幫助你更深刻地認(rèn)識(shí)Logistic回歸。

回歸一詞最早由英國(guó)科學(xué)家弗朗西斯·高爾頓(Francis Galton)提出,,他還是著名的生物學(xué)家,、進(jìn)化論奠基人查爾斯·達(dá)爾文(Charles Darwin)的表弟。高爾頓深受進(jìn)化論思想的影響,,并把該思想引入到人類研究,,從遺傳的角度解釋個(gè)體差異形成的原因。

高爾頓發(fā)現(xiàn),,雖然有一個(gè)趨勢(shì)——父母高,,兒女也高;父母矮,,兒女也矮,,但給定父母的身高,兒女輩的平均身高卻趨向于或者“回歸”到全體人口的平均身高,。換句話說(shuō),,即使父母雙方都異常高或者異常矮,兒女的身高還是會(huì)趨向于人口總體的平均身高,。這也就是所謂的普遍回歸規(guī)律,。

高爾頓的這一結(jié)論被他的朋友,英國(guó)數(shù)學(xué)家,、數(shù)理統(tǒng)計(jì)學(xué)的創(chuàng)立者卡爾·皮爾遜(Karl Pearson)所證實(shí),。皮爾遜收集了一些家庭的1000多名成員的身高記錄,發(fā)現(xiàn)對(duì)于一個(gè)父親高的群體,,兒輩的平均身高低于他們父輩的身高,;而對(duì)于一個(gè)父親矮的群體,兒輩的平均身高則高于其父輩的身高,。這樣就把高的和矮的兒輩一同“回歸”到所有男子的平均身高,,用高爾頓的話說(shuō),這是“回歸到中等”。

回歸分析是被用來(lái)研究一個(gè)被解釋變量(Explained Variable)與一個(gè)或多個(gè)解釋變量(Explanatory Variable)之間關(guān)系的統(tǒng)計(jì)技術(shù),。被解釋變量有時(shí)也被稱為因變量(Dependent Variable),,與之相對(duì)應(yīng)地,解釋變量也被稱為自變量(Independent Variable),。回歸分析的意義在于通過(guò)重復(fù)抽樣獲得的解釋變量的已知或設(shè)定值來(lái)估計(jì)或者預(yù)測(cè)被解釋變量的總體均值,。

如果你對(duì)上面這段話感到困惑,,不妨來(lái)看看下面這張圖。圖上有一些觀測(cè)到的樣本點(diǎn),,線性回歸的任務(wù)就在于通過(guò)一條線來(lái)最大程度地?cái)M合這些點(diǎn),。例如,我們已經(jīng)得到了一些父輩與兒輩身高的數(shù)據(jù),,而且我們認(rèn)為兒輩的身高在很大程度上依賴于父輩的身高,。那么,我們就可以把兒輩身高看成是被解釋變量(即圖中的縱軸),,把父輩身高看成是解釋變量(即圖中的衡軸),。然后通過(guò)一條回歸線來(lái)擬合這些數(shù)據(jù),如此一來(lái),,當(dāng)我們已知一個(gè)父親的身高時(shí),,就可以通過(guò)回歸線所表現(xiàn)出來(lái)的線性關(guān)系推測(cè)出兒子身高的大概水平。




在線性回歸中,,我們假設(shè)被解釋變量 y 與解釋變量 x1,x2,,xn之間具有線性相關(guān)的關(guān)系,,那么用公式就可以將線性回歸模型表示為
y=w0+w1x1+w2x2++wnxn

其中 w0 表示常數(shù)項(xiàng),上圖中因?yàn)樽宰兞恐挥幸粋€(gè),,所以一元線性回歸的公式表示應(yīng)該是 y=w0+w1x1,,顯然它是多元線性回歸模型中最簡(jiǎn)單的情況。


Logistic回歸的引入

你已經(jīng)掌握了線性回歸的基本內(nèi)容?,F(xiàn)在我們來(lái)看一個(gè)稍微有點(diǎn)變化的例子,。

為研究與急性心肌梗塞急診治療情況有關(guān)的因素,現(xiàn)收集了200個(gè)急性心肌梗塞的病例,,如下表所示,。其中,X1 用于指示救治前是否休克,,X1=1 表示救治前已休克,,X1=0 表示救治前未休克;X2 用于指示救治前是否心衰,,X2=1 表示救治前已發(fā)生心衰,,X2=0 表示救治前未發(fā)生心衰;X3用于指示12小時(shí)內(nèi)有無(wú)治療措施,X3=1表示沒(méi)有,,否則X3=0,。最后給出了病患的最終結(jié)局,當(dāng) P=0 時(shí),,表示患者生存,;否則當(dāng) P=1 時(shí),表示患者死亡,。




如果要建立回歸模型,,進(jìn)而來(lái)預(yù)測(cè)不同情況下病患生存的概率,考慮用多重回歸來(lái)做,,(注意我們將大寫換成了小寫)即
P=w0+w1x1+w2x2+w3x3

則顯然將自變量帶入上述回歸方程,,不能保證概率 P 一定位于0~1。于是想到用Logistic函數(shù)將自變量映射至0~1,。Logistic函數(shù)的定義如下:
P=ey1+ey


y=lnP1P

其函數(shù)的圖像如圖下所示,。



然后上面的函數(shù)定義式將多元線性回歸中的因變量替換得到
P(x)=11+ex

其中 x=w0+w1x1++wnxn,而且在我們當(dāng)前所討論的例子中 n=3,。
上式中的 w0,w1,,wn正是我們要求的參數(shù),,通常采用極大似然估計(jì)法對(duì)參數(shù)進(jìn)行求解。對(duì)于本題而言則有
P(y=0)=11+ex,P(y=1)=11+ex

進(jìn)而有(由于下面的計(jì)算過(guò)程使用了截圖,,無(wú)法修改,,請(qǐng)讀者注意其中的 β 就是我們所討論的參數(shù) w



當(dāng)我們得到上面最后一個(gè)公式的時(shí)候,如果再有一組觀察樣本,,將其帶入公式,,就可以算得病人生存與否的概率。

以上我們就通過(guò)了一個(gè)例子向讀者演示了如何從原始的線性回歸演化出Logistic回歸,。而且,,不難發(fā)現(xiàn),Logistic回歸可以用作機(jī)器學(xué)習(xí)中的分類器,。當(dāng)我們得到一個(gè)事件發(fā)生與否的概率時(shí),,自然就已經(jīng)得出結(jié)論,其到底應(yīng)該屬于“發(fā)生”的那一類別,,還是屬于“不發(fā)生”的那一類別,。

接下來(lái)我們要從整個(gè)具體的例子中抽象出Logistic回歸的一般化過(guò)程。并為后續(xù)一些文章的討論埋下伏筆,。

所謂機(jī)器學(xué)習(xí),,最終是讓機(jī)器自己學(xué)到一個(gè)可以用于問(wèn)題解決的模型。而這個(gè)模型本質(zhì)上是由一組參數(shù)定義的,,也就是前面討論的 w0,w1,,wn,。在得到測(cè)試數(shù)據(jù)時(shí),,將這組參數(shù)(在Logistic回歸中也可以認(rèn)為是權(quán)值)與測(cè)試數(shù)據(jù)線性加和得到

x=w0+w1x1+w2x2++wnxn

這里 x1,x2,,xn 是每個(gè)樣本的 n 個(gè)特征。之后再按照Logistic函數(shù)的形式求出
P(x)=11+ex

在給定特征向量 x=(x1,x2,,xn)時(shí),,條件概率P(y=1|x) 為根據(jù)觀測(cè)量某事件 y 發(fā)生的概率,。那么Logistic回歸模型可以表示為
P(y=1|x)=π(x)=11+ex

相對(duì)應(yīng)地,在給定條件 x 時(shí),,事件 y 不發(fā)生的概率為
P(y=0|x)=1π(x)=11+ex

而且還可以得到事件發(fā)生與不發(fā)生的概率之比為
odds=P(y=1|x)P(y=0|x)=ex

這個(gè)比值稱為事件的發(fā)生比,。

概率論的知識(shí)告訴我們參數(shù)估計(jì)時(shí)可以采用最大似然法。假設(shè)有 m 個(gè)觀測(cè)樣本,,觀測(cè)值分別為 y1,y2,,ym,,設(shè) pi=P(yi=1|xi) 為給定條件下得到 yi=1 的概率。同樣地,,yi=0 的概率為 1pi=P(yi=0|xi),所以得到一個(gè)觀測(cè)值的概率為 P(yi)=pyii(1pi)1yi,。

各個(gè)觀測(cè)樣本之間相互獨(dú)立,,那么它們的聯(lián)合分布為各邊緣分布的乘積。得到似然函數(shù)為

L(w)=i=1m[π(xi)]yi[1π(xi)]1yi

然后我們的目標(biāo)是求出使這一似然函數(shù)值最大的參數(shù)估計(jì),,于是對(duì)函數(shù)取對(duì)數(shù)得到
lnL(w)=i=1m{yiln[π(xi)]+(1yi)ln[1π(xi)]}=i=1mln[1π(xi)]+i=1myilnπ(xi)1π(xi)=i=1mln[1π(xi)]+i=1myi(w0+xiw)=i=1mln[1+ew0+xiw]+i=1myi(w0+xiw)

根據(jù)多元函數(shù)求極值的方法,,為了求出使得 lnL(w) 最大的向量 w=(w0,w1,,wn),對(duì)上述的似然函數(shù)求偏導(dǎo)后得到
lnL(w)wk=i=1m11+ew0+xiwew0+xiwxik+i=1myixik=i=1mxik[yiπ(xi)]

現(xiàn)在,,我們所要做的就是通過(guò)上面已經(jīng)得到的結(jié)論來(lái)求解使得似然函數(shù)最大化的參數(shù)向量。在實(shí)際中有很多方法可供選擇,,其中比較常用的包括梯度下降法,、牛頓法和擬牛頓法等,這部分內(nèi)容我們留待后續(xù)文章中再來(lái)詳談,。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多