久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

從廣義線性模型到邏輯回歸

 Arthur1668 2018-03-22



 聲明:

1)該博文是整理自網(wǎng)上很大牛和機(jī)器學(xué)習(xí)專(zhuān)家所無(wú)私奉獻(xiàn)的資料的,。具體引用的資料請(qǐng)看參考文獻(xiàn)。具體的版本聲明也參考原文獻(xiàn)

2)本文僅供學(xué)術(shù)交流,,非商用,。所以每一部分具體的參考資料并沒(méi)有詳細(xì)對(duì)應(yīng),,更有些部分本來(lái)就是直接從其他博客復(fù)制過(guò)來(lái)的。如果某部分不小心侵犯了大家的利益,,還望海涵,,并聯(lián)系老衲刪除或修改,直到相關(guān)人士滿(mǎn)意為止,。

3)本人才疏學(xué)淺,,整理總結(jié)的時(shí)候難免出錯(cuò),還望各位前輩不吝指正,,謝謝,。

4)閱讀本文需要機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)習(xí)理論,、優(yōu)化算法等等基礎(chǔ)(如果沒(méi)有也沒(méi)關(guān)系了,,沒(méi)有就看看,當(dāng)做跟同學(xué)們吹牛的本錢(qián)),。

5)此屬于第一版本,,若有錯(cuò)誤,還需繼續(xù)修正與增刪,。還望大家多多指點(diǎn),。請(qǐng)直接回帖,本人來(lái)想辦法處理,。

6)本人手上有word版的和pdf版的,,有必要的話可以上傳到csdn供各位下載


一.廣義線性回歸

回歸方式比較常用的有線性回歸和logistic回歸.基本的形式都是先設(shè)定h_θ (x),然后求最最大似然估計(jì)L(θ),然后求出l(θ)=logL(θ),然后用梯度上升法或其它方法求出θ,,二種回歸如此相似的原因就是在于它們都是廣義線性模型里的一員,。所以為了有個(gè)總體上的把握,從廣義線性回歸說(shuō)起,。
1.1指數(shù)家族
1.1.1 定義
如果一個(gè)概念分布可以表示成
p\left( {y;\eta } \right) = b\left( y \right)h\left( \eta  \right){\rm{exp}}\left( {{\eta ^T}T\left( y \right)} \right)        (1)

那么這個(gè)概率分布可以稱(chēng)之為指數(shù)分布, 其中η為自然參數(shù)(Natural Parameter),;T(y)為充分統(tǒng)計(jì)量(Sufficient Statistics);h(η)為歸一化常量(Normalization Constant),,使得上式滿(mǎn)足概率分布的條件,,即p(y;η)∈[0,1]并且

h\left( \eta  \right) \smallint \nolimits^ {\rm}\left( {\rm{y}} \right){\rm{exp}}\left( {{\eta ^T}T\left( y \right)} \right)dy = 1

如果y為離散型變量,,上式由積分形式變?yōu)榍蠛托问郊纯伞?br>對(duì)于給定的b,,h,T三個(gè)函數(shù),,上式定義了一個(gè)以η為參數(shù)的概率分布集合,,即改變?chǔ)强梢缘玫讲煌母怕史植迹瑓⒖紖⒖嘉墨I(xiàn)【1】。
T(y)為什么被稱(chēng)為充分統(tǒng)計(jì)量呢,?下面來(lái)解釋這個(gè)問(wèn)題,。我們將概率加和為1法則對(duì)應(yīng)的公式左右兩邊同時(shí)對(duì)η求導(dǎo),可得

對(duì)上式變形,,并再次利用概率加和為1法則,,得到下式

用更精簡(jiǎn)的形式來(lái)表述:

\nabla {\rm{ln}}h\left( \eta  \right) =  - E\left[ {T\left( y \right)} \right]

假設(shè)現(xiàn)在有N個(gè)樣本組成的數(shù)據(jù)集Y={y1,y2,?,yN},我們用最大似然的方法來(lái)估計(jì)參數(shù)η,,其對(duì)數(shù)似然函數(shù)形式如下:

將L對(duì)參數(shù)η求導(dǎo)并令其為0,,得到

\nabla {\rm{ln}}h\left( {{\eta _{{\rm{ML}}}}} \right) =  - \frac{1}{N} \sum \limits_{i = 1}^N T\left( {{y_i}} \right)

根據(jù)上式可以求解出{\eta _{{\rm{ML}}}}。我們可以看到最大似然估計(jì)僅僅通過(guò)\sum \limits_{i = 1}^N T\left( {{y_i}} \right)依賴(lài)樣本點(diǎn),,因此被稱(chēng)為充分統(tǒng)計(jì)量,。我們只需要存儲(chǔ)充分統(tǒng)計(jì)量T(y)而不是數(shù)據(jù)本身。在Bernoulli分布中T(y)=y,,我們只需保存所有樣本的加和\sum \limits_i {y_i} ,;在Gauss分布中,T(y)=(y,y^2 )^T,,因此我們只要保持{\rm{T}}\left( {\rm{y}} \right) = {\left( {y,{y^2}} \right)^T} 即可,。當(dāng)N→∞時(shí),上式的右側(cè)就等價(jià)于E[T(y)],,{\eta _{{\rm{ML}}}}此時(shí)也就等于η的真實(shí)值,。實(shí)際上,該充分特性?xún)H僅適用于貝葉斯推理(Bayesian Inference),,詳情請(qǐng)見(jiàn)《Pattern Recognition and Machine Learning》的第八章內(nèi)容,。
廣義線性模型是經(jīng)典線性模型的一個(gè)概括。廣義線性模型包括了一些特殊模型,,如線性回歸,,方差分析模型,量子反應(yīng)中常用的對(duì)數(shù)和概率模型,,對(duì)數(shù)線性模型和計(jì)數(shù)中用到的多反應(yīng)模型,,以及存活數(shù)據(jù)使用的一些通用模型。以上模型有一些共同的屬性,,如線性——可以利用其良好的性質(zhì);有通用的參數(shù)估計(jì)的方法,。這些通用的屬性讓研究者可以把廣義線性模型當(dāng)作一個(gè)單獨(dú)的組來(lái)學(xué)習(xí),,而不是一系列不相關(guān)的主題來(lái)學(xué)習(xí)。


1.1.2 廣義線性模型

    指數(shù)家族的問(wèn)題可以通過(guò)廣義線性模型(generalized linear model, GLM)來(lái)解決,。如何構(gòu)建GLM呢,?在給定x和參數(shù)后,y的條件概率p(y|x,θ) 需要滿(mǎn)足下面三個(gè)假設(shè):
    assum1) y | x; θ ~ ExponentialFamily(η),,給定觀測(cè)值x和參數(shù)θ,,y的分布服從參數(shù)為η的指數(shù)族分布,;
    assum2) h(x) = E[y|x]. 即給定x,,目標(biāo)是預(yù)測(cè)T(y)的期望,通常問(wèn)題中T(y)=y
    assum3) {\rm{\eta }} = {\theta ^T}x,,即自然參數(shù)η和觀測(cè)值x之間存在線性關(guān)系.
廣義線性模型的三步是:
    a)將y|x;θ變換成以η為參數(shù)的指數(shù)分布的形式
    b)因?yàn)閔(x)=E[y|x],所以能過(guò)第1步的變換可以得到E[y|x]與η的對(duì)應(yīng)關(guān)系(對(duì)于logistic回歸,,期望值是?,?與η的關(guān)系是{\o} = 1/\left( {1 + {e^{ - \eta }}} \right),;對(duì)于線性回歸,,期望值是μ,μ與η的關(guān)系是η=μ),。
    c)設(shè)定\eta  = {\theta ^T}x(如果η是一個(gè)向量值的話,,那么{\eta _i} = {\theta _i}^Tx)


1.1.3 從指數(shù)家族到線性回歸

第一步,高斯分布與線性回歸,。
假設(shè)根據(jù)特征的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果有誤差?_i,,那么預(yù)測(cè)結(jié)果{\theta ^T}{x_i}和真實(shí)結(jié)果{y_i}滿(mǎn)足下式:

一般來(lái)講,誤差?_i滿(mǎn)足平均值為0的高斯分布,,也就是正態(tài)分布.

這是一個(gè)假設(shè),,這個(gè)假設(shè)符合客觀規(guī)律。如果誤差不符合高斯分布,,那有可能數(shù)據(jù)θ選的不好,,要不就是數(shù)據(jù)本身的分布是均勻的,回歸做不了了,。
有了預(yù)測(cè)結(jié)果和真實(shí)結(jié)果的關(guān)系,,從上面的公式能得到xi和yi的條件概率
{\rm{p}}\left( {{y_i}{\rm{|}}{x_i};{\rm{\theta }}} \right) = \frac{1}{{\sigma \sqrt {2\pi } }}{\rm{exp}}\left( { - \frac{{{{\left( {{y_i} - {\theta ^T}{x_i}} \right)}^2}}}{{2{\sigma ^2}}}} \right)                              (2)

上式可以看出,選擇的θ較好,,就能讓預(yù)測(cè)結(jié)果{\theta ^T}{x_i}和真實(shí)結(jié)果{y_i}的誤差較小的情況出現(xiàn)的條件概率較大,。
這樣就估計(jì)了一條樣本的結(jié)果概率,然而我們期待的是模型能夠在全部樣本上預(yù)測(cè)最準(zhǔn),。那么,,就需要利用極大似然估計(jì)了,先寫(xiě)出似然函數(shù)
                                       (3)

再寫(xiě)出對(duì)數(shù)似然函數(shù)

                                                         (4)

其中有些變量如σ,,跟自變量θ無(wú)關(guān),,然后還有第一項(xiàng)也與自變量θ無(wú)關(guān),可以去掉這些項(xiàng),。
極大似然估計(jì)是要求L(θ)的最大值,,根據(jù)上面的討論,可以最終轉(zhuǎn)化為下面的優(yōu)化問(wèn)題來(lái)解,。

{\min }\limits_{\theta  \in {R^n}} \frac{1}{2} \sum \limits_{i = 1}^m {\left( {{y_i} - {\theta ^T}{x_i}} \right)^2}                                      (5)

其中

{\rm{f}}\left( \theta  \right) = \frac{1}{2} \sum \limits_{i = 1}^m {\left( {{y_i} - {\theta ^T}{x_i}} \right)^2}

就是線性回歸的損失函數(shù),。
第二步,指數(shù)家族與高斯分布。
上面已經(jīng)說(shuō)過(guò),,{y_i}|{x_i};{\rm{\theta }}\~{\rm{{\rm N}}}\left( {{\rm{\mu }},{\sigma ^2}} \right),,設(shè)方差為1(方差并不影響結(jié)果,僅僅是變量y的比例因子),。這種情況下高斯概率密度函數(shù)為:

       (6)

對(duì)于上面的情況,,只要對(duì)指數(shù)分布

p\left( {y;\eta } \right) = b\left( y \right)h\left( \eta  \right){\rm{exp}}\left( {{\eta ^T}T\left( y \right)} \right)

{\rm{\eta }} = {\left( {\frac{{\rm{\mu }}}{{{\sigma ^2}}}, - \frac{1}{{2{\sigma ^2}}}} \right)^T}{\rm{T}}\left( {\rm{y}} \right) = {\left( {y,{y^2}} \right)^T},,{\rm{h}}\left( {\rm{\eta }} \right) = {\left( {{\sigma ^2}} \right)^{ - \frac{1}{2}}}exp\left( { - \frac{{{y^2}}}{{2{\sigma ^2}}}} \right),,{\rm}\left( {\rm{y}} \right) = \frac{1}{{\sqrt {2\pi } }}就能得到上面的式子(6),。


1.1.4 從指數(shù)家族到logistic回歸

第一步,,伯努利分布與logistic回歸。
在logistic回歸中,,因變量y不再是連續(xù)的變量,,而是二值的{0,1},中間用到logit變換,,將連續(xù)性的y值通過(guò)此變換映射到比較合理的0~1區(qū)間,。在廣義線性回歸用于分類(lèi)問(wèn)題中,也有一個(gè)假設(shè)(對(duì)應(yīng)于上面回歸問(wèn)題中誤差項(xiàng)獨(dú)立同分布于正態(tài)分布),。
{\rm{P}}\left( {{\rm{y}} = 1{\rm{|x}};{\rm{\theta }}} \right) = {h_\theta }\left( x \right)

{\rm{P}}\left( {{\rm{y}} = 0{\rm{|x}};{\rm{\theta }}} \right) = 1 - {h_\theta }\left( x \right)

統(tǒng)一表示成

其中h(x)是logistic function,,即給定x和參數(shù)θ,y服從伯努利分布(上面回歸問(wèn)題中,,給定x和參數(shù),,y服從正態(tài)分布)。從而似然函數(shù)和對(duì)數(shù)似然函數(shù)可以寫(xiě)成

                                      (7)

                         (8)

就是logistic回歸的損失函數(shù),。求解θ,,使得l(θ)最大,就能得到問(wèn)題的解,。
第二步,,指數(shù)家族與伯努利分布。
{\rm{P}}\left( {{\rm{y}};\phi } \right) = {\phi ^y}{\left( {1 - \phi } \right)^{1 - y}} = \exp \left( {{\rm{ylog}}\phi  + \left( {1 - {\rm{y}}} \right)\log \left( {1 - \phi } \right)} \right)

{\rm{P}}\left( {{\rm{y}};\phi } \right) = \left( {1 - \phi } \right)\exp \left( {{\rm{ylog}}\frac{\phi }{{1 - \phi }}} \right)                                (9)

對(duì)于上面的情況,,只要對(duì)指數(shù)分布

{\rm{p}}\left( {{\rm{y}};{\rm{\eta }}} \right) = {\rm,}\left( {\rm{y}} \right){\rm{exp}}\left( {{\eta ^T}{\rm{T}}\left( {\rm{y}} \right) - {\rm{a}}\left( {\rm{\eta }} \right)} \right)

取b(y)=1,{\rm{\eta }} = {\rm{log}}\frac{\phi }{{1 - \phi }}\phi  = 1/\left( {1 + {e^{ - \eta }}} \right),,T(y)=y,,{\rm{h}}\left( {\rm{\eta }} \right) = 1 - \phi  = 1/\left( {1 + {e^\eta }} \right) 就能得到上面的式子(9)。

1.2有關(guān)logistic回歸

1.2.1擬合模型

擬合的定義是:由測(cè)量的數(shù)據(jù),,估計(jì)一個(gè)假定的模型(也稱(chēng)為函數(shù))f。對(duì)于每一個(gè)數(shù)據(jù)x,可以通過(guò)計(jì)算得到f(x),,加入x的因變量是y,,那么一般有y=f(x),當(dāng)然,,可以不用絕對(duì)相等(這個(gè)往往做不到),,但是差距一定要小。
如何擬合,,擬合的模型是否合適,?可分為以三類(lèi):a)合適擬合;b)欠擬合,;c)過(guò)擬合,。分別由下圖表示。

   a)欠擬合                                                                                                       b)合適的擬合                                                                       c)過(guò)擬合

對(duì)于上面的幾種情況,,假設(shè)函數(shù)定義為,,藍(lán)線右上方的數(shù)據(jù)為正類(lèi)(也就是定義一個(gè)函數(shù)g(x),函數(shù)的曲線就是那個(gè)藍(lán)線,,然后f(x)=sgn(g(x)),,其中sgn是符號(hào)函數(shù)),具體參看文獻(xiàn)【4】,。

欠擬合的問(wèn)題是訓(xùn)練數(shù)據(jù)中有很多規(guī)律沒(méi)有學(xué)習(xí)到,,會(huì)導(dǎo)致在模型訓(xùn)練完后(函數(shù)f(x)的形式學(xué)習(xí)完),使用f(x)進(jìn)行判別新的樣本時(shí)出現(xiàn)大量的錯(cuò)誤,,這個(gè)對(duì)使用該算法是很不好的,。
過(guò)擬合的問(wèn)題是把訓(xùn)練數(shù)據(jù)學(xué)習(xí)的規(guī)律學(xué)習(xí)得太好,在模型訓(xùn)練完成后,,使用f(x)進(jìn)行判別新的樣本時(shí),,對(duì)出現(xiàn)兩種情況:a)新樣本與訓(xùn)練樣本分布完全一致,那判別的效果很好,;b)新樣本與訓(xùn)練樣本分布不完全一致,,判別的結(jié)果就是會(huì)出現(xiàn)大量的錯(cuò)誤。也就是說(shuō)過(guò)擬合的話,,對(duì)新樣本沒(méi)有比較好的容錯(cuò)能力,,要求新來(lái)的樣本必須跟原來(lái)的一致,這樣在實(shí)際應(yīng)用中也是不合適的,。另外,,學(xué)習(xí)一個(gè)過(guò)擬合的模型(函數(shù)f(x)的形式)花費(fèi)的時(shí)間很多,而且函數(shù)f(x)的形式也很復(fù)雜,,實(shí)際操作起來(lái)非常困難,,也就是模型復(fù)雜度很高,。
把新的樣本判別好的能力叫泛化能力。訓(xùn)練一個(gè)模型時(shí)泛化能力和模型復(fù)雜度都是需要考慮的問(wèn)題,。一個(gè)模型要應(yīng)用起來(lái),,都希望是盡可能簡(jiǎn)單的模型。
過(guò)擬合的問(wèn)題有幾個(gè)原因:模型太復(fù)雜,,參數(shù)過(guò)多,,特征數(shù)目過(guò)多。
解決方法有幾種,。
方法: 1) 減少特征的數(shù)量,,有人工選擇,或者采用模型選擇算法
http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html (特征選擇算法的綜述),,目前能在工業(yè)界應(yīng)用較廣的是人工選擇特征,,評(píng)估特征與選擇特征幾乎是數(shù)據(jù)挖掘工程師日常的主要工作了。現(xiàn)在工業(yè)界比較火的deeplearning,,就是號(hào)稱(chēng)能讓算法自動(dòng)選擇特征,,所以比較火,但對(duì)于很多應(yīng)用來(lái)說(shuō),,還是比較難做到自動(dòng)選擇的,;但是對(duì)于語(yǔ)音和圖像這些比較規(guī)則的數(shù)據(jù),自動(dòng)選擇特征還是可以做的,,據(jù)說(shuō)效果很好,。
2) 正則化,即保留所有特征,,但降低參數(shù)的值的影響,。正則化的優(yōu)點(diǎn)是,特征很多時(shí),,每個(gè)特征都會(huì)有一個(gè)合適的影響因子,。工業(yè)界用L1正則,能自動(dòng)選擇一些有用的特征,,下面會(huì)再討論,。


1.2.2經(jīng)驗(yàn)風(fēng)險(xiǎn)與結(jié)構(gòu)風(fēng)險(xiǎn)

期望風(fēng)險(xiǎn)(真實(shí)風(fēng)險(xiǎn)),可理解為 模型函數(shù)固定時(shí),,數(shù)據(jù)平均的損失程度,,或“平均”犯錯(cuò)誤的程度。 期望風(fēng)險(xiǎn)是依賴(lài)損失函數(shù)和概率分布的,。
只有樣本,,是無(wú)法計(jì)算期望風(fēng)險(xiǎn)的。
所以,,采用經(jīng)驗(yàn)風(fēng)險(xiǎn),,對(duì)期望風(fēng)險(xiǎn)進(jìn)行估計(jì),,并設(shè)計(jì)學(xué)習(xí)算法,使其最小化,。即經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(Empirical Risk Minimization)ERM,,而經(jīng)驗(yàn)風(fēng)險(xiǎn)是用損失函數(shù)來(lái)評(píng)估的,、計(jì)算的,。
對(duì)于分類(lèi)問(wèn)題,經(jīng)驗(yàn)風(fēng)險(xiǎn),,就訓(xùn)練樣本錯(cuò)誤率,。
對(duì)于函數(shù)逼近,擬合問(wèn)題,,經(jīng)驗(yàn)風(fēng)險(xiǎn),,就平方訓(xùn)練誤差。
對(duì)于概率密度估計(jì)問(wèn)題,,ERM,,就是最大似然估計(jì)法。
而經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,,并不一定就是期望風(fēng)險(xiǎn)最小,,無(wú)理論依據(jù)。只有樣本無(wú)限大時(shí),,經(jīng)驗(yàn)風(fēng)險(xiǎn)就逼近了期望風(fēng)險(xiǎn),。
如何解決這個(gè)問(wèn)題? 統(tǒng)計(jì)學(xué)習(xí)理論SLT,,支持向量機(jī)SVM就是專(zhuān)門(mén)解決這個(gè)問(wèn)題的,。
有限樣本條件下,學(xué)習(xí)出一個(gè)較好的模型,。
由于有限樣本下,,經(jīng)驗(yàn)風(fēng)險(xiǎn)Remp[f]無(wú)法近似期望風(fēng)險(xiǎn)R[f] 。因此,,統(tǒng)計(jì)學(xué)習(xí)理論給出了二者之間的關(guān)系,。
記h為函數(shù)集F的VC維(VC維水很深,在這就不深入討論了,,基本結(jié)論是VC維越大,,分類(lèi)函數(shù)集F越大),l是樣本數(shù),,若
{\rm{l}} > {\rm{h}}

{\rm{h}}\left( {ln\frac{{2l}}{h} + 1} \right) + ln\frac{4}{\delta } \ge \frac{1}{4}

則對(duì)于任意的概率分布P(x,y),,任意的δ∈(0,1]和任意的F中的函數(shù)f都有至少以1-δ的概率成立的不等式

{\rm{R}}\left[ {\rm{f}} \right] \le {R_{emp}}\left[ f \right] + \sqrt {\frac{8}{l}\left( {h\left( {ln\frac{{2l}}{h} + 1} \right) + ln\frac{4}{\delta }} \right)}

其中{R_{emp}}\left[ f \right]是經(jīng)驗(yàn)風(fēng)險(xiǎn),第二項(xiàng){\rm{\varphi }}\left( {{\rm{h}},{\rm{l}},\delta } \right) = \sqrt {\frac{8}{l}\left( {h\left( {ln\frac{{2l}}{h} + 1} \right) + ln\frac{4}{\delta }} \right)}稱(chēng)為置信區(qū)間,,這兩項(xiàng)之和稱(chēng)為結(jié)構(gòu)風(fēng)險(xiǎn),。
結(jié)構(gòu)風(fēng)險(xiǎn)是期望風(fēng)險(xiǎn)R[f]的一個(gè)上界,。
看下圖,結(jié)構(gòu)風(fēng)險(xiǎn)與經(jīng)驗(yàn)風(fēng)險(xiǎn),、置信區(qū)間的關(guān)系

圖中的橫坐標(biāo)t可以認(rèn)為是決策函數(shù)集合F的大小,,縱坐標(biāo)是風(fēng)險(xiǎn)。當(dāng)集合F增大時(shí),,候選函數(shù)增多,,經(jīng)驗(yàn)風(fēng)險(xiǎn)會(huì)減少;然而另一方面,,當(dāng)集合F增大時(shí),,它的VC維h會(huì)增大,注意上圖中,,置信區(qū)間會(huì)隨著h的增大而增大,。要使結(jié)構(gòu)風(fēng)險(xiǎn)最小,就要兼顧決策函數(shù)集F對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信區(qū)間兩個(gè)方面的影響,,選擇一個(gè)適當(dāng)大小的集合F,。


二.邏輯回歸問(wèn)題與解法

2.1問(wèn)題

上面討論過(guò)的logistic回歸問(wèn)題的損失函數(shù),但是這個(gè)損失函數(shù)是沒(méi)有正則項(xiàng)的,,為了能建立模型的時(shí)候控制一下過(guò)擬合問(wèn)題,,需要對(duì)損失函數(shù)加上正則項(xiàng),目的是為了讓每個(gè)特征的權(quán)重不要過(guò)大,。
為了整合上面的logistic回歸以及過(guò)擬合的需求,,同時(shí)為了方便表示,下面用x代替θ,,以后再遇到樣本,,就用v表示
下面介紹一個(gè)帶正則的logistic回歸問(wèn)題,。對(duì)于類(lèi)似于Logistic Regression這樣的Log-Linear模型,,一般可以歸結(jié)為最小化下面這個(gè)問(wèn)題。
J(x)=l(x)+r(x)

等號(hào)的右邊的第一項(xiàng)是上面的對(duì)數(shù)似然函數(shù),,其具體形式為

                         (2.1)

其中的g(t)的形式是

{\rm{g}}\left( {\rm{t}} \right) = {x^T}v

后者r(x)為regularization項(xiàng),,用來(lái)對(duì)模型空間進(jìn)行限制,從而得到一個(gè)更“簡(jiǎn)單”的模型,,從而降低模型的置信區(qū)間,。
根據(jù)對(duì)模型參數(shù)所服從的概率分布的假設(shè)的不同,regularization term一般有:L1-norm(模型參數(shù)服從Gaussian分布),;L2-norm(模型參數(shù)服從Laplace分布),;以及其他分布或組合形式。

L2-norm的形式類(lèi)似于:

{\rm{J}}\left( {\rm{x}} \right) = {\rm{l}}\left( {\rm{x}} \right) + {\rm{C}} \sum \limits_i x_i^2                            (2.2)

L1-norm的形式類(lèi)似于:

{\rm{J}}\left( {\rm{x}} \right) = {\rm{l}}\left( {\rm{x}} \right) + {\rm{C}} \sum \limits_i \left| {{x_i}} \right|                       (2.3)

L1-norm和L2-norm之間的一個(gè)最大區(qū)別在于前者可以產(chǎn)生稀疏解,,這使它同時(shí)具有了特征選擇的能力,,此外,,稀疏的特征權(quán)重更具有解釋意義。

對(duì)于損失函數(shù)的選取就不在贅述,,看三幅圖:

image

圖1 - 紅色為L(zhǎng)aplace Prior,,黑色為Gaussian Prior 

 

image

圖2 直觀解釋稀疏性的產(chǎn)生


圖3 求導(dǎo)角度解釋稀疏性的產(chǎn)生


2.2解法相關(guān)

解這個(gè)問(wèn)題有兩種情況。
一種是直接根據(jù)所有的樣本求解到一個(gè)最優(yōu)解有多種算法,。
其中一個(gè)解法是,,順序一條一條地掃描訓(xùn)練樣本,每來(lái)一個(gè)樣本,,model的參數(shù)進(jìn)行一次迭代,,經(jīng)過(guò)若干輪的掃描,得到最優(yōu)解,,這樣的一個(gè)求解方式叫SGD(Stochastic gradient descent)。另一種是把大量數(shù)據(jù)分成多批,,數(shù)據(jù)一批一批地過(guò)來(lái),,每過(guò)來(lái)一批數(shù)據(jù),model進(jìn)行一次迭代,,這樣進(jìn)行多輪,,這種方式叫做mini批量梯度下降(mini Batch gradient descent)。還有一種是所有的數(shù)據(jù)作為一批過(guò)來(lái),,每一輪迭代就掃描所有的樣本,,這種方式叫做批量梯度下降(Batch gradient descent)。
批量迭代算法的基礎(chǔ)可以參考博文《無(wú)約束優(yōu)化方法讀書(shū)筆記—入門(mén)篇》,。
其中一種工業(yè)界常用解法LBFGS參看轉(zhuǎn)載的博文《OWL-QN算法》,。
第二種是要保證model(也就是最優(yōu)解)的快速更新,訓(xùn)練樣本是一條一條地過(guò)來(lái)的,,每來(lái)一個(gè)樣本,,model的參數(shù)對(duì)這個(gè)樣本進(jìn)行一次迭代,從而保證了model的及時(shí)更新,,這種方法叫做OGD(Online gradient descent),,也叫在線學(xué)習(xí)算法。
其中一種工業(yè)界使用的在線學(xué)習(xí)算法FTRL參考博文《在線學(xué)習(xí)算法FTRL》,。


致謝

多位CSDN和博客園的博主,,他們?cè)谖覍?xiě)這個(gè)筆記的過(guò)程中提供了多方面的資料。

課本《支持向量機(jī):理論,、算法與拓展》的作者 鄧乃揚(yáng),、田英杰


參考文獻(xiàn)

[1] http://blog.csdn.net/maverick1990/article/details/12564973 @maverick1990的csdn博客

[2] http://www.cnblogs.com/frog-ww/archive/2013/01/06/2846955.html@frog_ww的博客園博客

[3] http://blog.csdn.net/lilyth_lilyth/article/details/10032993 @玉心sober的csdn博客

[4] http://blog.csdn.net/viewcode/article/details/8794401  @viewcode D的csdn博客

[5]

[6] http://blog.csdn.net/wangjinyu501/article/details/7689767 OWL-QN算法--gongxue

[7] 支持向量機(jī):理論、算法與拓展. 鄧乃揚(yáng),、田英杰




    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶(hù)發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多