久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

對線性回歸,、邏輯回歸、各種回歸的概念學(xué)習(xí)

 枯井道人 2016-02-01

回歸問題的條件/前提:

1) 收集的數(shù)據(jù)

2) 假設(shè)的模型,,即一個(gè)函數(shù),,這個(gè)函數(shù)里含有未知的參數(shù),通過學(xué)習(xí),,可以估計(jì)出參數(shù),。然后利用這個(gè)模型去預(yù)測/分類新的數(shù)據(jù)。


1. 線性回歸

假設(shè) 特征 和 結(jié)果 都滿足線性,。即不大于一次方,。這個(gè)是針對 收集的數(shù)據(jù)而言。
收集的數(shù)據(jù)中,,每一個(gè)分量,,就可以看做一個(gè)特征數(shù)據(jù)。每個(gè)特征至少對應(yīng)一個(gè)未知的參數(shù),。這樣就形成了一個(gè)線性模型函數(shù),,向量表示形式:

clip_image005


這個(gè)就是一個(gè)組合問題,已知一些數(shù)據(jù),,如何求里面的未知參數(shù),,給出一個(gè)最優(yōu)解,。 一個(gè)線性矩陣方程,直接求解,,很可能無法直接求解,。有唯一解的數(shù)據(jù)集,微乎其微,。

基本上都是解不存在的超定方程組,。因此,需要退一步,,將參數(shù)求解問題,,轉(zhuǎn)化為求最小誤差問題,求出一個(gè)最接近的解,,這就是一個(gè)松弛求解,。


求一個(gè)最接近解,直觀上,,就能想到,誤差最小的表達(dá)形式,。仍然是一個(gè)含未知參數(shù)的線性模型,,一堆觀測數(shù)據(jù),其模型與數(shù)據(jù)的誤差最小的形式,,模型與數(shù)據(jù)差的平方和最?。?/p>

clip_image006

這就是損失函數(shù)的來源。接下來,,就是求解這個(gè)函數(shù)的方法,,有最小二乘法,梯度下降法,。


http://zh./wiki/%E7%BA%BF%E6%80%A7%E6%96%B9%E7%A8%8B%E7%BB%84

最小二乘法

是一個(gè)直接的數(shù)學(xué)求解公式,,不過它要求X是列滿秩的,

clip_image008

梯度下降法

分別有梯度下降法,,批梯度下降法,,增量梯度下降。本質(zhì)上,,都是偏導(dǎo)數(shù),,步長/最佳學(xué)習(xí)率,更新,,收斂的問題,。這個(gè)算法只是最優(yōu)化原理中的一個(gè)普通的方法,可以結(jié)合最優(yōu)化原理來學(xué),,就容易理解了,。


2. 邏輯回歸

邏輯回歸與線性回歸的聯(lián)系,、異同?

邏輯回歸的模型 是一個(gè)非線性模型,,sigmoid函數(shù),,又稱邏輯回歸函數(shù)。但是它本質(zhì)上又是一個(gè)線性回歸模型,,因?yàn)槌igmoid映射函數(shù)關(guān)系,,其他的步驟,算法都是線性回歸的,??梢哉f,邏輯回歸,,都是以線性回歸為理論支持的,。

只不過,線性模型,,無法做到sigmoid的非線性形式,,sigmoid可以輕松處理0/1分類問題。


另外它的推導(dǎo)含義:仍然與線性回歸的最大似然估計(jì)推導(dǎo)相同,,最大似然函數(shù)連續(xù)積(這里的分布,,可以使伯努利分布,或泊松分布等其他分布形式),,求導(dǎo),,得損失函數(shù)。

\begin{align}J(\theta) = -\frac{1}{m} \left[ \sum_{i=1}^m y^{(i)} \log h_\theta(x^{(i)}) + (1-y^{(i)}) \log (1-h_\theta(x^{(i)})) \right]\end{align}

邏輯回歸函數(shù)

f(t) = \frac{e^t}{e^t+1} = \frac{1}{1+e^{-t}},  表現(xiàn)了0,1分類的形式,。

應(yīng)用舉例:

是否垃圾郵件分類,?

是否腫瘤、癌癥診斷,?

是否金融欺詐,?


3. 一般線性回歸

線性回歸 是以 高斯分布 為誤差分析模型; 邏輯回歸 采用的是 伯努利分布 分析誤差,。

而高斯分布,、伯努利分布、貝塔分布,、迪特里特分布,,都屬于指數(shù)分布。

clip_image040

而一般線性回歸,,在x條件下,,y的概率分布 p(y|x) 就是指 指數(shù)分布.

經(jīng)歷最大似然估計(jì)的推導(dǎo),就能導(dǎo)出一般線性回歸的 誤差分析模型(最小化誤差模型),。


softmax回歸就是 一般線性回歸的一個(gè)例子,。

有監(jiān)督學(xué)習(xí)回歸,,針對多類問題(邏輯回歸,解決的是二類劃分問題),,如數(shù)字字符的分類問題,,0-9,10個(gè)數(shù)字,y值有10個(gè)可能性,。

而這種可能的分布,,是一種指數(shù)分布。而且所有可能的和 為1,,則對于一個(gè)輸入的結(jié)果,,其結(jié)果可表示為:

\begin{align}h_\theta(x^{(i)}) =\begin{bmatrix}p(y^{(i)} = 1 | x^{(i)}; \theta) \\p(y^{(i)} = 2 | x^{(i)}; \theta) \\\vdots \\p(y^{(i)} = k | x^{(i)}; \theta)\end{bmatrix}=\frac{1}{ \sum_{j=1}^{k}{e^{ \theta_j^T x^{(i)} }} }\begin{bmatrix}e^{ \theta_1^T x^{(i)} } \\e^{ \theta_2^T x^{(i)} } \\\vdots \\e^{ \theta_k^T x^{(i)} } \\\end{bmatrix}\end{align}
參數(shù)是一個(gè)k維的向量。

而代價(jià)函數(shù):
\begin{align}J(\theta) = - \frac{1}{m} \left[ \sum_{i=1}^{m} \sum_{j=1}^{k}  1\left\{y^{(i)} = j\right\} \log \frac{e^{\theta_j^T x^{(i)}}}{\sum_{l=1}^k e^{ \theta_l^T x^{(i)} }}\right]\end{align}
是邏輯回歸代價(jià)函數(shù)的推廣,。


而對于softmax的求解,,沒有閉式解法(高階多項(xiàng)方程組求解),仍用梯度下降法,,或L-BFGS求解,。


當(dāng)k=2時(shí),softmax退化為邏輯回歸,,這也能反映softmax回歸是邏輯回歸的推廣,。


線性回歸,邏輯回歸,,softmax回歸 三者聯(lián)系,需要反復(fù)回味,,想的多了,,理解就能深入了。


4. 擬合:擬合模型/函數(shù)

由測量的數(shù)據(jù),,估計(jì)一個(gè)假定的模型/函數(shù),。如何擬合,擬合的模型是否合適,?可分為以下三類

合適擬合

欠擬合

過擬合


看過一篇文章(附錄)的圖示,,理解起來很不錯(cuò):

 欠擬合:
邏輯回歸欠擬合-我愛公開課-


合適的擬合
邏輯回歸合適的擬合-我愛公開課-

過擬合
邏輯回歸過擬合-我愛公開課-

過擬合的問題如何解決?

問題起源,?模型太復(fù)雜,,參數(shù)過多,特征數(shù)目過多,。

方法: 1) 減少特征的數(shù)量,,有人工選擇,或者采用模型選擇算法

http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html (特征選擇算法的綜述)

     2) 正則化,,即保留所有特征,,但降低參數(shù)的值的影響,。正則化的優(yōu)點(diǎn)是,特征很多時(shí),,每個(gè)特征都會有一個(gè)合適的影響因子,。


5. 概率解釋:線性回歸中為什么選用平方和作為誤差函數(shù)?

假設(shè)模型結(jié)果與測量值 誤差滿足,,均值為0的高斯分布,,即正態(tài)分布。這個(gè)假設(shè)是靠譜的,,符合一般客觀統(tǒng)計(jì)規(guī)律,。

數(shù)據(jù)x與y的條件概率:

clip_image016

若使 模型與測量數(shù)據(jù)最接近,那么其概率積就最大,。概率積,,就是概率密度函數(shù)的連續(xù)積,這樣,,就形成了一個(gè)最大似然函數(shù)估計(jì)敲打,。對最大似然函數(shù)估計(jì)進(jìn)行推導(dǎo),就得出了求導(dǎo)后結(jié)果: 平方和最小公式


6. 參數(shù)估計(jì) 與 數(shù)據(jù)的關(guān)系

擬合關(guān)系


7. 錯(cuò)誤函數(shù)/代價(jià)函數(shù)/損失函數(shù):

線性回歸中采用平方和的形式,,一般都是由模型條件概率的最大似然函數(shù) 概率積最大值,,求導(dǎo),推導(dǎo)出來的,。

統(tǒng)計(jì)學(xué)中,,損失函數(shù)一般有以下幾種:

1) 0-1損失函數(shù)

L(Y,f(X))={1,0,Yf(X)Y=f(X)

2) 平方損失函數(shù)

L(Y,f(X))=(Y?f(X))2

3) 絕對損失函數(shù)

L(Y,f(X))=|Y?f(X)|

4) 對數(shù)損失函數(shù)

L(Y,P(Y|X))=?logP(Y|X)

損失函數(shù)越小,模型就越好,,而且損失函數(shù) 盡量 是一個(gè)凸函數(shù),,便于收斂計(jì)算。

線性回歸,,采用的是平方損失函數(shù),。而邏輯回歸采用的是 對數(shù) 損失函數(shù)。 這些僅僅是一些結(jié)果,,沒有推導(dǎo),。


8. 正則化:

為防止過度擬合的模型出現(xiàn)(過于復(fù)雜的模型),在損失函數(shù)里增加一個(gè)每個(gè)特征的懲罰因子,。這個(gè)就是正則化,。如正則化的線性回歸 的 損失函數(shù):

正則化正式的定義-我愛公開課-

lambda就是懲罰因子。

正則化是模型處理的典型方法,。也是結(jié)構(gòu)風(fēng)險(xiǎn)最小的策略,。在經(jīng)驗(yàn)風(fēng)險(xiǎn)(誤差平方和)的基礎(chǔ)上,增加一個(gè)懲罰項(xiàng)/正則化項(xiàng)。

線性回歸的解,,也從

θ=(XTX)?1XTy


轉(zhuǎn)化為

不可逆后的正規(guī)方程-我愛公開課-

括號內(nèi)的矩陣,,即使在樣本數(shù)小于特征數(shù)的情況下,也是可逆的,。


邏輯回歸的正則化:

正則化邏輯回歸Cost Function-我愛公開課-


從貝葉斯估計(jì)來看,,正則化項(xiàng)對應(yīng)模型的先驗(yàn)概率,復(fù)雜模型有較大先驗(yàn)概率,,簡單模型具有較小先驗(yàn)概率,。這個(gè)里面又有幾個(gè)概念。

什么是結(jié)構(gòu)風(fēng)險(xiǎn)最小化,?先驗(yàn)概率,?模型簡單與否與先驗(yàn)概率的關(guān)系?


經(jīng)驗(yàn)風(fēng)險(xiǎn),、期望風(fēng)險(xiǎn),、經(jīng)驗(yàn)損失、結(jié)構(gòu)風(fēng)險(xiǎn)

期望風(fēng)險(xiǎn)(真實(shí)風(fēng)險(xiǎn)),,可理解為 模型函數(shù)固定時(shí),,數(shù)據(jù) 平均的 損失程度,或“平均”犯錯(cuò)誤的程度,。 期望風(fēng)險(xiǎn)是依賴損失函數(shù)和概率分布的,。

只有樣本,是無法計(jì)算期望風(fēng)險(xiǎn)的,。

所以,,采用經(jīng)驗(yàn)風(fēng)險(xiǎn),對期望風(fēng)險(xiǎn)進(jìn)行估計(jì),,并設(shè)計(jì)學(xué)習(xí)算法,,使其最小化。即經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(Empirical Risk Minimization)ERM,,而經(jīng)驗(yàn)風(fēng)險(xiǎn)是用損失函數(shù)來評估的,、計(jì)算的,。

對于分類問題,,經(jīng)驗(yàn)風(fēng)險(xiǎn),就訓(xùn)練樣本錯(cuò)誤率,。

對于函數(shù)逼近,,擬合問題,經(jīng)驗(yàn)風(fēng)險(xiǎn),,就平方訓(xùn)練誤差,。

對于概率密度估計(jì)問題,ERM,就是最大似然估計(jì)法,。


而經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,,并不一定就是期望風(fēng)險(xiǎn)最小,無理論依據(jù),。只有樣本無限大時(shí),,經(jīng)驗(yàn)風(fēng)險(xiǎn)就逼近了期望風(fēng)險(xiǎn)。

如何解決這個(gè)問題,? 統(tǒng)計(jì)學(xué)習(xí)理論SLT,,支持向量機(jī)SVM就是專門解決這個(gè)問題的。

有限樣本條件下,,學(xué)習(xí)出一個(gè)較好的模型,。

由于有限樣本下,經(jīng)驗(yàn)風(fēng)險(xiǎn)Remp[f]無法近似期望風(fēng)險(xiǎn)R[f] ,。因此,,統(tǒng)計(jì)學(xué)習(xí)理論給出了二者之間的關(guān)系:R[f] <= ( Remp[f] + e )

而右端的表達(dá)形式就是結(jié)構(gòu)風(fēng)險(xiǎn),是期望風(fēng)險(xiǎn)的上界,。而e = g(h/n)是置信區(qū)間,,是VC維h的增函數(shù),也是樣本數(shù)n的減函數(shù),。

VC維的定義在 SVM,,SLT中有詳細(xì)介紹。e依賴h和n,,若使期望風(fēng)險(xiǎn)最小,,只需關(guān)心其上界最小,即e最小化,。所以,,需要選擇合適的h和n。這就是結(jié)構(gòu)風(fēng)險(xiǎn)最小化Structure Risk Minimization,,SRM.

SVM就是SRM的近似實(shí)現(xiàn),,SVM中的概念另有一大筐。就此打住,。


1范數(shù),,2范數(shù) 的物理意義:

范數(shù),能將一個(gè)事物,,映射到非負(fù)實(shí)數(shù),,且滿足非負(fù)性,齊次性,,三角不等式,。是一個(gè)具有“長度”概念的函數(shù),。

1范數(shù)為什么能得到稀疏解?

壓縮感知理論,,求解與重構(gòu),,求解一個(gè)L1范數(shù)正則化的最小二乘問題。其解正是 欠定線性系統(tǒng)的解,。

2范數(shù)為什么能得到最大間隔解,?

2范數(shù)代表能量的度量單位,用來重構(gòu)誤差,。

以上幾個(gè)概念理解需要補(bǔ)充,。


9. 最小描述長度準(zhǔn)則:

即一組實(shí)例數(shù)據(jù),存儲時(shí),,利用一模型,,編碼壓縮。模型長度,,加上壓縮后長度,,即為該數(shù)據(jù)的總的描述長度。最小描述長度準(zhǔn)則,,就是選擇 總的描述長度最小的模型,。

最小描述長度MDL準(zhǔn)則,一個(gè)重要特性就是避免過度擬合現(xiàn)象,。

如利用貝葉斯網(wǎng)絡(luò),,壓縮數(shù)據(jù),一方面,, 模型自身描述長度 隨模型復(fù)雜度的增加而增加 ,; 另一方面, 對數(shù)據(jù)集描述的長度隨模型復(fù)雜度的增加而下降,。因此,, 貝葉斯網(wǎng)絡(luò)的 MD L總是力求在模型精度和模型復(fù)雜度之間找到平衡。當(dāng)模型過于復(fù)雜時(shí),,最小描述長度準(zhǔn)則就會其作用,,限制復(fù)雜程度。

奧卡姆剃刀原則:

 如果你有兩個(gè)原理,,它們都能解釋觀測到的事實(shí),,那么你應(yīng)該使用簡單的那個(gè),直到發(fā)現(xiàn)更多的證據(jù),。

   萬事萬物應(yīng)該盡量簡單,,而不是更簡單,。


11. 凸松弛技術(shù):

將組合優(yōu)化問題,,轉(zhuǎn)化為易于求解極值點(diǎn)的凸優(yōu)化技術(shù)。凸函數(shù)/代價(jià)函數(shù)的推導(dǎo),最大似然估計(jì)法,。


12. 牛頓法求解 最大似然估計(jì)

前提條件:求導(dǎo)迭代,,似然函數(shù)可導(dǎo),且二階可導(dǎo),。

迭代公式:
clip_image036

若是 向量形式,,

clip_image037 

H就是 n*n 的hessian矩陣了。

特征:當(dāng)靠近極值點(diǎn)時(shí),,牛頓法能快速收斂,,而在遠(yuǎn)離極值點(diǎn)的地方,牛頓法可能不收斂,。 這個(gè)的推導(dǎo),?

這點(diǎn)是與梯度下降法的收斂特征是相反的。


線性與非線性:

線性,,一次函數(shù),;非線性,輸入,、輸出不成正比,,非一次函數(shù)。

線性的局限性:xor問題,。線性不可分,,形式:

x  0

0  x

而線性可分,是只用一個(gè)線性函數(shù),,將數(shù)據(jù)分類,。線性函數(shù),直線,。

線性無關(guān):各個(gè)獨(dú)立的特征,,獨(dú)立的分量,無法由其他分量或特征線性表示,。


核函數(shù)的物理意義:

映射到高維,,使其變得線性可分。什么是高維,?如一個(gè)一維數(shù)據(jù)特征x,,轉(zhuǎn)換為(x,x^2, x^3),,就成為了一個(gè)三維特征,,且線性無關(guān)。一個(gè)一維特征線性不可分的特征,,在高維,,就可能線性可分了,。


邏輯回歸logicalistic regression 本質(zhì)上仍為線性回歸,為什么被單獨(dú)列為一類,?

其存在一個(gè)非線性的映射關(guān)系,,處理的一般是二元結(jié)構(gòu)的0,1問題,,是線性回歸的擴(kuò)展,,應(yīng)用廣泛,被單獨(dú)列為一類,。

而且如果直接應(yīng)用線性回歸來擬合 邏輯回歸數(shù)據(jù),,就會形成很多局部最小值。是一個(gè)非凸集,,而線性回歸損失函數(shù) 是一個(gè) 凸函數(shù),,即最小極值點(diǎn),即是全局極小點(diǎn),。模型不符,。

非凸函數(shù)-我愛公開課-


若采用 邏輯回歸的 損失函數(shù),損失函數(shù)就能形成一個(gè) 凸函數(shù),。


凸函數(shù)-我愛公開課-52opencouse.com



多項(xiàng)式樣條函數(shù)擬合

多項(xiàng)式擬合,,模型是一個(gè)多項(xiàng)式形式;樣條函數(shù),,模型不僅連續(xù),,而且在邊界處,高階導(dǎo)數(shù)也是連續(xù)的,。好處:是一條光滑的曲線,,能避免邊界出現(xiàn)震蕩的形式出現(xiàn)(龍格線性)
http://baike.baidu.com/view/301735.htm


以下是幾個(gè)需慢慢深入理解的概念:

無結(jié)構(gòu)化預(yù)測模型


結(jié)構(gòu)化預(yù)測模型

什么是結(jié)構(gòu)化問題?


adaboost,, svm,, lr 三個(gè)算法的關(guān)系。

三種算法的分布對應(yīng) exponential loss(指數(shù) 損失函數(shù)),, hinge loss,, log loss(對數(shù)損失函數(shù)), 無本質(zhì)區(qū)別,。應(yīng)用凸上界取代0,、1損失,即凸松弛技術(shù),。從組合優(yōu)化到凸集優(yōu)化問題,。凸函數(shù),比較容易計(jì)算極值點(diǎn),。


正則化與貝葉斯參數(shù)估計(jì)的聯(lián)系,?


部分參考文章:

http://www./?p=45150

http:///133/coursera%E5%85%AC%E5%BC%80%E8%AF%BE%E7%AC%94%E8%AE%B0-%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%AC%AC%E4%B8%83%E8%AF%BE-%E6%AD%A3%E5%88%99%E5%8C%96-regularization

http://www.cnblogs.com/jerrylead/archive/2011/03/05/1971867.html


    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多