其他答主并沒有正面回答你的問題,。 線性回歸是對已有數(shù)據(jù)進(jìn)行學(xué)習(xí),學(xué)習(xí)到一種模式,,這樣就可以對其他數(shù)據(jù)做預(yù)測了,。 y = β1 x + β0 使用上式對數(shù)據(jù)建模時(shí),線性是指,,y和x之間是線性的關(guān)系,,即y和x組成了一條直線,用這個(gè)直線來描述數(shù)據(jù)集中的數(shù)據(jù),。在線性回歸建模的過程,,其實(shí)是尋找一個(gè)最優(yōu)的直線,來擬合所有數(shù)據(jù),。 在對收入數(shù)據(jù)集進(jìn)行建模時(shí),,我們可以對參數(shù)β0和β1取不同值來構(gòu)建不同的直線,這樣就形成了一個(gè)參數(shù)家族,。參數(shù)家族中有一個(gè)最佳組合,,可以在統(tǒng)計(jì)上以最優(yōu)的方式描述數(shù)據(jù)集,。那么監(jiān)督學(xué)習(xí)的過程就可以被定義為:給定N個(gè)數(shù)據(jù)對,,尋找最佳參數(shù)β0和β1,使模型可以更好地?cái)M合這些數(shù)據(jù),。 上圖以及你問題中的圖,,出現(xiàn)了不同的直線,到底哪條直線是最佳的呢,?如何衡量模型是否以最優(yōu)的方式擬合數(shù)據(jù)呢,?機(jī)器學(xué)習(xí)用損失函數(shù)(loss function)的來衡量這個(gè)問題。損失函數(shù)又稱成為代價(jià)函數(shù)(cost function),,它計(jì)算了模型預(yù)測值y和真實(shí)值y之間的差異程度,。從名字也可以看出,這個(gè)函數(shù)計(jì)算的是模型犯錯(cuò)的損失或代價(jià),損失函數(shù)越大,,模型越差,,越不能擬合數(shù)據(jù)。統(tǒng)計(jì)學(xué)家通常使用'L'來表示損失函數(shù),。 線性回歸的損失函數(shù)是誤差平方的求和,。 對于給定數(shù)據(jù)集,x和y的值是已知的,,參數(shù)β0和β1是需要求解的,。線性回歸其實(shí)就是要求解使損失函數(shù)最小的β0和β1。 那到底什么時(shí)候可以使用線性回歸呢,?統(tǒng)計(jì)學(xué)家安斯庫姆給出了四個(gè)數(shù)據(jù)集,,被稱為安斯庫姆四重奏,從這四個(gè)數(shù)據(jù)集的分布可以看出,,并不是所有的數(shù)據(jù)集都可以用一元線性回歸來建?!,F(xiàn)實(shí)世界中的問題往往更復(fù)雜,,變量幾乎不可能非常理想化地符合線性模型的要求,。因此使用線性回歸,需要遵守下面幾個(gè)假設(shè):
回歸問題與分類問題與回歸相對的是分類問題(classification),分類問題要預(yù)測的變量輸出集合是有限的,,預(yù)測值只能是有限集合內(nèi)的一個(gè),。當(dāng)要預(yù)測的變量y輸出集合是無限且連續(xù),我們稱之為回歸,。比如,,天氣預(yù)報(bào)預(yù)測明天是否下雨,是一個(gè)二分類問題,;預(yù)測明天的降雨量多少,就是一個(gè)回歸問題,。 變量之間是線性關(guān)系線性通常是指變量之間保持等比例的關(guān)系,,從圖形上來看,變量之間的形狀為直線,斜率是常數(shù),。這是一個(gè)非常強(qiáng)的假設(shè),,數(shù)據(jù)點(diǎn)的分布呈現(xiàn)復(fù)雜的曲線,則不能使用線性回歸來建模,??梢钥闯觯闹刈嘤疑辖堑臄?shù)據(jù)就不太適合用線性回歸的方式進(jìn)行建模,。 誤差服從均值為零的正太分布前面最小二乘法求解過程已經(jīng)提到了誤差的概念,,誤差可以表示為“實(shí)際值-真實(shí)值”。 可以這樣理解這個(gè)假設(shè):線性回歸允許預(yù)測值與真實(shí)值之間存在誤差,,隨著數(shù)據(jù)量的增多,,這些數(shù)據(jù)的誤差平均值為0;從圖形上來看,,各個(gè)真實(shí)值可能在直線上方,,也可能在直線下方,當(dāng)數(shù)據(jù)足夠多時(shí),,各個(gè)數(shù)據(jù)上上下下相互抵消,。如果誤差不服從均值為零的正太分布,那么很有可能是出現(xiàn)了一些異常值,,數(shù)據(jù)的分布很可能是安斯庫姆四重奏右下角的情況,。 這也是一個(gè)非常強(qiáng)的假設(shè),如果要使用線性回歸模型,,那么必須假設(shè)數(shù)據(jù)的誤差均值為零的正太分布,。 變量x的分布要有變異性線性回歸對變量x也有要求,要有一定變化,,不能像安斯庫姆四重奏右下角的數(shù)據(jù)那樣,,絕大多數(shù)數(shù)據(jù)都分布在一條豎線上。 多元線性回歸不同特征之間相互獨(dú)立如果不同特征不是相互獨(dú)立,,那么可能導(dǎo)致特征間產(chǎn)生共線性,,進(jìn)而導(dǎo)致模型不準(zhǔn)確。舉一個(gè)比較極端的例子,,預(yù)測房價(jià)時(shí)使用多個(gè)特征:房間數(shù)量,,房間數(shù)量 * 2,房間數(shù)量* 0.5等,,特征之間是線性相關(guān)的,,如果模型只有這些特征,缺少其他有效特征,,雖然可以訓(xùn)練出一個(gè)模型,,但是模型不準(zhǔn)確,,預(yù)測性差。 |
|