方差,、協(xié)方差與皮爾遜值

taotao_2016 2020-05-16

展開(kāi)全文

今天是概率統(tǒng)計(jì)專(zhuān)題的第六篇，我們來(lái)看看方差相關(guān)的概念,。

方差的定義

方差在我們的日常生活當(dāng)中非常常見(jiàn),，它主要是為了提供樣本離群程度的描述。舉個(gè)簡(jiǎn)單的例子,，我們?nèi)ベI(mǎi)一包薯片,，一般來(lái)說(shuō)一袋薯片當(dāng)中的數(shù)量是固定的。我們假設(shè)平均每袋當(dāng)中都有50片薯片好了,，即使是機(jī)器灌裝,，也不可能做到每一袋都剛好是50片,，或多或少都會(huì)有些誤差。而均值則無(wú)法衡量這種誤差,。

如果現(xiàn)在有兩個(gè)薯片品牌,，它們的口味都差不多，平均每袋也都是50片,。但是其中A品牌的薯片有一半是80片,，還有一半是20片。B品牌呢,，99%都在45-55之間,。你說(shuō)你會(huì)買(mǎi)哪一個(gè)牌子呢,？（在不考慮通過(guò)稱(chēng)重的情況下）,。

在現(xiàn)代社會(huì)，凡是工廠(chǎng)出廠(chǎng)的產(chǎn)品,，基本上都離不開(kāi)方差這個(gè)概念,。方差越低，說(shuō)明工廠(chǎng)的生產(chǎn)能力越強(qiáng),，能夠做到每一個(gè)產(chǎn)品都很精細(xì),，相反如果方差越大，則說(shuō)明瑕疵很多,，不夠精細(xì),。也就是說(shuō)，方差衡量的是樣本距離均值的期望,。

它本來(lái)應(yīng)該寫(xiě)成：E|X - E(X)|,。

但是由于式子當(dāng)中存在絕對(duì)值，我們通常會(huì)對(duì)它平方,，從而將絕對(duì)值消掉,。寫(xiě)成：

方差、協(xié)方差與皮爾遜值

這里的E表示期望,，這是統(tǒng)計(jì)學(xué)當(dāng)中的寫(xiě)法,，如果看不明白，我們也可以把式子展開(kāi)寫(xiě)成：

方差,、協(xié)方差與皮爾遜值

這里的N表示的是樣本數(shù)量,，X bar 是樣本的均值。Var是英文variance的縮寫(xiě),，我們也可以寫(xiě)成D(X),。

由于方差是通過(guò)平方計(jì)算得到的，我們也可以將它進(jìn)行開(kāi)方,，得到標(biāo)準(zhǔn)差,。根號(hào)D(X),，也可以寫(xiě)成σ(X)。

方差的性質(zhì)

關(guān)于方差有幾個(gè)著名的性質(zhì),，如果X是變量,，而C是常數(shù)。那么：

方差,、協(xié)方差與皮爾遜值

也就是對(duì)于每一個(gè)變量都乘上一個(gè)常數(shù),，那么整體的方差擴(kuò)大C的平方倍。這個(gè)很好理解,，因?yàn)闃颖局禂U(kuò)大了C倍,，由于我們?cè)谟?jì)算方差的時(shí)候用到了平方，那么自然就是擴(kuò)大了C的平方倍,。我們利用上面展開(kāi)的公式代入可以很容易得到證明,。

下一個(gè)性質(zhì)是：

方差、協(xié)方差與皮爾遜值

也就是全體樣本加上一個(gè)常數(shù),，整體的方差不變,。如果我們的樣本不是一個(gè)值，而是一個(gè)向量的話(huà),，那么這個(gè)公式可以拓展成樣本加上一個(gè)常數(shù)向量,，樣本的方差保持不變。這個(gè)也很好理解,，樣本加上一個(gè)常數(shù)向量,，相當(dāng)于整體朝著向量的方向移動(dòng)了一個(gè)距離，對(duì)于整體的分布并不會(huì)影響,。

如果某個(gè)樣本X的方差為0,，那么說(shuō)明樣本內(nèi)只有一個(gè)值。

下面一個(gè)性質(zhì)稍微復(fù)雜一點(diǎn)：

方差,、協(xié)方差與皮爾遜值

也就是說(shuō)方差等于樣本平方的期望減去樣本期望的平方,，我們光從定義上很難得出這個(gè)結(jié)論，需要通過(guò)嚴(yán)謹(jǐn)?shù)耐茖?dǎo)：

方差,、協(xié)方差與皮爾遜值

在有些時(shí)候,，我們直接求解樣本的方差不太方便，而求解平方的期望很容易,，這個(gè)時(shí)候我們可以考慮使用這個(gè)公式進(jìn)行代換,。

方差與協(xié)方差

方差我們一般不直接在機(jī)器學(xué)習(xí)當(dāng)中進(jìn)行使用，更多的時(shí)候是用在特征分析當(dāng)中,，查看特征的方差來(lái)感知它的離散情況,，決定要不要對(duì)特征進(jìn)行一些處理。因?yàn)閷?duì)于一些模型來(lái)說(shuō),，如果特征的方差過(guò)大,，那么模型可能很難收斂,，或者是收斂的效果可能會(huì)受到影響。這個(gè)時(shí)候往往需要考慮使用一些方法對(duì)特征值進(jìn)行標(biāo)準(zhǔn)化處理,。

除了方差之外,，還有一個(gè)類(lèi)似的概念也經(jīng)常被用到，就是用來(lái)衡量?jī)蓚€(gè)變量之間相關(guān)性的協(xié)方差,。

協(xié)方差的公式其實(shí)和方差也有脫不開(kāi)的關(guān)系,，我們先來(lái)簡(jiǎn)單推導(dǎo)一下。

首先,，我們來(lái)看一下D(X+Y),，這里X和Y是兩個(gè)變量，D(X+Y)就表示X+Y的方差,，我們來(lái)看下D(X+Y)和D(X)和D(Y)之間的關(guān)系,。

我們可以來(lái)推導(dǎo)一下，根據(jù)方差的定義：

方差,、協(xié)方差與皮爾遜值

這里的N是一個(gè)常量,，我們可以忽略,，只用來(lái)看分子即可,。我們把式子展開(kāi)：

方差、協(xié)方差與皮爾遜值

我們看下上面化簡(jiǎn)之后的結(jié)果：

方差,、協(xié)方差與皮爾遜值

在這個(gè)式子當(dāng)中D(X),， D(Y)都是固定的，并不會(huì)隨XY是否相關(guān)而發(fā)生變化,。但是后面一項(xiàng)不是,，它和XY的相關(guān)性有關(guān)。

我們可以用這一項(xiàng)來(lái)反應(yīng)X和Y之間的相關(guān)性,，這就是協(xié)方差的公式：

方差,、協(xié)方差與皮爾遜值

所以協(xié)方差反應(yīng)的不是變量的離散和分布情況，而是兩個(gè)變量之間的相關(guān)性,。到這里,，我們可能還不太看得清楚，沒(méi)有關(guān)系,，我們?cè)賹?duì)它做一個(gè)簡(jiǎn)單的變形,，將它除以?xún)烧叩臉?biāo)準(zhǔn)差：

方差、協(xié)方差與皮爾遜值

這個(gè)形式已經(jīng)非常像是兩個(gè)向量夾角的余弦值,，它就是大名鼎鼎的皮爾遜值,。皮爾遜值和余弦值類(lèi)似，可以反映兩個(gè)分布之間的相關(guān)性,，如果p值大于0,，說(shuō)明兩組變量成正相關(guān),，否則則成負(fù)相關(guān)。我們可以通過(guò)計(jì)算證明p值是一個(gè)位于-1到1之間的數(shù),。

如果p值等于0,，說(shuō)明X和Y完全獨(dú)立，沒(méi)有任何相關(guān)性,。如果p值等于1,，說(shuō)明可以找到相應(yīng)的系數(shù)W和b使得Y = WX+b。

結(jié)尾

在機(jī)器學(xué)習(xí)領(lǐng)域當(dāng)中,，計(jì)算兩組變量之間的相關(guān)性非常重要,。因?yàn)楸举|(zhì)上來(lái)機(jī)器學(xué)習(xí)的模型做的就是通過(guò)挖掘特征和預(yù)測(cè)值之間的相關(guān)性來(lái)完成預(yù)測(cè)，如果某一組特征和預(yù)測(cè)值之間是完全獨(dú)立的,，那么它對(duì)于模型來(lái)說(shuō)就是無(wú)用的,，無(wú)論我們選擇什么樣的模型都是如此。

所以,，我們經(jīng)常會(huì)通過(guò)分析特征和label之間的皮爾遜值來(lái)衡量特征的重要程度,，從而對(duì)特征進(jìn)行取舍和再加工。如果單純只看皮爾遜值和它的公式,，很難完全理解和記住,，而我們從方差入手，將整個(gè)鏈路梳理了一遍,，則要容易得多,，即使以后忘記了，也可以根據(jù)它們之間的關(guān)系重新推導(dǎo),。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀(guān)點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： taotao_2016 > 《概率》

舉報(bào)/認(rèn)領(lǐng)