今天是概率統(tǒng)計(jì)專(zhuān)題的第六篇,我們來(lái)看看方差相關(guān)的概念,。 方差的定義方差在我們的日常生活當(dāng)中非常常見(jiàn),,它主要是為了提供樣本離群程度的描述。舉個(gè)簡(jiǎn)單的例子,,我們?nèi)ベI(mǎi)一包薯片,,一般來(lái)說(shuō)一袋薯片當(dāng)中的數(shù)量是固定的。我們假設(shè)平均每袋當(dāng)中都有50片薯片好了,,即使是機(jī)器灌裝,,也不可能做到每一袋都剛好是50片,,或多或少都會(huì)有些誤差。而均值則無(wú)法衡量這種誤差,。 如果現(xiàn)在有兩個(gè)薯片品牌,,它們的口味都差不多,平均每袋也都是50片,。但是其中A品牌的薯片有一半是80片,,還有一半是20片。B品牌呢,,99%都在45-55之間,。你說(shuō)你會(huì)買(mǎi)哪一個(gè)牌子呢,?(在不考慮通過(guò)稱(chēng)重的情況下),。 在現(xiàn)代社會(huì),凡是工廠(chǎng)出廠(chǎng)的產(chǎn)品,,基本上都離不開(kāi)方差這個(gè)概念,。方差越低,說(shuō)明工廠(chǎng)的生產(chǎn)能力越強(qiáng),,能夠做到每一個(gè)產(chǎn)品都很精細(xì),,相反如果方差越大,則說(shuō)明瑕疵很多,,不夠精細(xì),。也就是說(shuō),方差衡量的是樣本距離均值的期望,。 它本來(lái)應(yīng)該寫(xiě)成:E|X - E(X)|,。 但是由于式子當(dāng)中存在絕對(duì)值,我們通常會(huì)對(duì)它平方,,從而將絕對(duì)值消掉,。寫(xiě)成: 這里的E表示期望,,這是統(tǒng)計(jì)學(xué)當(dāng)中的寫(xiě)法,,如果看不明白,我們也可以把式子展開(kāi)寫(xiě)成: 這里的N表示的是樣本數(shù)量,,X bar 是樣本的均值。Var是英文variance的縮寫(xiě),,我們也可以寫(xiě)成D(X),。 由于方差是通過(guò)平方計(jì)算得到的,我們也可以將它進(jìn)行開(kāi)方,,得到標(biāo)準(zhǔn)差,。根號(hào)D(X),,也可以寫(xiě)成σ(X)。 方差的性質(zhì)關(guān)于方差有幾個(gè)著名的性質(zhì),,如果X是變量,,而C是常數(shù)。那么: 也就是對(duì)于每一個(gè)變量都乘上一個(gè)常數(shù),,那么整體的方差擴(kuò)大C的平方倍。這個(gè)很好理解,,因?yàn)闃颖局禂U(kuò)大了C倍,,由于我們?cè)谟?jì)算方差的時(shí)候用到了平方,那么自然就是擴(kuò)大了C的平方倍,。我們利用上面展開(kāi)的公式代入可以很容易得到證明,。 下一個(gè)性質(zhì)是: 也就是全體樣本加上一個(gè)常數(shù),,整體的方差不變,。如果我們的樣本不是一個(gè)值,而是一個(gè)向量的話(huà),,那么這個(gè)公式可以拓展成樣本加上一個(gè)常數(shù)向量,,樣本的方差保持不變。這個(gè)也很好理解,,樣本加上一個(gè)常數(shù)向量,,相當(dāng)于整體朝著向量的方向移動(dòng)了一個(gè)距離,對(duì)于整體的分布并不會(huì)影響,。 如果某個(gè)樣本X的方差為0,,那么說(shuō)明樣本內(nèi)只有一個(gè)值。 下面一個(gè)性質(zhì)稍微復(fù)雜一點(diǎn): 也就是說(shuō)方差等于樣本平方的期望減去樣本期望的平方,,我們光從定義上很難得出這個(gè)結(jié)論,需要通過(guò)嚴(yán)謹(jǐn)?shù)耐茖?dǎo): 在有些時(shí)候,,我們直接求解樣本的方差不太方便,而求解平方的期望很容易,,這個(gè)時(shí)候我們可以考慮使用這個(gè)公式進(jìn)行代換,。 方差與協(xié)方差方差我們一般不直接在機(jī)器學(xué)習(xí)當(dāng)中進(jìn)行使用,更多的時(shí)候是用在特征分析當(dāng)中,,查看特征的方差來(lái)感知它的離散情況,,決定要不要對(duì)特征進(jìn)行一些處理。因?yàn)閷?duì)于一些模型來(lái)說(shuō),,如果特征的方差過(guò)大,,那么模型可能很難收斂,,或者是收斂的效果可能會(huì)受到影響。這個(gè)時(shí)候往往需要考慮使用一些方法對(duì)特征值進(jìn)行標(biāo)準(zhǔn)化處理,。 除了方差之外,,還有一個(gè)類(lèi)似的概念也經(jīng)常被用到,就是用來(lái)衡量?jī)蓚€(gè)變量之間相關(guān)性的協(xié)方差,。 協(xié)方差的公式其實(shí)和方差也有脫不開(kāi)的關(guān)系,,我們先來(lái)簡(jiǎn)單推導(dǎo)一下。 首先,,我們來(lái)看一下D(X+Y),,這里X和Y是兩個(gè)變量,D(X+Y)就表示X+Y的方差,,我們來(lái)看下D(X+Y)和D(X)和D(Y)之間的關(guān)系,。 我們可以來(lái)推導(dǎo)一下,根據(jù)方差的定義: 這里的N是一個(gè)常量,,我們可以忽略,,只用來(lái)看分子即可,。我們把式子展開(kāi): 我們看下上面化簡(jiǎn)之后的結(jié)果: 在這個(gè)式子當(dāng)中D(X),, D(Y)都是固定的,并不會(huì)隨XY是否相關(guān)而發(fā)生變化,。但是后面一項(xiàng)不是,,它和XY的相關(guān)性有關(guān)。 我們可以用這一項(xiàng)來(lái)反應(yīng)X和Y之間的相關(guān)性,,這就是協(xié)方差的公式: 所以協(xié)方差反應(yīng)的不是變量的離散和分布情況,而是兩個(gè)變量之間的相關(guān)性,。到這里,,我們可能還不太看得清楚,沒(méi)有關(guān)系,,我們?cè)賹?duì)它做一個(gè)簡(jiǎn)單的變形,,將它除以?xún)烧叩臉?biāo)準(zhǔn)差: 這個(gè)形式已經(jīng)非常像是兩個(gè)向量夾角的余弦值,,它就是大名鼎鼎的皮爾遜值,。皮爾遜值和余弦值類(lèi)似,可以反映兩個(gè)分布之間的相關(guān)性,,如果p值大于0,,說(shuō)明兩組變量成正相關(guān),,否則則成負(fù)相關(guān)。我們可以通過(guò)計(jì)算證明p值是一個(gè)位于-1到1之間的數(shù),。 如果p值等于0,,說(shuō)明X和Y完全獨(dú)立,沒(méi)有任何相關(guān)性,。如果p值等于1,,說(shuō)明可以找到相應(yīng)的系數(shù)W和b使得Y = WX+b。 結(jié)尾在機(jī)器學(xué)習(xí)領(lǐng)域當(dāng)中,,計(jì)算兩組變量之間的相關(guān)性非常重要,。因?yàn)楸举|(zhì)上來(lái)機(jī)器學(xué)習(xí)的模型做的就是通過(guò)挖掘特征和預(yù)測(cè)值之間的相關(guān)性來(lái)完成預(yù)測(cè),如果某一組特征和預(yù)測(cè)值之間是完全獨(dú)立的,,那么它對(duì)于模型來(lái)說(shuō)就是無(wú)用的,,無(wú)論我們選擇什么樣的模型都是如此。 所以,,我們經(jīng)常會(huì)通過(guò)分析特征和label之間的皮爾遜值來(lái)衡量特征的重要程度,,從而對(duì)特征進(jìn)行取舍和再加工。如果單純只看皮爾遜值和它的公式,,很難完全理解和記住,,而我們從方差入手,將整個(gè)鏈路梳理了一遍,,則要容易得多,,即使以后忘記了,也可以根據(jù)它們之間的關(guān)系重新推導(dǎo),。 |
|
來(lái)自: taotao_2016 > 《概率》