一,、協(xié)方差:
可以通俗的理解為:兩個變量在變化過程中是同方向變化,?還是反方向變化?同向或反向程度如何,?
你變大,,同時我也變大,說明兩個變量是同向變化的,,這時協(xié)方差就是正的,。
你變大,同時我變小,,說明兩個變量是反向變化的,,這時協(xié)方差就是負的。
從數值來看,,協(xié)方差的數值越大,,兩個變量同向程度也就越大。反之亦然,。
咱們從公式出發(fā)來理解一下:
公式簡單翻譯一下是:如果有X,Y兩個變量,,每個時刻的“X值與其均值之差”乘以“Y值與其均值之差”得到一個乘積,,再對這每時刻的乘積求和并求出均值(其實是求“期望”,但就不引申太多新概念了,,簡單認為就是求均值了)。
下面舉個例子來說明吧:
比如有兩個變量X,Y,,觀察t1-t7(7個時刻)他們的變化情況,。
簡單做了個圖:分別用紅點和綠點表示X、Y,,橫軸是時間,。可以看到X,,Y均圍繞各自的均值運動,,并且很明顯是同向變化的。
如果反向運動呢,?
當然上面說的是兩種特殊情況,,很多時候X,,Y的運動是不規(guī)律的,比如:
總結一下,,如果協(xié)方差為正,說明X,,Y同向變化,,協(xié)方差越大說明同向程度越高;如果協(xié)方差為負,,說明X,,Y反向運動,協(xié)方差越小說明反向程度越高,。
--------LINE---------
一般的同學看到above the line的內容就ok了,。但有一些愛鉆研的同學,可能會進一步提問:
那就繼續(xù)往下看……
這種情況是有可能出現(xiàn)的,比如:
另外,,如果你還鉆牛角尖,,說如果t1,t2,,t3……t7時刻X,,Y都在增大,而且X都比均值大,,Y都比均值小,,這種情況協(xié)方差不就是負的了?7個負值求平均肯定是負值???但是X,Y都是增大的,都是同向變化的,,這不就矛盾了,?
這個更好解釋了:這種情況不可能出現(xiàn)!
因為,,你的均值算錯了……
X,,Y的值應該均勻的分布在均值兩側才對,不可能都比均值大,,或都比均值小,。
所以,,實際它的圖應該是下面這樣的:
好了,,現(xiàn)在,對于協(xié)方差應該有點感覺了吧,?
二,、相關系數:
對于相關系數,我們從它的公式入手,。一般情況下,,相關系數的公式為:
翻譯一下:就是用X,、Y的協(xié)方差除以X的標準差和Y的標準差,。
所以,相關系數也可以看成協(xié)方差:一種剔除了兩個變量量綱影響,、標準化后的特殊協(xié)方差,。
既然是一種特殊的協(xié)方差,那它:
1,、也可以反映兩個變量變化時是同向還是反向,,如果同向變化就為正,,反向變化就為負,。
2、由于它是標準化后的協(xié)方差,,因此更重要的特性來了:它消除了兩個變量變化幅度的影響,,而只是單純反應兩個變量每單位變化時的相似程度。
比較抽象,,下面還是舉個例子來說明:
首先,,還是承接上文中的變量X、Y變化的示意圖(X為紅點,,Y為綠點),,來看兩種情況:
很容易就可以看出以上兩種情況X,Y都是同向變化的,,而這個“同向變化”,,有個非常顯著特征:X、Y同向變化的過程,,具有極高的相似度,!無論第一還是第二種情況下,都是:t1時刻X,、Y都大于均值,,t2時刻X、Y都變小且小于均值,,t3時刻X,、Y繼續(xù)變小且小于均值,t4時刻X,、Y變大但仍小于均值,,t5時刻X、Y變大且大于均值……
可是,,計算一下他們的協(xié)方差,,
第一種情況下:
協(xié)方差差出了一萬倍,只能從兩個協(xié)方差都是正數判斷出兩種情況下X,、Y都是同向變化,,但是,一點也看不出兩種情況下X,、Y的變化都具有相似性這一特點,。
這是為什么呢?
因為以上兩種情況下,,在X,、Y兩個變量同向變化時,X變化的幅度不同,,這樣,,兩種情況的協(xié)方差更多的被變量的變化幅度所影響了。
所以,,為了能準確的研究兩個變量在變化過程中的相似程度,,我們就要把變化幅度對協(xié)方差的影響,從協(xié)方差中剔除掉,。于是,,相關系數就橫空出世了,就有了最開始相關系數的公式:
那么為什么要通過除以標準差的方式來剔除變化幅度的影響呢,?咱們簡單從標準差公式看一下:
從公式可以看出,標準差計算方法為,,每一時刻變量值與變量均值之差再平方,,求得一個數值,再將每一時刻這個數值相加后求平均,,再開方,。
所以標準差描述了變量在整體變化過程中偏離均值的幅度,。協(xié)方差除以標準差,,也就是把協(xié)方差中變量變化幅度對協(xié)方差的影響剔除掉,這樣協(xié)方差也就標準化了,,它反應的就是兩個變量每單位變化時的情況,。這也就是相關系數的公式含義了。
總結一下,對于兩個變量X,、Y,,
當他們的相關系數為1時,說明兩個變量變化時的正向相似度最大,,即,,你變大一倍,我也變大一倍,;你變小一倍,,我也變小一倍。也即是完全正相關(以X,、Y為橫縱坐標軸,,可以畫出一條斜率為正數的直線,所以X,、Y是線性關系的),。
隨著他們相關系數減小,,兩個變量變化時的相似度也變小,,當相關系數為0時,兩個變量的變化過程沒有任何相似度,也即兩個變量無關,。
當相關系數繼續(xù)變小,,小于0時,兩個變量開始出現(xiàn)反向的相似度,,隨著相關系數繼續(xù)變小,,反向相似度會逐漸變大。
當相關系數為-1時,,說明兩個變量變化的反向相似度最大,,即,你變大一倍,,我變小一倍,;你變小一倍,我變大一倍,。也即是完全負相關(以X,、Y為橫縱坐標軸,可以畫出一條斜率為負數的直線,,所以X,、Y也是線性關系的)。
有了上面的背景,,我們再回到最初的變量X,、Y的例子中,可以先看一下第一種情況的相關系數:
X的標準差為
說明第一種情況下,X的變化與Y的變化具有很高的相似度,,而且已經接近完全正相關了,,X、Y幾乎就是線性變化的,。
那第二種情況呢,?
X的標準差為
說明第二種情況下,,雖然X的變化幅度比第一種情況X的變化幅度小了10000倍,但是絲毫沒有改變“X的變化與Y的變化具有很高的相似度”這一結論,。同時,,由于第一種、第二種情況的相關系數是相等的,,因此在這兩種情況下,,X,、Y的變化過程有著同樣的相似度。
好了,,講了這么多,,不知你看完是否對相關系數也有了一些感覺?
三,、寫在最后
本文主要還是想給非理工專業(yè),、入門級的各位朋友看的,自己也曾在茫茫公式海中痛苦過,,但后來發(fā)現(xiàn)對一個公式的原理有了一個感覺后,,它也就變得好記很多了,而且也愿意深入研究它了,。這篇文章也就是培養(yǎng)你對于協(xié)方差,、相關系數的這種感覺。但是,,為了通俗易懂,,有些地方也不夠全面、嚴謹,。也許你看完本文,,經過自己的學習研究,也會有自己的一些想法,,那你可以繼續(xù)研究一下本題目下其他答主的答案,,通過引入向量、內積等定義,,會把協(xié)方差,、相關系數說明得更加嚴謹和透徹??傊畬W習是一個循序漸進的過程,,不要覺得徹底明白了什么,那往往是你踏入一個領域的第一步,。
|