久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

統(tǒng)計學必知,!「標準差&方差」之間不得不說的關系

 秋風楊柳萬千條 2024-02-16 發(fā)布于北京

1


標準差(Standard deviation)

簡單來說,標準差是一組數(shù)值自平均值分散程度的一種測量觀念,。一個較大的標準差,,代表大部分的數(shù)值和其平均值之間差異較大,一個較小的標準差,,代表這些數(shù)值較接近平均值,。

例如:

兩組數(shù)的集合 {0, 5,, 9,, 14} 和 {5, 6,, 8,, 9} 其平均值都是7,但第二個集合具有較小的標準差

  • 標準差公式:

圖片

  • 公式描述:公式中數(shù)值為X1,X2,X3,……XN(皆為實數(shù)),,其平均值(算數(shù)平均值)μ,,標準差為σ

標準差可以當作不確定性的一種測量。在物理科學中,,做重復性測量時,,測量數(shù)值集合的標準差代表這些測量的精確度。當要決定測量值是否符合預測值,,測量值的標準差占有決定性重要角色,。如果測量平均值與預測值相差太遠(同時與標準差數(shù)值做比較),則認為測量值與預測值互相矛盾,。這很容易理解,,因為如果測量值都落在一定數(shù)值范圍之外,可以合理推論預測值是否正確,。


標準差應用于投資上,,可作為量度回報穩(wěn)定性的指標。標準差數(shù)值越大,,代表回報遠離過去平均數(shù)值,,回報較不穩(wěn)定故風險越高,。相反,標準差數(shù)值越小,,代表回報較為穩(wěn)定,,風險亦較小。

例如:

A,,B兩組各有6位學生參加同一次語文測驗,,A組的分數(shù)為95,85,,75,,65,55,,45  

B組的分數(shù)為73,,72,71,,69,,68,67


這兩組的平均數(shù)都是70,,但A組的標準差為17.078分,,B組的標準差為2.160分,說明A組學生之間的差距要比B組學生之間的差距大得多

2


方差(variance)

兩人的5次測驗成績?nèi)缦拢?/span>

A:50,,100,,100,60,,50  -->Average(A) = 72

B:73,,70,75,,72,,70      -->Average(B) = 72

平均成績相同,但A不穩(wěn)定,,對平均值偏大

方差描述隨機變量對于數(shù)學期望的偏離程度

  • 方差公式:

圖片

  • 公式描述:公式中x為平均數(shù),,n為這組數(shù)據(jù)個數(shù),x1,x2,x3……xn為這組數(shù)據(jù)具體數(shù)值,。

可以看到方差是標準差的平方


除了期望,,方差(variance)是另一個常見的分布描述量。如果說期望表示的是分布的中心位置,,那么方差就是分布的離散程度,。方差越大,說明隨機變量取值越離散,。

圖片

比如射箭時,,一個優(yōu)秀的選手能保持自己的弓箭集中于目標點附近,,而一個經(jīng)驗不足的選手,他弓箭的落點會更容易散落許多地方,。

圖片

上面的靶上有兩套落點。盡管兩套落點的平均中心位置都在原點 (即期望相同),,但兩套落點的離散程度明顯有區(qū)別,。藍色的點離散程度更小。


數(shù)學上,,我們用方差來代表一組
數(shù)據(jù)或者某個概率分布的離散程度,。可見,,方差是獨立于期望的另一個對分布的度量,。兩個分布,完全可能有相同的期望,,而方差不同,,正如我們上面的箭靶。

對于一個隨機變量XX來說,,它的方差為:Var(X)=E[(X?μ)2]Var(X)=E[(X?μ)2]

其中,,μμ表示XX的期望值,即μ=E(X)μ=E(X)

我們可以代入期望的數(shù)學表達形式,。


比如連續(xù)隨機變量:Var(X)=E[(X?μ)2]=∫+∞?∞(x?μ)2f(x)dxVar(X)=E[(X?μ)2]=∫?∞+∞(x?μ)2f(x)dx

方差概念背后的邏輯很簡單:一個取值與期望值的“距離”用兩者差的平方表示,。該平方值表示取值與分布中心的偏差程度,平方的最小取值為0,,當取值與期望值相同時,,此時不離散,平方為0,,即“距離”最?。划旊S機變量偏離期望值時,,平方增大,。由于取值是隨機的,不同取值的概率不同,,我們根據(jù)概率對該平方進行加權平均,,也就獲得整體的離散程度——方差。


方差的平方根稱為標準差(standard deviation,, 簡寫std),。我們常用σσ表示標準差
σ=Var(X)??????√σ=Var(X)

標準差也表示分布的離散程度,。

 正態(tài)分布的方差 

根據(jù)上面的定義,,可以算出正態(tài)分布:

E(X)=1σ2π??√∫+∞?∞xe?(x?μ)2/2σ2dxE(X)=1σ2π∫?∞+∞xe?(x?μ)2/2σ2dx的

方差為:Var(X)=σ2Var(X)=σ2

正態(tài)分布的標準差正等于正態(tài)分布中的參數(shù)σσ,。這正是我們使用字母σσ來表示標準差的原因!


可以預期到,,正態(tài)分布的σσ越大,,分布離散越大,正如我們從下面的分布曲線中看到的:

圖片

當方差小時,,曲線下的面積更加集中于期望值0附近,。當方差大時,隨機變量更加離散,。此時分布曲線的“尾部”很厚,,即使在取值很偏離0時,比如x=4x=4時,,依然有很大的概率可以取到,。


代碼如下:

# By Vamei

from scipy.stats import normimport numpy as npimport matplotlib.pyplot as plt

# Note the difference in 'scale', which is stdrv1 = norm(loc=0,, scale = 1)rv2 = norm(loc=0,, scale = 2)

x = np.linspace(-5, 5,, 200)

plt.fill_between(x,, rv1.pdf(x), y2=0.0,, color='coral')plt.fill_between(x,, rv2.pdf(x), y2=0.0,, color='green',, alpha = 0.5)

plt.plot(x, rv1.pdf(x),, color='red',, label='N(0,1)')plt.plot(x,, rv2.pdf(x),, color='blue', label='N(0,,2)')

plt.legend()plt.grid(True)

plt.xlim([-5,, 5])plt.ylim([-0.0, 0.5])

plt.title('normal distribution')plt.xlabel('RV')plt.ylabel('f(x)')

plt.show()

 指數(shù)分布的方差 

指數(shù)分布的表達式為:f(x)={λe?λx0ififx≥0x<0f(x)={λe?λxifx≥00ifx<0

它的方差為:Var(X)=1λ2Var(X)=1λ2

如下圖所示:

圖片

 Chebyshev不等式 

我們一直在強調(diào),,標準差(和方差)表示分布的離散程度,。標準差越大,隨機變量取值偏離平均值的可能性越大,。如何定量的說明這一點呢,?我們可以計算一個隨機變量與期望偏離超過某個量的可能性,。比如偏離超過2個標準差的可能性。即P(|X?μ|>2σ)P(|X?μ|>2σ)


這個概率依賴于分布本身的類型,。比如正態(tài)分布N(0,,1)N(0,1),,這一概率即為x大于2,,或者x小于-2的部分對應的曲線下面積:

圖片

實際上,無論μμ和σσ如何取值,,對于正態(tài)分布來說,偏離期望超過兩個標準差的概率都相同,,約等于0.0455 (可以根據(jù)正態(tài)分布的表達式計算),。隨機變量的取值有約95.545%的可能性落在正負兩個標準差的區(qū)間內(nèi),即從-2到2,。如果我們放大區(qū)間,,比如正負三個標準差,這一概率超過99%,。我們可以相當有把握的說,,隨機變量會落正負三個標準差之內(nèi)。上面的論述并不依賴于標準差的具體值,。這里可以看到標準差所衡量的“離散”的真正含義:如果取相同概率的極端值區(qū)間,,比如上面的0.0455,標準差越大,,該極端值區(qū)間距離中心值越遠,。


然而,上面的計算和表述依賴于分布的類型(正態(tài)分布),。如何將相似的方差含義套用在其它隨機變量身上呢,?


Chebyshev不等式讓我們擺脫了對分布類型的依賴。它的敘述如下:

  • 對于任意隨機變量X,,如果它的期望為μμ,,方差為σ2σ2,那么對于任意t>0t>0,,P(|X?μ|>t)≤σ2tP(|X?μ|>t)≤σ2t

  • 無論X是什么分布,,上述不等式成立。我們讓t=2σt=2σ,,那么P(|X?μ|>2σ)≤0.25P(|X?μ|>2σ)≤0.25


也就是說,,X的取值超過兩個正負標準差的可能性最多為25%。換句話說,,隨機變量至少有75%的概率落在正負兩個標準差的范圍內(nèi),。(顯然這是最“壞”的情況下,。正態(tài)分布顯然不是”最壞“的)


繪圖代碼如下:

from scipy.stats import normimport numpy as npimport matplotlib.pyplot as plt

# Note the difference in 'scale', which is stdrv1 = norm(loc=0,, scale = 1)

x1 = np.linspace(-5,, -1, 100)x2 = np.linspace(1,, 5,, 100)x = np.linspace(-5, 5,, 200)plt.fill_between(x1,, rv1.pdf(x1), y2=0.0,, color='coral')plt.fill_between(x2,, rv1.pdf(x2), y2=0.0,, color='coral')plt.plot(x,, rv1.pdf(x), color='black',, linewidth=2.0,, label='N(0,1)')

plt.legend()plt.grid(True)

plt.xlim([-5,, 5])plt.ylim([-0.0,, 0.5])

plt.title('normal distribution')plt.xlabel('RV')plt.ylabel('f(x)')

plt.show()

3


MAD絕對中位值

中位數(shù):統(tǒng)計學名詞,是指將統(tǒng)計總體中的各個變量值按大小順序排列起來形成一個數(shù)列,,處于變量數(shù)列中間位置的變量值就稱為中位數(shù),。

MAD:就是先求出給定數(shù)據(jù)的中位數(shù)(注意并非均值)然后原數(shù)列的每個值與這個中位數(shù)求出絕對差,然后新數(shù)列的中位值就是MAD

例如:

數(shù)據(jù)A:8,,5,,9,6,,3,,2,4,,9  2,,3,4,,5,,6,8,9

中位數(shù) = 5

A - 5 = 3,,0,,4,1,,2,,3,1,,4  0,,1,1,,2,,3,3,,4

MAD = 2

4


總 結

我們引入了一個新的分布描述量:方差-->它用于表示分布的離散程度:

  • 標準差為方差的平方根

  • 方差越大,,“極端區(qū)間”偏離中心越遠

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導購買等信息,,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,,請點擊一鍵舉報,。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多