1 標準差(Standard deviation) 簡單來說,標準差是一組數(shù)值自平均值分散程度的一種測量觀念,。一個較大的標準差,,代表大部分的數(shù)值和其平均值之間差異較大,一個較小的標準差,,代表這些數(shù)值較接近平均值,。
標準差可以當作不確定性的一種測量。在物理科學中,,做重復性測量時,,測量數(shù)值集合的標準差代表這些測量的精確度。當要決定測量值是否符合預測值,,測量值的標準差占有決定性重要角色,。如果測量平均值與預測值相差太遠(同時與標準差數(shù)值做比較),則認為測量值與預測值互相矛盾,。這很容易理解,,因為如果測量值都落在一定數(shù)值范圍之外,可以合理推論預測值是否正確,。
2 方差(variance)
方差描述隨機變量對于數(shù)學期望的偏離程度
可以看到方差是標準差的平方
上面的靶上有兩套落點。盡管兩套落點的平均中心位置都在原點 (即期望相同),,但兩套落點的離散程度明顯有區(qū)別,。藍色的點離散程度更小。
對于一個隨機變量XX來說,,它的方差為:Var(X)=E[(X?μ)2]Var(X)=E[(X?μ)2] 其中,,μμ表示XX的期望值,即μ=E(X)μ=E(X) 我們可以代入期望的數(shù)學表達形式,。
方差概念背后的邏輯很簡單:一個取值與期望值的“距離”用兩者差的平方表示,。該平方值表示取值與分布中心的偏差程度,平方的最小取值為0,,當取值與期望值相同時,,此時不離散,平方為0,,即“距離”最?。划旊S機變量偏離期望值時,,平方增大,。由于取值是隨機的,不同取值的概率不同,,我們根據(jù)概率對該平方進行加權平均,,也就獲得整體的離散程度——方差。
標準差也表示分布的離散程度,。 正態(tài)分布的方差 根據(jù)上面的定義,,可以算出正態(tài)分布: E(X)=1σ2π??√∫+∞?∞xe?(x?μ)2/2σ2dxE(X)=1σ2π∫?∞+∞xe?(x?μ)2/2σ2dx的 方差為:Var(X)=σ2Var(X)=σ2 正態(tài)分布的標準差正等于正態(tài)分布中的參數(shù)σσ,。這正是我們使用字母σσ來表示標準差的原因!
當方差小時,,曲線下的面積更加集中于期望值0附近,。當方差大時,隨機變量更加離散,。此時分布曲線的“尾部”很厚,,即使在取值很偏離0時,比如x=4x=4時,,依然有很大的概率可以取到,。 代碼如下: from scipy.stats import normimport numpy as npimport matplotlib.pyplot as plt # Note the difference in 'scale', which is stdrv1 = norm(loc=0,, scale = 1)rv2 = norm(loc=0,, scale = 2) x = np.linspace(-5, 5,, 200) plt.fill_between(x,, rv1.pdf(x), y2=0.0,, color='coral')plt.fill_between(x,, rv2.pdf(x), y2=0.0,, color='green',, alpha = 0.5) plt.plot(x, rv1.pdf(x),, color='red',, label='N(0,1)')plt.plot(x,, rv2.pdf(x),, color='blue', label='N(0,,2)') plt.legend()plt.grid(True) plt.xlim([-5,, 5])plt.ylim([-0.0, 0.5]) plt.title('normal distribution')plt.xlabel('RV')plt.ylabel('f(x)') plt.show() 指數(shù)分布的方差 指數(shù)分布的表達式為:f(x)={λe?λx0ififx≥0x<0f(x)={λe?λxifx≥00ifx<0 它的方差為:Var(X)=1λ2Var(X)=1λ2 如下圖所示: Chebyshev不等式 我們一直在強調(diào),,標準差(和方差)表示分布的離散程度,。標準差越大,隨機變量取值偏離平均值的可能性越大,。如何定量的說明這一點呢,?我們可以計算一個隨機變量與期望偏離超過某個量的可能性,。比如偏離超過2個標準差的可能性。即P(|X?μ|>2σ)P(|X?μ|>2σ)
實際上,無論μμ和σσ如何取值,,對于正態(tài)分布來說,偏離期望超過兩個標準差的概率都相同,,約等于0.0455 (可以根據(jù)正態(tài)分布的表達式計算),。隨機變量的取值有約95.545%的可能性落在正負兩個標準差的區(qū)間內(nèi),即從-2到2,。如果我們放大區(qū)間,,比如正負三個標準差,這一概率超過99%,。我們可以相當有把握的說,,隨機變量會落正負三個標準差之內(nèi)。上面的論述并不依賴于標準差的具體值,。這里可以看到標準差所衡量的“離散”的真正含義:如果取相同概率的極端值區(qū)間,,比如上面的0.0455,標準差越大,,該極端值區(qū)間距離中心值越遠,。
繪圖代碼如下:
3 MAD絕對中位值 中位數(shù):統(tǒng)計學名詞,是指將統(tǒng)計總體中的各個變量值按大小順序排列起來形成一個數(shù)列,,處于變量數(shù)列中間位置的變量值就稱為中位數(shù),。 MAD:就是先求出給定數(shù)據(jù)的中位數(shù)(注意并非均值)然后原數(shù)列的每個值與這個中位數(shù)求出絕對差,然后新數(shù)列的中位值就是MAD
4 總 結 我們引入了一個新的分布描述量:方差-->它用于表示分布的離散程度:
|
|