點估計(Point Estimate)
就是用樣本統(tǒng)計量作為總體參數(shù)的估計,比如用樣本均值/方差作為總體均值/方差的估計:想要估計學生平均成績,,從中抽取一個樣本,,樣本平均值為85分,,把85直接作為學生總體平均分的估計,85就是點估計,。
區(qū)間估計(Interval Estimate)和置信水平(Confidence Level)
在點估計的基礎上,,在一定的置信水平下,給樣本統(tǒng)計量加上一個區(qū)間范圍作為總體參數(shù)的取值范圍,,這個區(qū)間叫置信區(qū)間(Confidence Interval)。
而置信水平是構造多次置信區(qū)間,,其中包含了總體參數(shù)的置信區(qū)間占了多少比例,?比如想要估計學生平均成績,抽取了100個學生樣本,,這些樣本構造了100個置信區(qū)間,,有95個包含了總體平均分真實值,這時候置信水平就是95%, 顯著性水平(Significance Level)
α
\alpha
α則是0.05,。 常用的置信水平包括90%,,95%,99%,。這里要注意,,對“在95%的置信水平下總體平均分落在70到90分之間 ” 的一個常見的錯誤理解是:總體平均分的真實值有95%的概率落在70到90之間。這個“概率”的概念用在這里是不合適的:總體平均分是一個確定的數(shù)字而不是一個隨機變量,,一個確定的數(shù)字只有在和不在70到90之間兩種情況,,不存在“95%的概率”。這里的含義是多次抽樣得到的置信區(qū)間中,,有95%是包含總體平均分真實值,。或者:總體均值落在70到90之間的可信程度是95%,。
置信區(qū)間的特點:
1)當置信水平不變,,樣本量越大,置信區(qū)間越窄 2)當樣本量不變,,置信水平越高,,置信區(qū)間越寬
直覺上理解:
1)較大的樣本能提供更多信息,在同等可能性(置信水平)下,,置信區(qū)間的寬度減小,,也就是總體參數(shù)真實值可能的取值范圍縮小。 2)當置信區(qū)間比較寬時,,這個區(qū)間會有更大的可能性(置信水平)包含總體參數(shù)真實值,。
單個參數(shù)的區(qū)間估計
總體均值的區(qū)間估計
上一篇總結文章中說過,對于均值為
μ
\mu
μ,方差為
σ
2
\sigma^2
σ2,樣本量為
n
n
n的總體:如果是正態(tài)分布,,或者非正態(tài)總體但樣本量足夠大,,樣本均值
x
ˉ
\bar{x}
xˉ的抽樣分布服從均值
μ
\mu
μ,,方差為
σ
2
\sigma^2
σ2,或
x
ˉ
?
μ
σ
/
n
\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}
σ/n
?xˉ?μ?服從標準正態(tài)分布,。
在
1
?
α
1-\alpha
1?α的置信水平下:
z
1
?
α
/
2
≤
x
ˉ
?
μ
σ
/
n
≤
z
α
/
2
z_{1-\alpha/2}\leq\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}\leq z_{\alpha/2}
z1?α/2?≤σ/n
?xˉ?μ?≤zα/2?,。
z
α
/
2
z_{\alpha/2}
zα/2?是標準正態(tài)分布時density曲線右側面積為
α
/
2
\alpha/2
α/2時
z
z
z的值, 同理可得
z
1
?
α
/
2
z_{1-\alpha/2}
z1?α/2?就是density曲線右側面積為
1
?
α
/
2
1-\alpha/2
1?α/2時
z
z
z的值(也是左側面積為
α
/
2
\alpha/2
α/2時的
z
z
z值)。但因為是關于y軸的對稱分布,,有
z
1
?
α
/
2
=
?
z
α
/
2
z_{1-\alpha/2}=-z_{\alpha/2}
z1?α/2?=?zα/2?,。所以可以得到:
?
z
α
/
2
σ
n
≤
x
ˉ
?
μ
≤
z
α
/
2
σ
n
-z_{\alpha/2}\frac{ \sigma}{\sqrt{n}}\leq \bar{x}-\mu\leq z_{\alpha/2}\frac{ \sigma}{\sqrt{n}}
?zα/2?n
?σ?≤xˉ?μ≤zα/2?n
?σ?
總體均值
μ
\mu
μ的置信區(qū)間為:
x
ˉ
±
z
α
/
2
σ
n
\bar{x}\pm z_{\alpha/2}\frac{ \sigma}{\sqrt{n}}
xˉ±zα/2?n
?σ?
常用的
α
\alpha
α值有0.1,0.05和0.01(分別對應置信水平90%,,95%和99%), 對應的
z
α
/
2
z_{\alpha/2}
zα/2?值分別為
z
0.05
=
1.645
,
z
0.025
=
1.96
,
z
0.025
=
2.58
z_{0.05}=1.645,z_{0.025}=1.96,z_{0.025}=2.58
z0.05?=1.645,z0.025?=1.96,z0.025?=2.58 ,。以最常用的
α
=
0.05
\alpha=0.05
α=0.05為例,有
z
0.025
=
1.96
,
z
0.975
=
?
z
0.025
=
?
1.96
z_{0.025}=1.96,z_{0.975}=-z_{0.025}=-1.96
z0.025?=1.96,z0.975?=?z0.025?=?1.96,。見下圖: 圖中兩塊陰影部分的面積都是0.025, 中間面積為0.95,,對應經(jīng)驗法則中的“約有95%的數(shù)據(jù)落在平均數(shù)±2個標準差的范圍內”,這里平均數(shù)為0,,標準差為1,。同時,
P
(
Z
≤
?
1.96
)
=
P
(
Z
≥
1.96
)
=
1
?
P
(
Z
≤
1.96
)
=
0.025
P(Z\leq-1.96)=P(Z\geq 1.96)=1-P(Z\leq1.96)=0.025
P(Z≤?1.96)=P(Z≥1.96)=1?P(Z≤1.96)=0.025,。
上面的是對于方差已知的正態(tài)總體(不管是大樣本還是小樣本),,或非正態(tài)大樣本總體來說的(也就是說對于方差已知的大樣本總體,不管是不是正態(tài)分布,,或者方差已知的小樣本正態(tài)總體),。如果大樣本總體但方差未知,上面式子中的
σ
\sigma
σ就用樣本方差
s
s
s來代替,,變成
x
ˉ
±
∣
z
α
/
2
∣
s
n
\bar{x}\pm |z_{\alpha/2}|\frac{ s}{\sqrt{n}}
xˉ±∣zα/2?∣n
?s?,。
但如果是方差未知的小樣本正態(tài)總體就不是用正態(tài)分布,而是用t分布來構造總體均值的置信區(qū)間:
t
=
x
ˉ
?
μ
s
/
n
~
t
(
n
?
1
)
t=\frac{\bar{x}-\mu}{s/\sqrt{n}}\sim t(n-1)
t=s/n
?xˉ?μ?~t(n?1),。則總體均值在
1
?
α
1-\alpha
1?α置信水平下的置信區(qū)間為
x
ˉ
±
t
α
/
2
s
n
\bar{x}\pm t_{\alpha/2}\frac{ s}{\sqrt{n}}
xˉ±tα/2?n
?s?, 其中
t
α
/
2
t_{\alpha/2}
tα/2?是t分布density曲線下右側面積為
α
/
2
\alpha/2
α/2時的t值,,而且因為也是關于y軸的對稱分布,
t
1
?
α
/
2
=
?
t
α
/
2
t_{1-\alpha/2}=-t_{\alpha/2}
t1?α/2?=?tα/2?,道理和上面的正態(tài)分布差不多,。
總結一下總體均值的置信區(qū)間,,有以下幾種情況: 方差已知,大樣本:正態(tài)分布,,
σ
\sigma
σ 方差未知,,大樣本:正態(tài)分布,s 方差已知,,小樣本正態(tài):正態(tài)分布,,
σ
\sigma
σ 方差未知,小樣本正態(tài):t分布,,s
總體比例的區(qū)間估計
總體比例指的是:想要估計一個學校中女生占的比例,,隨機抽取了100個學生,,其中女生有50個,那么全校學生中女生的比例是多少,?這個要求的比例就是總體比例,。
在大樣本的情況下,樣本比例
p
p
p的抽樣分布也近似符合正態(tài)分布,,設總體比例為
π
\pi
π, 那么
p
~
N
(
π
,
π
(
1
?
π
)
n
)
p\sim N(\pi, \frac{\pi(1-\pi)}{n})
p~N(π,nπ(1?π)?),。與總體均值類似,可以得到
p
?
π
π
(
1
?
π
)
/
n
~
N
(
0
,
1
)
\frac{p-\pi}{\sqrt{\pi(1-\pi)/n}}\sim N(0,1)
π(1?π)/n
?p?π?~N(0,1), 所以有:
?
z
α
/
2
π
(
1
?
π
)
n
≤
p
?
π
≤
z
α
/
2
π
(
1
?
π
)
n
-z_{\alpha/2}\sqrt{\frac{\pi(1-\pi) }{n}}\leq p-\pi\leq z_{\alpha/2}\sqrt{\frac{\pi(1-\pi) }{n}}
?zα/2?nπ(1?π)?
?≤p?π≤zα/2?nπ(1?π)?
?
因為總體比例
π
\pi
π未知,,在實際計算的時候就用
p
p
p來代替:
?
z
α
/
2
p
(
1
?
p
)
n
≤
p
?
π
≤
z
α
/
2
p
(
1
?
p
)
n
-z_{\alpha/2}\sqrt{\frac{p(1-p) }{n}}\leq p-\pi\leq z_{\alpha/2}\sqrt{\frac{p(1-p) }{n}}
?zα/2?np(1?p)?
?≤p?π≤zα/2?np(1?p)?
?
所以總體比例
π
\pi
π在
1
?
α
1-\alpha
1?α的置信水平下的置信區(qū)間為
p
±
z
α
/
2
p
(
1
?
p
)
n
p\pm z_{\alpha/2}\sqrt{\frac{p(1-p) }{n}}
p±zα/2?np(1?p)?
?,。
總體方差的區(qū)間估計
對于滿足分布為
N
(
μ
,
σ
2
)
N(\mu,\sigma^2)
N(μ,σ2)的正態(tài)總體和樣本
X
1
,
X
2
,
.
.
.
X
n
X_1,X_2,...X_n
X1?,X2?,...Xn?, 樣本方差
s
2
s^2
s2的抽樣分布服從自由度為
n
?
1
n-1
n?1的卡方分布:
(
n
?
1
)
s
2
σ
2
~
χ
2
(
n
?
1
)
\frac{(n-1)s^2}{\sigma^2}\sim \chi^2(n-1)
σ2(n?1)s2?~χ2(n?1), 因此使用卡方分布來構造總體方差的置信區(qū)間。
在
1
?
α
1-\alpha
1?α置信水平下:
χ
1
?
α
/
2
2
≤
(
n
?
1
)
s
2
σ
2
≤
χ
α
/
2
2
\chi^2_{1-\alpha/2} \leq \frac{(n-1)s^2}{\sigma^2} \leq \chi^2_{\alpha/2}
χ1?α/22?≤σ2(n?1)s2?≤χα/22?
所以總體方差
σ
2
\sigma^2
σ2在在
1
?
α
1-\alpha
1?α置信水平下的置信區(qū)間為:
(
n
?
1
)
s
2
χ
1
?
α
/
2
2
≤
σ
2
≤
(
n
?
1
)
s
2
χ
α
/
2
2
\frac{(n-1)s^2}{\chi^2_{1-\alpha/2}}\leq \sigma^2 \leq \frac{(n-1)s^2}{\chi^2_{\alpha/2}}
χ1?α/22?(n?1)s2?≤σ2≤χα/22?(n?1)s2?
同理,,
χ
α
/
2
2
\chi^2_{\alpha/2}
χα/22?是卡方分布density曲線下右側的面積為
α
/
2
\alpha/2
α/2時
χ
2
\chi^2
χ2的值。當然,,因為不是對稱分布所以
χ
1
?
α
/
2
2
\chi^2_{1-\alpha/2}
χ1?α/22?不會等于
?
χ
α
/
2
2
-\chi^2_{\alpha/2}
?χα/22?,。
上面說的都是單個總體參數(shù)的區(qū)間估計,除此之外還有兩個總體參數(shù)的區(qū)間估計,。
兩個參數(shù)的區(qū)間估計
兩個總體均值之差的區(qū)間估計
又分為獨立樣本(Independent Sample)和匹配樣本(Paired Sample),。
-
獨立樣本是從兩個總體中分別抽取的兩個樣本,兩個樣本互相獨立,。比如分別獨立抽取學校A和學校B的學生樣本,,想要估計同一場考試里的數(shù)學成績平均分之差。 設總體A和總體B都是正態(tài)分布,,或不是正態(tài)分布但都是大樣本,,總體均值分別為
μ
1
,
μ
2
\mu_1,\mu_2
μ1?,μ2?,總體方差分別為
σ
1
2
,
σ
2
2
\sigma_1^2,\sigma_2^2
σ12?,σ22?,,樣本量分別為
n
1
,
n
2
n_1,n_2
n1?,n2?,, 那么兩個樣本均值之差滿足:
x
1
ˉ
?
x
2
ˉ
~
N
(
μ
1
?
μ
2
,
σ
1
2
n
1
+
σ
2
2
n
2
)
\bar{x_1}-\bar{x_2}\sim N(\mu_1-\mu_2, \frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})
x1?ˉ??x2?ˉ?~N(μ1??μ2?,n1?σ12??+n2?σ22??) 在
1
?
α
1-\alpha
1?α置信水平下,總體均值之差的置信區(qū)間為
(
x
1
ˉ
?
x
2
ˉ
)
±
z
α
/
2
σ
1
2
n
1
+
σ
2
2
n
2
(\bar{x_1}-\bar{x_2})\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}
(x1?ˉ??x2?ˉ?)±zα/2?n1?σ12??+n2?σ22??
? 而在小樣本,,正態(tài)分布,,但方差未知的情況下,需要用到樣本方差
s
1
2
,
s
2
2
s_1^2,s_2^2
s12?,s22?, 又有兩種情況:
-
總體方差未知但相等:
σ
1
2
=
σ
2
2
\sigma_1^2=\sigma_2^2
σ12?=σ22? 在
1
?
α
1-\alpha
1?α置信水平下,,總體均值之差的置信區(qū)間為
(
x
1
ˉ
?
x
2
ˉ
)
±
t
α
/
2
(
n
1
+
n
2
?
2
)
s
p
2
(
1
n
1
+
1
n
2
)
(\bar{x_1}-\bar{x_2})\pm t_{\alpha/2}(n_1+n_2-2)\sqrt{s_p^2(\frac{1}{n_1}+\frac{1}{n_2})}
(x1?ˉ??x2?ˉ?)±tα/2?(n1?+n2??2)sp2?(n1?1?+n2?1?)
?,
s
p
2
=
(
n
1
?
1
)
s
1
2
+
(
n
2
?
1
)
s
2
2
n
1
+
n
2
?
2
s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}
sp2?=n1?+n2??2(n1??1)s12?+(n2??1)s22?? -
總體方差未知且不相等:
σ
1
2
≠
σ
2
2
\sigma_1^2\neq\sigma_2^2
σ12??=σ22? 在
1
?
α
1-\alpha
1?α置信水平下,,總體均值之差的置信區(qū)間為
(
x
1
ˉ
?
x
2
ˉ
)
±
t
α
/
2
(
v
)
s
1
2
n
1
+
s
2
2
n
2
(\bar{x_1}-\bar{x_2})\pm t_{\alpha/2}(v)\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}
(x1?ˉ??x2?ˉ?)±tα/2?(v)n1?s12??+n2?s22??
?,
v
=
(
s
1
2
n
1
+
s
2
2
n
2
)
2
(
s
1
2
/
n
1
)
2
n
1
?
1
+
(
s
2
2
/
n
2
)
2
n
2
?
1
v=\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(s_1^2/n_1)^2}{n_1-1}+\frac{(s_2^2/n_2)^2}{n_2-1}}
v=n1??1(s12?/n1?)2?+n2??1(s22?/n2?)2?(n1?s12??+n2?s22??)2?
-
匹配樣本中,兩個樣本的對象相同,。比如抽取一個學生樣本,,想要估計上了一門課程前后考試平均分數(shù)之差。 計算方法是先算出各差值
d
i
d_i
di?,然后算出各差值的均值
d
ˉ
\bar3squ974rb
dˉ和標準差
σ
d
\sigma_d
σd?,那么在
1
?
α
1-\alpha
1?α置信水平下匹配樣本總體均值之差的置信區(qū)間為
d
ˉ
±
z
α
/
2
σ
d
n
\bar3squ974rb\pm z_{\alpha/2}\frac{\sigma_d}{\sqrt{n}}
dˉ±zα/2?n
?σd??
兩個總體比例之差的區(qū)間估計
設兩個獨立樣本的樣本比例分別為
p
1
p_1
p1?和
p
2
p_2
p2?, 總體比例分別為
π
1
\pi_1
π1?和
π
2
\pi_2
π2?,,那么在
1
?
α
1-\alpha
1?α置信水平下兩個獨立樣本總體比例之差的置信區(qū)間為
(
p
1
?
p
2
)
±
z
α
/
2
p
1
(
1
?
p
1
)
n
1
+
p
2
(
1
?
p
2
)
n
2
(p_1-p_2)\pm z_{\alpha/2}\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}
(p1??p2?)±zα/2?n1?p1?(1?p1?)?+n2?p2?(1?p2?)?
?
兩個總體方差之比的區(qū)間估計
注意樣本方差滿足卡方分布,,兩個卡方分布之比是F分布,,那么樣本方差之比就是F分布了。
設兩個獨立樣本的樣本方差分別為
s
1
2
s_1^2
s12?和
s
2
2
s_2^2
s22?, 總體方差分別為
σ
1
2
\sigma_1^2
σ12?和
σ
2
2
\sigma_2^2
σ22?,,樣本方差之比
s
1
2
/
s
2
2
s_1^2/s_2^2
s12?/s22?的抽樣分布服從自由度為
n
1
?
1
,
n
2
?
1
n_1-1,n_2-1
n1??1,n2??1的F分布:
s
1
2
s
2
2
×
σ
1
2
σ
2
2
~
F
(
n
1
?
1
,
n
2
?
1
)
\frac{s_1^2}{s_2^2}\times \frac{\sigma_1^2}{\sigma_2^2}\sim F(n_1-1,n_2-1)
s22?s12??×σ22?σ12??~F(n1??1,n2??1), 因此使用F分布來構造總體方差之比的置信區(qū)間,。
在
1
?
α
1-\alpha
1?α置信水平下
F
1
?
α
/
2
≤
s
1
2
s
2
2
×
σ
1
2
σ
2
2
≤
F
α
/
2
F_{1-\alpha/2} \leq \frac{s_1^2}{s_2^2}\times \frac{\sigma_1^2}{\sigma_2^2} \leq F_{\alpha/2}
F1?α/2?≤s22?s12??×σ22?σ12??≤Fα/2?
所以在
1
?
α
1-\alpha
1?α置信水平下,總體方差之比的置信區(qū)間為
s
1
2
/
s
2
2
F
1
?
α
/
2
≤
s
1
2
s
2
2
≤
s
1
2
/
s
2
2
F
α
/
2
\frac{s_1^2/s_2^2 }{F_{1-\alpha/2}}\leq \frac{s_1^2}{s_2^2} \leq \frac{s_1^2/s_2^2 }{F_{\alpha/2}}
F1?α/2?s12?/s22??≤s22?s12??≤Fα/2?s12?/s22??
|