1,什么是頻數(shù)分布 頻數(shù)也稱“次數(shù)”,對總數(shù)據(jù)按某種標(biāo)準(zhǔn)進(jìn)行分組,,統(tǒng)計出各個組內(nèi)含個體的個數(shù),。我們把各個類別及其相應(yīng)的頻數(shù)全部列出來就是“頻數(shù)分布”或稱“次數(shù)分布”。 頻數(shù)分布的類型 在日常生活和經(jīng)濟(jì)管理中,常見的頻數(shù)分布曲線主要有正態(tài)分布(對稱分布)、偏態(tài)分布(skewed distribution)、J形分布,、U形分布等幾種類型,如下圖所示: 正態(tài)分布是一種對稱的鐘形分布,,有很多現(xiàn)象服從這種分布,,如農(nóng)作物的單位面積產(chǎn)量、零件的公差,、纖維強(qiáng)度等都服從正態(tài)分布,,如圖(a)。J形分布有正J形和反J形兩種,,如經(jīng)濟(jì)學(xué)中供給曲線,,隨著價格的提高供給量以更快的速度增加,,呈現(xiàn)為正J形;而需求曲線則表現(xiàn)為隨著價格的提高需求量以較快的速度減少,,呈現(xiàn)為反J形,。U形分布的特征是兩端的頻數(shù)分布多,中間的頻數(shù)分布少,,比如,,人和動物的死亡率分布就近似服從U形分布,因為人口中嬰幼兒和老年人的死亡率較高,,而中青年的死亡率則較低,;產(chǎn)品的故障率也有類似的分布。 頻數(shù)分布的特征 頻數(shù)分布的兩個特征:集中趨勢(central tendency)和離散趨勢(tendency of dispersion),。 1,、集中趨勢 大部分觀察值向某一數(shù)值集中的趨勢稱為集中趨勢,常用平均數(shù)指標(biāo)來表示,,各觀察值之間大小參差不齊。 2,、離散趨勢 頻數(shù)由中央位置向兩側(cè)逐漸減少,,稱離散趨勢,是個體差異所致,,可用一系列的變異指標(biāo)來反映,。 2,什么是費(fèi)雪指數(shù) 費(fèi)雪指數(shù)是美國統(tǒng)計學(xué)家歐文·費(fèi)雪((Irving·Fisher)于1911年提出的,。費(fèi)雪指數(shù)是指拉氏指數(shù)和派氏指數(shù)的幾何平均數(shù),,主要用于對指數(shù)公式的測驗,以及調(diào)和拉氏與派氏兩種指數(shù)的矛盾,,又被稱為“費(fèi)雪理想指數(shù)”,。 費(fèi)雪還提出了評價指數(shù)優(yōu)劣的三項測驗標(biāo)準(zhǔn): 1.時間互換測驗標(biāo)準(zhǔn)。報告期對基期的指數(shù)和基期對報告期的指數(shù)的乘積應(yīng)等于1,。 2.因子互換測驗標(biāo)準(zhǔn),。物價指數(shù)和特量指數(shù)的乘積應(yīng)等于其總量指數(shù)。 3.循環(huán)測驗標(biāo)準(zhǔn),。環(huán)比指數(shù)的乘積等于相應(yīng)的定基指數(shù),。 極少的綜合指數(shù)能夠通過費(fèi)雪提出的測驗標(biāo)準(zhǔn),而費(fèi)雪提出幾何平均的指數(shù)公式可以通過前兩項測驗,,因此費(fèi)雪將其稱為理想公式,。 費(fèi)雪指數(shù)的公式 其價格指數(shù)和物量指數(shù)公式如下: 價格指數(shù): 物量指數(shù): 費(fèi)雪的價格指數(shù)在一些國際對比應(yīng)用較多。例如不少國家人均國民生產(chǎn)總值,,就是借用價格指數(shù),,運(yùn)用貨幣購買力平價指數(shù)法計算的,;又如聯(lián)合國編制的地域差別生活費(fèi)指數(shù),也采用了價格指,。 3,,什么是區(qū)間估計 區(qū)間估計就是以一定的概率保證估計包含總體參數(shù)的一個值域,即根據(jù)樣本指標(biāo)和抽樣平均誤差推斷總體指標(biāo)的可能范圍,。它包括兩部分內(nèi)容:一是這一可能范圍的大?。欢强傮w指標(biāo)落在這個可能范圍內(nèi)的概率,。區(qū)間估計既說清估計結(jié)果的準(zhǔn)確程度,,又同時表明這個估計結(jié)果的可靠程度,所以區(qū)間估計是比較科學(xué)的,。 用樣本指標(biāo)來估計總體指標(biāo),,要達(dá)到100%的準(zhǔn)確而沒有任何誤差,幾乎是不可能的,,所以在估計總體指標(biāo)時就必須同時考慮估計誤差的大小,。從人們的主觀愿望上看,總是希望花較少的錢取得較好的效果,,也就是說希望調(diào)查費(fèi)用和調(diào)查誤差越小越好,。但是,在其他條件不變的情況下,,縮小抽樣誤差就意味著增加調(diào)查費(fèi)用,,它們是一對矛盾。因此,,在進(jìn)行抽樣調(diào)查時,,應(yīng)該根據(jù)研究目的和任務(wù)以及研究對象的標(biāo)志變異程度,科學(xué)確定答應(yīng)的誤差范圍,。 區(qū)間估計必須同時具備三個要素,。即具備估計值、抽樣極限誤差和概率保證程度三個基本要素,。 抽樣誤差范圍決定抽樣估計的準(zhǔn)確性,,概率保證程度決定抽樣估計的可靠性,二者密切聯(lián)系,,但同時又是一對矛盾,,所以,對估計的精確度和可靠性的要求應(yīng)慎重考慮,。 區(qū)間估計的方法 在實際抽樣調(diào)查中,,區(qū)間估計根據(jù)給定的條件不同,有兩種估計方法:①給定極限誤差,要求對總體指標(biāo)做出區(qū)間估計,;②給定概率保證程度,,要求對總體指標(biāo)做出區(qū)間估計。 例1:某企業(yè)對某批電子元件進(jìn)行檢驗,,隨機(jī)抽取100只,,測得平均耐用時間為1000小時,標(biāo)準(zhǔn)差為50小時,,合格率為94%,,求: (1)以耐用時間的答應(yīng)誤差范圍Δx=10小時,估計該批產(chǎn)品平均耐用時間的區(qū)間及其概率保證程度,。 (2)以合格率估計的誤差范圍不超過2.45%,,估計該批產(chǎn)品合格率的區(qū)間及其概率保證程度。 (3)試以95%的概率保證程度,,對該批產(chǎn)品的平均耐用時間做出區(qū)間估計,。 (4)試以95%的概率保證程度,對該批產(chǎn)品的合格率做出區(qū)間估計,。 求(1)的計算步驟: ①求樣本指標(biāo):
②根據(jù)給定的Δx=10小時,,計算總體平均數(shù)的上、下限:
③根據(jù)t=Δx/μx=10/5=2,,查概率表得F(t)=95.45% 由以上計算結(jié)果,,估計該批產(chǎn)品的平均耐用時間在990~1010小時之間,有95.45%的概率保證程度,。 求(2)的計算步驟: ①求樣本指標(biāo):
②根據(jù)給定的Δp=2.45%,,求總體合格率的上,、下限:
③根據(jù)t=Δp /μp=2.45%/2.38%=1.03,,查概率表得F(t)=69.70% 由以上計算結(jié)果,估計該批產(chǎn)品的合格率在91.55%~96.45%之間,,有69.70%的概率保證程度,。 解:求(3)的計算步驟: ①求樣本指標(biāo):
②根據(jù)給定的F(t)=95%,查概率表得t=1.96,。 ③根據(jù)Δx=t×μx=1.96×5=9.8,,計算總體平均耐用時間的上、下限:
所以,,以95%的概率保證程度估計該批產(chǎn)品的平均耐用時間在990.2~1009.8小時之間,。 求(4)的計算步驟: ①求樣本指標(biāo):
②下限p-Δp=94%-4.6%=89.4% 上限p+Δp=94%+4.6%=98.6%。 所以,,以95%的概率保證程度估計該批產(chǎn)品的合格率在89.4%~98.6%之間,。 (一)當(dāng)%26sigma;2已知時,求μ的置信區(qū)間 例2:某種零件的長度服從正態(tài)分布,,從該批產(chǎn)品中隨機(jī)抽取9件,,測得它們的平均長度為21.4毫米,,已知總體標(biāo)準(zhǔn)差為%26sigma; = 0.15毫米,試建立該種零件平均長度的置信區(qū)間,,假定給定置信水平為0.95,。 解:已知X~N(μ,0.152),, ,,n=9,1-α=0.95,,因為 ~N(0,1) 所以對于給定的置信水平0.95,,有 。 當(dāng)α=0.05時,,Uα/2=1.96,,于是有 即總體均值的置信區(qū)間為[21.302,21.498],。 我們有95%的概率保證該種零件的平均長度在21.302毫米和21.498毫米之間,。 例3:某保險公司自投保人中隨機(jī)抽取36人,計算出此36人的平均年齡 =39.5歲,,已知投保人年齡分布近似正態(tài)分布,,標(biāo)準(zhǔn)差為7.2歲,試求所有投保人平均年齡的置信區(qū)間(1-α=99%),。 解:已知,,X~N(μ,7.22),, 歲,,n=36,1-α=0.99,,則 當(dāng)α=0.01,,有U%26alpha; / 2 = U0.01 / 2 = U0.005 = 2.575,所以 ,,即總體的置信區(qū)間為[36.41,,42.59]。有99%的把握保證投保人的平均年齡在36~42歲之間,。 (二)當(dāng) 2未知時,,求μ的置信區(qū)間 不知道總體方差時,一個很自然的想法是用樣本方差來代替,,這時,,需要考慮的問題是,用樣本方差代替總體方差后,統(tǒng)計量 服從的是什么分布,,以下定理給出了統(tǒng)計量T的分布形式,。 定理 設(shè) (n≥2)是來自總體N(μ,%26sigma;2)的一個樣本,,則 ~t(n-1) t分布具有如下特性: 1,、t分布與標(biāo)準(zhǔn)正態(tài)分布相似,是以x=0為對稱軸的鐘形對稱分布,,取值范圍是(-∞,,+∞),但是t分布的方差大于1,,比標(biāo)準(zhǔn)正態(tài)分布的方差大,,所以從分布曲線看,t分布的曲線較標(biāo)準(zhǔn)正態(tài)分布平緩,。 2,、t分布的密度函數(shù)為 t分布的密度函數(shù)中只有一個參數(shù),稱為自由度,。假如隨機(jī)變量X具有以上形式的分布密度,,則稱X服從自由度為n的t分布,記為X~t(n),。隨著自由度的增大,,t分布的變異程度逐漸減小,其方差逐漸接近1,,當(dāng)n→∞時,,t分布成為正態(tài)分布。 3,、隨機(jī)變量X落在某一區(qū)域內(nèi)的概率,,等于t分布曲線下,相應(yīng)區(qū)域的面積,,對于不同的n,,同樣的區(qū)域下的概率不同,。如n=10,,X落入[-1.372,+1.372]區(qū)間的概率為0.9,,而當(dāng)n=20時,,概率為0.9所對應(yīng)的區(qū)間為[-1.325,+1.325],;當(dāng)n=30時,,概率為0.9所對應(yīng)的區(qū)間為[-1.31,+1.31]。 關(guān)于t分布的特性就討論到此,,現(xiàn)在回到如何應(yīng)用t分布求解置信區(qū)間的問題,,既然定理已經(jīng)證實了統(tǒng)計量 服從n-1個自由度的t分布,則對于給定的顯著性水平α,,不難找出t%26alpha; / 2(n %26minus; 1),,使得 。于是得到以1-α置信水平保證的置信區(qū)間 例4:某研究機(jī)構(gòu)進(jìn)行了一項調(diào)查來估計吸煙者一月花在抽煙上的平均支出,,假定吸煙者買煙的月支出近似服從正態(tài)分布,。該機(jī)構(gòu)隨機(jī)抽取了容量為26的樣本進(jìn)行調(diào)查,得到樣本平均數(shù)為80元,,樣本標(biāo)準(zhǔn)差為20元,,試以95%的把握估計全部吸煙者月均煙錢支出的置信區(qū)間。 解:已知 =80,,S=20,,n=26,1-α=0.95 由于不知道總體方差,,所以用樣本方差代替,。因為 根據(jù)α=0.05,查閱t分布表得,,t0.05 / 2(25)=2.06,。 所以有 ={80-2.06(3.92)%26lt;μ%26lt;80+2.06(3.92)}=0.95,即總體的置信區(qū)間為[71.92,,88.08],。 有95%的把握認(rèn)為吸煙者月均煙錢支出在71.92元到88.08元之間。 (三)單個非正態(tài)總體或總體分布未知,,求U的置信區(qū)間 當(dāng)總體為非正態(tài)分布,,或不知總體的分布形式時,只要知道總體方差,,則根據(jù)Lindeberg-Levy的中心極限定理,,當(dāng)n很大時,統(tǒng)計量 就近似服從標(biāo)準(zhǔn)正態(tài)分布,,經(jīng)驗上,,n%26gt;30就可以認(rèn)為是大樣本了。 例5:設(shè)某金融機(jī)構(gòu)共有8042張應(yīng)收賬款單,,根據(jù)過去記錄,,所有應(yīng)收賬款的標(biāo)準(zhǔn)差為3033.4元。現(xiàn)隨機(jī)抽查了250張應(yīng)收款單,,得平均應(yīng)收款為3319元,,求98%置信水平的平均應(yīng)收款,。 解:已知 =3319元,n=250%26gt;30,,1-α=0.98,,%26sigma;=3033.4 因為 近似服從標(biāo)準(zhǔn)正態(tài)分布,U%26alpha; / 2 = U0.02 / 2 = 2.33,,則總體均值的置信區(qū)間為
根據(jù)調(diào)查結(jié)果,,我們有98%的把握認(rèn)為全部賬單的平均金額至少為2871.99元,至多為3766元,。 以上例題雖然不知總體分布形式,,但總體的方差是已知的,而在實際中往往并不知道總體的方差,,在實際應(yīng)用中,,只要是大樣本,則仍然可以用樣本方差代替統(tǒng)計量η中的總體方差,,并以標(biāo)準(zhǔn)正態(tài)分布近似作為統(tǒng)計量η的抽樣分布,。 例6:某地區(qū)抽查了400戶農(nóng)民家庭的人均化纖布的消費(fèi)量,得到平均值為3.3米,,標(biāo)準(zhǔn)差為0.9米,,試以95%的置信水平估計該地區(qū)農(nóng)民家庭人均化纖布的消費(fèi)量。 解:因為n=400是大樣本,,則有
置們區(qū)間為[3.204,,3.396]。 所以,,有95%的把握認(rèn)為該地區(qū)農(nóng)民化纖布的消費(fèi)量在3.204米至3.396米之間,。 4,什么是點估計 點估計也稱定值估計,,它是以抽樣得到的樣本指標(biāo)作為總體指標(biāo)的估計量,,并以樣本指標(biāo)的實際值直接作為總體未知參數(shù)的估計值的一種推斷方法。 點估計的方法 點估計的方法有矩估計法,、順序統(tǒng)計量法,、最大似然法、最小二乘法等,。這里僅介紹最為簡單,、直觀又常用的矩估計法。 在統(tǒng)計學(xué)中,,矩是指以期望為基礎(chǔ)而定義的數(shù)字特征,,一般分為原點矩和中心矩,。 設(shè)X為隨機(jī)變量,,對任意正整數(shù)k,,稱E(Xk)為隨機(jī)變量X的k階原點矩,記為:
可見一階原點矩為隨機(jī)變量X的數(shù)學(xué)期望,。 我們把Ck = E[X ? E(X)]k稱為以E(X)為中心的k階中心矩。 顯然,,當(dāng)k=2時,, C2 = E[X ? E(X)]2 = σ2 可見二階中心矩為隨機(jī)變量X的方差。 例1:已知某種燈泡的壽命X~N(μ,σ2),,其中,,μ,σ2都是未知的,今隨機(jī)取得4只燈泡,,測得壽命(單位:小時)為1502,,1453,1367,,1650,,試估計μ和σ。 解:因為μ是全體燈泡的平均壽命,, 為樣本的平均壽命,,很自然地會想到用 去估計μ;同理用S去估計 ,。由于
故μ及σ的估計值分別為1493小時及118.61小時,。 矩估計法簡便、直觀,,比較常用,,但是矩估計法也有其局限性。首先,,它要求總體的k階原點矩存在,,若不存在則無法估計;其次,,矩估計法不能充分地利用估計時已掌握的有關(guān)總體分布形式的信息,。 通常設(shè)θ為總體X的待估計參數(shù),一般用樣本 構(gòu)成一個統(tǒng)計量 來估計θ則稱 為θ的估計量,。對于樣本的一組數(shù)值 ,,估計量 的值 稱θ的估計值。于是點估計即是尋求一個作為待估計參數(shù)θ的估計量 的問題,。但是必須注意,,對于樣本的不同數(shù)值,估計值是不相同的,。 如在例中,,我們分別用樣本平均數(shù)和樣本修正方差來估計總體數(shù)學(xué)期望和總體均方差,,即有: 其對應(yīng)于給定的估計值 小時, 小時,。[1] 點估計的優(yōu)良性準(zhǔn)則 樣本統(tǒng)計量,,如樣本均值 ,樣本標(biāo)準(zhǔn)差S,,樣本成數(shù)如何用于對相應(yīng)總體參數(shù)μ,、σ和p的點估計值。直觀上,,這些樣本統(tǒng)計量對相應(yīng)總體參數(shù)的點估計值是很有吸引力的,。然而,在用一個樣本統(tǒng)計量作為點估計量之前,,統(tǒng)計學(xué)應(yīng)檢驗說明這些樣本統(tǒng)計量是否具有某些與好的點估計量相聯(lián)系的性質(zhì),。本節(jié)我們討論好的點估計量的性質(zhì):無偏性、有效性和一致性,。 由于有許多不同的樣本統(tǒng)計量用作總體不同參數(shù)的點估計量,,本節(jié)我們采用如下的一般記號。
θ代表一總體的參數(shù),,如總體均值,、總體標(biāo)準(zhǔn)差和總體比率等等; 代表相應(yīng)的樣本統(tǒng)計量,,如樣本均值,、樣本標(biāo)準(zhǔn)差和樣本比率。 1,、無偏性 如果樣本統(tǒng)計量的數(shù)學(xué)期望等于所估計的總體參數(shù)的值,,該樣本統(tǒng)計量稱作總體參數(shù)的無偏估計量。無偏性的定義如下: 如果 則稱樣本統(tǒng)計量 是總體參數(shù)θ的無偏估計,。 式中 ——樣本統(tǒng)計量 的數(shù)學(xué)期望 因此,,樣本無偏統(tǒng)計量的所有可能值的期望值或均值等于被估計的總體參數(shù)。 2,、有效性 假定含n個元素的一個簡單隨機(jī)樣本用于給出同一總體參數(shù)的兩個不同的無偏點估計量,。這時,我們偏好于用標(biāo)準(zhǔn)差較小的點估計量,,因為它給出的估計值與總體參數(shù)更接近,。有較小標(biāo)準(zhǔn)差的點估計量稱作比其他點估計量有更好的相對效率。 3,、一致性 與一個好的點估計相聯(lián)系的第三個性質(zhì)為一致性,。粗略地講,如果當(dāng)樣本容量更大時,,點估計量的值更接近于總體參數(shù),,該點估計量是一致的,。換言之,大樣本比小樣本趨于接進(jìn)一個更好的點估計,。注意到對樣本均值 ,,我們證明標(biāo)準(zhǔn)差 ,。由于 與樣本容量相關(guān),,較大的樣本容量得到的\sigma_{\bar{x}}的值更小,我們得出大樣本容量趨于給出的點估計更接近于總體均值μ,。在這個意義上,,我們可以說樣本均值是總體均值μ的一個一致估計量。 但由于在實際抽樣調(diào)查中一次只是隨機(jī)抽取一個樣本,,導(dǎo)致估計值會因樣本的不同而不同,,甚至產(chǎn)生很大的差異。所以說,,點估計是一種的估計或推斷,,其缺點是既沒有解決參數(shù)估計的精確問題,也沒有考慮估計的可靠性程度,,只有區(qū)間估計才能解決這兩個問題,。不過,由于點估計直觀,、簡單,,對于那些要求不太高的判斷和分析,可以使用此種方法,。 5,,什么是單線性相關(guān)分析 單線性相關(guān)分析是指對呈現(xiàn)線性相關(guān)關(guān)系的兩個變量之間相關(guān)關(guān)系的分析與研究。 單線性相關(guān)分析的特點 單線性相關(guān)分析具有如下特點: 1,、所研究的兩個變量是對等關(guān)系,,不反映任何自變量和因變量的關(guān)系。 2,、對兩個變量X和Y來說,,相關(guān)分析只能計算出一個反映兩個變量間相關(guān)關(guān)系密切程度的相關(guān)系數(shù),計算中改變X和Y的位置,,并不影響相關(guān)系數(shù)的數(shù)值,。 3、相關(guān)系數(shù)的正,、負(fù)號,,反映相關(guān)關(guān)系的方向。正號表示正相關(guān),,負(fù)號表示負(fù)相關(guān),。 4,、相關(guān)分析的資料是抽樣取得的樣本資料,因而相關(guān)的兩個變量都是隨機(jī)的,。 6,,什么是方差分析 方差分析(ANOVA)又稱“變異數(shù)分析”或“F檢驗”,是R.A.Fister發(fā)明的,,用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗,。 由于各種因素的影響,研究所得的數(shù)據(jù)呈現(xiàn)波動狀,。造成波動的原因可分成兩類,,一是不可控的隨機(jī)因素,另一是研究中施加的對結(jié)果形成影響的可控因素,。 一個復(fù)雜的事物,,其中往往有許多因素互相制約又互相依存。方差分析的目的是通過數(shù)據(jù)分析找出對該事物有顯著影響的因素,,各因素之間的交互作用,,以及顯著影響因素的最佳水平等。方差分析是在可比較的數(shù)組中,,把數(shù)據(jù)間的總的“變差”按各指定的變差來源進(jìn)行分解的一種技術(shù),。對變差的度量,采用離差平方和,。方差分析方法就是從總離差平方和分解出可追溯到指定來源的部分離差平方和,,這是一個很重要的思想。 經(jīng)過方差分析若拒絕了檢驗假設(shè),,只能說明多個樣本總體均數(shù)不相等或不全相等,。若要得到各組均數(shù)間更詳細(xì)的信息,應(yīng)在方差分析的基礎(chǔ)上進(jìn)行多個樣本均數(shù)的兩兩比較,。 1,、多個樣本均數(shù)間兩兩比較 多個樣本均數(shù)間兩兩比較常用q檢驗的方法,即Newman-kueuls法,,其基本步驟為:建立檢驗假設(shè)-->樣本均數(shù)排序-->計算q值-->查q界值表判斷結(jié)果,。 2、多個實驗組與一個對照組均數(shù)間兩兩比較 多個實驗組與一個對照組均數(shù)間兩兩比較,,若目的是減小第II類錯誤,,最好選用最小顯著差法(LSD法);若目的是減小第I類錯誤,,最好選用新復(fù)極差法,,前者查t界值表,后者查q'界值表。 方差分析的基本思想 基本思想:通過分析研究中不同來源的變異對總變異的貢獻(xiàn)大小,,從而確定可控因素對研究結(jié)果影響力的大小,。 下面我們用一個簡單的例子來說明方差分析的基本思想: 如某克山病區(qū)測得11例克山病患者和13名健康人的血磷值(mmol/L)如下:
問該地克山病患者與健康人的血磷值是否不同? 從以上資料可以看出,,24個患者與健康人的血磷值各不相同,,如果用離均差平方和(SS)描述其圍繞總均數(shù)的變異情況,則總變異有以下兩個來源:
而且:SS總=SS組間+SS組內(nèi) v總=v組間+v組內(nèi) 如果用均方(即自由度v去除離均差平方和的商)代替離均差平方和以消除各組樣本數(shù)不同的影響,,則方差分析就是用組內(nèi)均方去除組間均方的商(即F值)與1相比較,,若F值接近1,,則說明各組均數(shù)間的差異沒有統(tǒng)計學(xué)意義,若F值遠(yuǎn)大于1,,則說明各組均數(shù)間的差異有統(tǒng)計學(xué)意義,。實際應(yīng)用中檢驗假設(shè)成立條件下F值大于特定值的概率可通過查閱F界值表(方差分析用)獲得。 方差分析的應(yīng)用條件 應(yīng)用方差分析對資料進(jìn)行統(tǒng)計推斷之前應(yīng)注意其使用條件,,包括: 1,、可比性。若資料中各組均數(shù)本身不具可比性則不適用方差分析,。 2,、正態(tài)性。即偏態(tài)分布資料不適用方差分析,。對偏態(tài)分布的資料應(yīng)考慮用對數(shù)變換,、平方根變換、倒數(shù)變換,、平方根反正弦變換等變量變換方法變?yōu)檎龖B(tài)或接近正態(tài)后再進(jìn)行方差分析,。 3、方差齊性,。即若組間方差不齊則不適用方差分析,。多個方差的齊性檢驗可用Bartlett法,它用卡方值作為檢驗統(tǒng)計量,,結(jié)果判斷需查閱卡方界值表,。 方差分析主要用于: 1、均數(shù)差別的顯著性檢驗,; 2,、分離各有關(guān)因素并估計其對總變異的作用; 3、分析因素間的交互作用,; 4,、方差齊性檢驗。 方差分析的主要內(nèi)容 根據(jù)資料設(shè)計類型的不同,,有以下兩種方差分析的方法: 1,、對成組設(shè)計的多個樣本均數(shù)比較,應(yīng)采用完全隨機(jī)設(shè)計的方差分析,,即單因素方差分析,。 2、對隨機(jī)區(qū)組設(shè)計的多個樣本均數(shù)比較,,應(yīng)采用配伍組設(shè)計的方差分析,,即兩因素方差分析。 兩類方差分析的基本步驟相同,,只是變異的分解方式不同,,對成組設(shè)計的資料,總變異分解為組內(nèi)變異和組間變異(隨機(jī)誤差),,即:SS總=SS組間+SS組內(nèi),,而對配伍組設(shè)計的資料,總變異除了分解為處理組變異和隨機(jī)誤差外還包括配伍組變異,,即:SS總=SS處理+SS配伍+SS誤差,。整個方差分析的基本步驟如下: 1、建立檢驗假設(shè),;
檢驗水準(zhǔn)為0.05,。 2,、計算檢驗統(tǒng)計量F值; 3,、確定P值并作出推斷結(jié)果,。 6,什么是DOE DOE(Design of Experiment)試驗設(shè)計,,一種安排實驗和分析實驗數(shù)據(jù)的數(shù)理統(tǒng)計方法,;試驗設(shè)計主要對試驗進(jìn)行合理安排,以較小的試驗規(guī)模(試驗次數(shù)),、較短的試驗周期和較低的試驗成本,,獲得理想的試驗結(jié)果以及得出科學(xué)的結(jié)論。 試驗設(shè)計源于1920年代研究育種的科學(xué)家Dr.Fisher的研究, Dr. Fisher是大家一致公認(rèn)的此方法策略的創(chuàng)始者, 但后續(xù)努力集其大成, 而使DOE在工業(yè)界得以普及且發(fā)揚(yáng)光大者, 則非Dr. Taguchi (田口玄一博士) 莫屬,。 為什么需要DOE
另一方面,,過程通過數(shù)據(jù)表現(xiàn)出來的變異,,實際上來源于二部分:一部分來源于過程本身的變異,一部分來源于測量過程中產(chǎn)生的變差,,如何知道過程表現(xiàn)出來的變異有多接近過程本身真實的變異呢,?這就需要進(jìn)行MSA測量系統(tǒng)分析。 DOE實驗的基本策略 策略一:篩選主要因子(X型問題化成A型問題) 實驗成功的標(biāo)志:在ANOVA分析中出現(xiàn)了1~4個顯著因子,;這些顯著因子的累積貢獻(xiàn)率在70%以上,。 策略二:找出最佳之生產(chǎn)條件(A型問題化成 T型問題) 實驗成功的標(biāo)志:在第二階段的實驗中主要的誤差都是隨機(jī)因素造成的。 因為各因子皆不顯著,,因此,,每一因子之各項水準(zhǔn)均可使用,在此情況下豈不是達(dá)到了成本低廉且又容易控制之目的。 策略三:證實最佳生產(chǎn)條件有再現(xiàn)性,。 7,,什么是加權(quán)算術(shù)平均法,? 利用過去若干個按照發(fā)生時間順序排列起來的同一變量的觀測值并以時間順序數(shù)為權(quán)數(shù),,計算出觀測值的加權(quán)算術(shù)平均數(shù),以這一數(shù)字作為預(yù)測未來期間該變量預(yù)測值的一種趨勢預(yù)測方法,。 加權(quán)算術(shù)平均法的原理 假設(shè)用下列符號表示各有關(guān)的數(shù)值: xi 各觀測值,; wi 各觀測值的對應(yīng)權(quán)數(shù); y 加權(quán)算術(shù)平均數(shù)(即預(yù)測值),。 則加權(quán)算術(shù)平均數(shù)的計算公式如下: y=∑(xi*wi)/∑wi 加權(quán)算術(shù)平均法的意義 采用這種方法來確定預(yù)測值,,目的是為了適當(dāng)擴(kuò)大近期實際成本量對未來期間成本量預(yù)測值的影響作用。 加權(quán)移動平均法概述 加權(quán)移動平均法就是根據(jù)同一個移動段內(nèi)不同時間的數(shù)據(jù)對預(yù)測值的影響程度,,分別給予不同的權(quán)數(shù),,然后再進(jìn)行平均移動以預(yù)測未來值。 加權(quán)移動平均法不像簡單移動平均法那樣,,在計算平均值時對移動期內(nèi)的數(shù)據(jù)同等看待,,而是根據(jù)愈是近期數(shù)據(jù)對預(yù)測值影響愈大這一特點,不同地對待移動期內(nèi)的各個數(shù)據(jù),。對近期數(shù)據(jù)給予較大的權(quán)數(shù),,對較遠(yuǎn)的數(shù)據(jù)給予較小的權(quán)數(shù),這樣來彌補(bǔ)簡單移動平均法的不足,。 加權(quán)平均法的計算公式 加權(quán)平均法的計算公式如下: 式中: Yn + 1——第n+1期加權(quán)平均值,; Yi——第i期實際值; x_i——第i期的權(quán)數(shù)(權(quán)數(shù)的和等于1); n——本期數(shù),; k——移動跨期,; 用加權(quán)移動平均法求預(yù)測值,對近期的趨勢反映較敏感,,但如果一組數(shù)據(jù)有明顯的季節(jié)性影響時,,用加權(quán)移動平均法所得到的預(yù)測值可能會出現(xiàn)偏差。因此,,有明顯的季節(jié)性變化因素存在時,,最好不要加權(quán)。 簡單時間序列平滑法概述 簡單時間序列平滑法是時間序列平滑預(yù)測的基本法,。 所謂時間序列平滑預(yù)測是指用平均的方法,,把時間序列中的隨機(jī)波動剔除掉,使序列變得比較平滑,,以反映出其基本軌跡,,并結(jié)合一定的模型進(jìn)行預(yù)測。所平均的范圍可以是整個序列(整體平均數(shù)),,也可以是序列中的一部分(局部平均數(shù)),; 所用平均數(shù)可以是簡單平均數(shù),也可以是加權(quán)平均數(shù),。在一次平均之后,,就局部平均而言,還可以進(jìn)行第二次,、第三次以至更多次的平均,,進(jìn)行多層次的平滑。 所以,,平滑預(yù)測的方法也是多種多樣的,。 簡單時間序列平滑法是指用簡單平均數(shù)進(jìn)行預(yù)測的一類預(yù)測方法。當(dāng)給定一組數(shù)據(jù)或觀測值后,,這些數(shù)值的平均數(shù)的種類很多,,常見的有算術(shù)平均數(shù)、幾何平均數(shù),、調(diào)和平均數(shù),、加權(quán)算術(shù)平均數(shù)、移動平均數(shù)與指數(shù)平滑平均數(shù)等,。這些平均數(shù)各有各的計算方法,,各有各的特點與用途,在使用平均法進(jìn)行預(yù)測時,,首先要判斷使用哪一種或哪幾種能夠滿足需要,,然后再根據(jù)相應(yīng)的計算方法求之,。 由于算術(shù)平均數(shù)、幾何平均數(shù),、調(diào)和平均數(shù),、加權(quán)算術(shù)平均數(shù)的計算方法相對其余幾種來說,比較簡單,,故常稱這幾種平均數(shù)的求法為“簡單平均法”,。 簡單時間序列法的計算公式 簡單時間序列法公式: F(T+1)=(1 / N) * Σ X(I) X(I)為時間序列的第I期的實際值 F(T+1)為預(yù)測值 N為平均的個數(shù) T為預(yù)測的年份 注:時間序列周期數(shù)選3 例:1979、1980,、1981年的銷售額分別為2000,、2100、2250,,則1982年為(2000+2100+2250)/3 8,,什么是自由度 自由度,英文稱degree of freedom,,簡稱DF,是指當(dāng)以樣本的統(tǒng)計量來估計總體的參數(shù)時,,樣本中獨(dú)立或能自由變化的數(shù)據(jù)的個數(shù),通常用在抽樣分布中,。假如df=n-k,,則其中n為樣本含量,,k為被限制的條件數(shù)或變量個數(shù),。 為了方便進(jìn)一步理解自由度的概念,可參見下述范例: 例1: 估計總體的平均數(shù)( )時,由于樣本中的 個數(shù)都是相互獨(dú)立的,任一個尚未抽出的數(shù)都不受已抽出任何數(shù)值的影響,,所以自由度為 ,。 例2: 估計總體的方差( )時所使用的統(tǒng)計量是樣本的方差 ,而 必須用到樣本平均數(shù) 來計算,。 在抽樣完成后已確定,,所以大小為 的樣本中只要 個數(shù)確定了,第 個數(shù)就只有一個能使樣本符合 的數(shù)值,。也就是說,,樣本中只有 個數(shù)可以自由變化,,只要確定了這 個數(shù),,方差也就確定了,。這里,,平均數(shù) 就相當(dāng)于一個限制條件,,由于加了這個限制條件,樣本方差 的自由度為 ,。 例3: 統(tǒng)計模型的自由度等于可自由取值的自變量的個數(shù),。如在回歸方程中,,如果共有 個參數(shù)需要估計,則其中包括了 個自變量(與截距對應(yīng)的自變量是常量),。因此該回歸方程的自由度為 。 9,,什么是回歸系數(shù) 回歸系數(shù),,英文稱coefficient of regression,是指回歸分析中反應(yīng)因變量與自變量的相依程度的指標(biāo),,例如一元線性回歸方程Y=bX+a中,,b就是回歸系數(shù),表示當(dāng)自變量X變動一個單位時,其因變量Y的估計值變動的單位數(shù)。 回歸系數(shù)與相關(guān)系數(shù)的聯(lián)系: 1.對一組數(shù)據(jù)若能同時計算b和r,,它們的符號一致,。 2.b和r的假設(shè)檢驗是等價的,即對同一樣本tb=tr,。 3.用回歸可以解釋相關(guān) 回歸分析中有一個叫決定系數(shù)的指標(biāo),,它的取值是在0~1之間的,,決定系數(shù)值越接近1表明回歸的效果越好??梢宰C明,相關(guān)系數(shù)r平方等于決定系數(shù)的值,用公式記為: 10,,什么是列欄 列(欄),,英文稱column,,是伴隨統(tǒng)計表而存在的,,一個統(tǒng)計表中包含有總標(biāo)題,、列欄標(biāo)題、橫行標(biāo)題、數(shù)字資料等幾部分。 11,什么是組合表 組合表,又稱復(fù)合表,英文稱combinative table,是統(tǒng)計表的一種,,是指表的主詞按照兩個或兩個以上的標(biāo)志分組的統(tǒng)計表,有利于深入的分析比較復(fù)雜的數(shù)據(jù)情況,。例如,,下圖便是組合表的一種情形: 12,什么是因變量 因變量,英文稱dependent variable,,是指某特定的數(shù)會隨另一個(或另幾個)會變動的數(shù)的變動而變動,,就稱為因變量。如:Y=f(X)中,,Y隨X的變化而變化,。Y是因變量,X是自變量,。 從某種程度上講,,自變量是“原因”,而因變量就是“結(jié)果”,。例如,,市場上一般賣10元一斤的豬肉,因為這幾天下暴雨而漲價2元,。設(shè)定我買進(jìn)豬肉的錢是Y,, 豬肉一般的價格為10,現(xiàn)在漲價X元,。這就可以把函數(shù)式寫成:Y=10+X,。表示因為漲價的多少(X),而影響到我買進(jìn)豬肉時的錢要多少(Y),。在這 里,,X是自變量,Y是因變量,。 13,,什么是臨界值(閥值) 臨界值,又稱閥值,英文稱critical value,,是指是指一個效應(yīng)能夠產(chǎn)生的最低值或最高值,。臨界值在數(shù)據(jù)分析中常常用來判定異常情況,比如我們在廣告投放中常常設(shè)定自己的臨界值,,當(dāng)高于臨界值,,我們就假定渠道廣告造假,,需要重點盯防分析。 統(tǒng)計學(xué)中,,常使用箱形圖(Box-plot)來判定是否異常,,來判定臨界值的大小。 14,,什么是全面調(diào)查 全面調(diào)查,英文稱complete survey,,是指對調(diào)查對象中所包含的全部單位無一遺漏的調(diào)查,其主要目的在于取得總體現(xiàn)象比較全面系統(tǒng)的總量指標(biāo),。如各種普查和全面統(tǒng)計報表,。 在我國,全面調(diào)查國家統(tǒng)計系統(tǒng)和各個業(yè)務(wù)部門為了定期取得系統(tǒng)的,、全面的基本統(tǒng)計資料,,按一定的要求和表式自上而下統(tǒng)一布置,自下而上提供資料的一種統(tǒng)計調(diào)查方法,。例如人口普查、經(jīng)濟(jì)普查等都屬于全面調(diào)查的范疇,。 全面調(diào)查的特點 調(diào)查對象范圍廣,,單位多,內(nèi)容比較全面,。但一般需要耗費(fèi)大量的人力,、物力和時間。因此,,調(diào)查內(nèi)容不宜太多,,一般應(yīng)限于必須掌握的、能夠為編制與檢查國民 經(jīng)濟(jì)和社會發(fā)展計劃所必需的全社會的基本情況的指標(biāo),。應(yīng)逐步改變一切都要依靠全面統(tǒng)計報表搜集資料的習(xí)慣,,盡量采用一些非全面調(diào)查的方法。 全面調(diào)查的缺點 1.全面調(diào)查只能反映事物的一般狀況,,不利于對事物作深入細(xì)致的調(diào)查和研究,; 2.全面調(diào)查需調(diào)查總體全部單位,涉及面廣,,所需要的人力,、物力、時間都較多,,組織起來也較困難,; 3.全面調(diào)查不夠靈活; 4.全面調(diào)查的局限性,,有些只適合非全面調(diào)查,。 15,,什么是組距 組距,英文稱class interval,是指一組數(shù)據(jù)中最高數(shù)值與最低數(shù)值之間的距離,組距的大小和標(biāo)志變量數(shù)列的全距大小成正比變化,,與組數(shù)多少成反比變化,。 計算公式: n=1+3.322lgN 關(guān)于組距分組: 組距分組是將全部變量值依次劃分為若干個區(qū)間,并將這一區(qū)間的變量值作為一組,。組距分組是數(shù)值型數(shù)據(jù)分組的基本形式,。 在組距分組中,各組之間的取值界限稱為組限,,一個組的最小值稱為下限,,最大值稱為上限;上限與下限的差值稱為組距,;上限與下限值的平均數(shù)稱為組中值,,它是一組變量值的代表值。 16,,什么是集中趨勢 集中趨勢,,英文稱central tendency,,是指一組數(shù)據(jù)向某一中心值靠攏的程度,,它反映了一組數(shù)據(jù)中心點的位置所在。其在中心附近的觀察值數(shù)目較多,,遠(yuǎn)離中心的較少,,常常可用平均數(shù),、眾數(shù),、中位數(shù)等統(tǒng)計指標(biāo)來表示。 當(dāng)一組數(shù)據(jù)分布不呈集中趨勢時,,用平均數(shù)來反應(yīng)其整體情況往往是不合理的,,比如平均工資,平均房價等 17,,什么是百分位數(shù) 百分位數(shù)又稱百分位分?jǐn)?shù)(percentile),,是一種相對地位量數(shù),它是次數(shù)分布中的一個點,。把一個次數(shù)分布排序后,,分為100個單位,百分位數(shù) 就是次數(shù)分布中相對于某個特定百分點的原始分?jǐn)?shù),,它表明在次數(shù)分布中特定個案百分比低于該分?jǐn)?shù),。百分位數(shù)用P加下標(biāo)m(特定百分點)表示。譬如,,若P30 等于60,,則其表明在該次數(shù)分布中有30%的個案低于60分,。 百分位數(shù)的應(yīng)用 百分位數(shù)用于描述一組數(shù)據(jù)某一百分位置的水平,多個百分位數(shù)結(jié)合應(yīng)用,,可全面描述一組觀察值的分布特征,;百分位數(shù)還可用于確定非正態(tài)分布資料的醫(yī)學(xué)參考值范圍。但應(yīng)用百分位數(shù)時,,樣本含量要足夠大,,否則不宜取太靠近兩端的百分位數(shù)。 百分位數(shù)的計算 其中,,Pm——第m百分位數(shù),; L——Pm所在組的組實下限; U——Pm所在組的組實上限,; f——Pm所在組的次數(shù),; Fb——小于L的累積次數(shù); Fa——大于U的累積次數(shù),。 【例1】某省某年公務(wù)員考試考生分?jǐn)?shù)分布如下表所示,,預(yù)定取考分居前15%的考生進(jìn)行面試選拔,請劃定面試分?jǐn)?shù)線,。
解:由于預(yù)定取考分居前15%的考生進(jìn)行面試,,即有85%的考生分?jǐn)?shù)低于劃定的分?jǐn)?shù)線,由此可知,,分?jǐn)?shù)線在70~74這一組中。 【例2】對于考試成績的統(tǒng)計,,如果您的成績處在95的百分位數(shù)上,,則意味著95%的參加考試者得到了和您一樣的考分或還要低的考分,而不是您答對了 95%的試題,。也許您只答對了20%,,即使如此,您取得的成績也與95%的參加考試者一樣好,,或者比95%的參加考試者更好[2],。 【例3】假設(shè)想為退休存夠錢??蓜?chuàng)建一個包括所有不確定變量的模型,,如投資年回報率、通貨膨脹,、退休時的開支等,,得到概率分布的結(jié)果如下圖所示,如果選擇平均值,,錢不夠的概率就會有50%,。所以選第90百分位數(shù)所對應(yīng)的投資數(shù),,這樣錢不夠的概率將只有10%。 18,,什么是完全相關(guān) 完全相關(guān),,英文稱completely correlation,是指兩列變量的關(guān)系是一一對應(yīng),,完全確立的關(guān)系,。在坐標(biāo)軸上描繪兩列變量時會形成一條直線。通常,,當(dāng)兩個變量的相關(guān)系數(shù)為1時,,也被視為完全相關(guān)。 所謂相關(guān),,是指兩個或兩個以上變量間相互關(guān)系是否密切,。相關(guān)分析僅限于測定兩個或兩個以上變量具有相關(guān)關(guān)系者,其主要目的是計算出兩個或兩個以上變量間的相關(guān)程度和性質(zhì),。 如果一個變量的變化是由其他變量的數(shù)量變化所唯一確定,,此時變量間的關(guān)系就是完全相關(guān)。即因變量y的數(shù)值完全隨自變量x的變動而變動,,它在相關(guān)圖上表現(xiàn)為所有的觀察點都落在同一條直線上,,這種情況下,相關(guān)關(guān)系實際上是函數(shù)關(guān)系,。所以,,函數(shù)關(guān)系是相關(guān)關(guān)系的一種特殊情況。 19,,什么是統(tǒng)計決策理論 統(tǒng)計決策理論的概述 統(tǒng)計決策理論是由統(tǒng)計學(xué)家A.瓦爾德在1950年提出的一種數(shù)理統(tǒng)計學(xué)的理論,,這種理論把數(shù)理統(tǒng)計問題看成是統(tǒng)計學(xué)家與大自然之間的博弈;用這種觀點把各種各樣的統(tǒng)計問題統(tǒng)一起來,,以對策論的觀點來研究,。在此以前,人們對數(shù)理統(tǒng)計,,主要是著眼于其推斷的功能,,亦即從觀測數(shù)據(jù)出發(fā)對總體作出某種論斷。至于由此應(yīng)該采取什么決策或行動,,會產(chǎn)生什么后果,,則被認(rèn)為不屬于統(tǒng)計的范疇。瓦爾德的理論則把后面這一部分內(nèi)容也納入統(tǒng)計的范圍之內(nèi),,這在數(shù)理統(tǒng)計學(xué)上是一項革新,,有較大的實際意義。 在一個統(tǒng)計問題中,,統(tǒng)計工作者掌握的資料是樣本X =(x1,x2…,xn),X所來自的總體的分布Fθ中包含的參數(shù)θ為未知,而只知道θ所屬的集合Θ(Θ為θ所有可能取值的集合,,稱為參數(shù)空間),。但是,采取什么決策最好,,則取決于未知的θ值,。用形象化的說法,θ是由大自然在參數(shù)空間中選定的,,人們力圖去找到它,。大自然掌握了θ的秘密,而這個秘密又通過樣本泄露出來,統(tǒng)計工作者的任務(wù)就是根據(jù)樣本 X中所包含的關(guān)于θ的信息,去作出良好的決策,。例如,,一家商店根據(jù)抽樣決定是否接受一批來貨,一個工廠根據(jù)市場調(diào)查的結(jié)果決定某種產(chǎn)品生產(chǎn)多少等,希望所采取的行動取得盡可能好的效果,或者說,,使“行動不當(dāng)”所造成的損失盡可能小,。 統(tǒng)計決策三要素 可以通過三個要素把一個統(tǒng)計決策問題表達(dá)出來。 ① 樣本空間H與樣本分布族{Fθ:θ∈Θ}這個要素規(guī)定了問題的概率模型,。樣本空間是樣本可能的取值范圍,,而樣本分布族是樣本所可能遵從的分布的集合。 ② 行動空間A 它是統(tǒng)計工作者可以采取的單純策略(或稱行動)的集合,。例如,,設(shè)θ為一維參數(shù),要對θ作區(qū)間估計,,則實軸上任一區(qū)間[a,b]構(gòu)成一個單純策略,,這時行動空間為所有[a,b]構(gòu)成的集合,即{[a,b]:-∞<><> ③ 損失函數(shù)L 統(tǒng)計決策理論有一個基本出發(fā)點:所采取的行動的后果可以數(shù)量化。設(shè)參數(shù)真值為θ,,統(tǒng)計工作者采取的行動為a,,則所遭受的損失可表為a與θ的函數(shù)L(θ, a),稱之為損失函數(shù),。在一個具體問題中,采取什么損失函數(shù)最好,是一個需要進(jìn)行大量調(diào)查研究以至理論工作的問題,,這也是在使用決策理論時的一個困難點,。 統(tǒng)計決策函數(shù) 當(dāng)三個要素都已給定時,統(tǒng)計工作者采取什么行動,,取決于他所掌握的樣本,。求一個統(tǒng)計決策問題的解,就是制定一個規(guī)則,,以便對樣本空間中每一點,,在行動空間中都有一個元素與之對應(yīng),也就是找一個定義于樣本空間H,而取值于行動空間A的函數(shù)或分布函數(shù)δ,,當(dāng)有了樣本 X,,就按δ采取行動,,稱δ為決策函數(shù)。用對策論的語言,δ就是統(tǒng)計工作者所采取的策略,。 選擇決策函數(shù)的準(zhǔn)則 對一個統(tǒng)計決策問題,,為選定一個較優(yōu)的決策函數(shù),需要建立反映決策函數(shù)優(yōu)劣的指標(biāo),。風(fēng)險函數(shù)R(θ,δ)就是這樣的指標(biāo),定義為R(θ,δ)=Eθ [L(θ,,δ(X)],即采取決策函數(shù)δ而參數(shù)真值為θ時所遭受的平均損失,。風(fēng)險函數(shù)愈小,,決策函數(shù)愈好。在這個原則下,,可以引進(jìn)種種更具體且可行的準(zhǔn)則,。 ① 容許性準(zhǔn)則 設(shè)δ為一決策函數(shù),若存在另一決策函數(shù)δ,,使對一切θ∈有R(θ,δ)≤R(θ,δ),且不等號至少在Fθ中的某一點成立,則稱δ為不可容許的,,否則為可容許的。從風(fēng)險愈小愈好的原則出發(fā),當(dāng)δ不可容許時,,便沒有理由使用它,。判定一個決策函數(shù)是否可容許,是統(tǒng)計決策理論中一個重要而且困難的問題,。在風(fēng)險函數(shù)愈小愈好的原則下,,若存在決策函數(shù)δ0,對一切θ∈必成立R(θ,δ0)≤R(θ,δ),,其中δ為任一決策函數(shù),,則δ0是最好的決策函數(shù),稱為一致最優(yōu)決策函數(shù),。但這種決策函數(shù)一般不存在,,因而不得不放寬條件,常采用的有兩種方法:一種是不對風(fēng)險函數(shù)在上作逐點比較,,而采用某種綜合性指標(biāo),;另一種方法是先從一定角度對允許使用的決策函數(shù)加以一定限制,然后再找一致最優(yōu)的,,從而又引出下列準(zhǔn)則,。 ② 最小化最大準(zhǔn)則 最大風(fēng)險 是一種綜合性指標(biāo),若存在使最大風(fēng)險最小的決策函數(shù)δ,使得對一切決策函數(shù)δ都有:M(δ)≥M(δ),,則稱δ是最小化最大決策函數(shù),,它反映了一種較穩(wěn)健或保守的策略思想。 ③ 貝葉斯準(zhǔn)則 它以貝葉斯風(fēng)險為指標(biāo), 在參數(shù)空間上選定一概率測度ξ,稱ξ為θ(θ∈Θ)的先驗分布,,而稱 為決策函數(shù)δ的相對于ξ的貝葉斯風(fēng)險,它也是一個綜合性指標(biāo),。若對一切決策函數(shù)δ都成立,稱δ為ξ的貝葉斯決策函數(shù)。 ④ 最優(yōu)同變性準(zhǔn)則 這是一種在限制決策函數(shù)有同變性的條件下,,求一致最優(yōu)決策函數(shù)的準(zhǔn)則,。同變性是指當(dāng)問題由于平移、刻度等變換而發(fā)生變化時,,相應(yīng)的決策(對策)也能有同步地變換的性質(zhì),。例如,在正態(tài)總體N(μ,1)中抽樣x1,x2,…,xn以估計μ,若將度量原由零點(O)移到с處,則樣本在新坐標(biāo)系下變?yōu)閤1+с,x2+с…,xn+с,而參數(shù)變?yōu)棣?с,如果接受“估計結(jié)果不應(yīng)與坐標(biāo)原點的取法有關(guān)”的原則,則所用的決策δ應(yīng)滿足:對任何實數(shù)с,有δ(X1 + c,X2 + c,...,Xn + c) = δ(X1,X2,...,Xn) + c ,;稱這樣的 δ在平移變換下有同變性,。可以在樣本空間H上考慮更復(fù)雜的一一變換群,,而定義在這個變換群之下的同變性,,在所有具有同變性的決策函數(shù)類中,風(fēng)險一致最小的決策函數(shù)被稱為最優(yōu)同變決策函數(shù),。 在點估計中,,限制使用的估計量有無偏性,采用平方損失函數(shù) ,,在這個限制下,一致最優(yōu)估計量就是一致最小方差無偏估計,。這是另一個在限制決策函數(shù)下,求一致最優(yōu)策略的例子,。 一旦選定了優(yōu)良性標(biāo)準(zhǔn),,統(tǒng)計決策問題的解決,就相當(dāng)于一個數(shù)學(xué)上的最優(yōu)化問題,。1950年后的幾十年來在這方面做了不少工作,,這不僅使統(tǒng)計問題有了嚴(yán)格的數(shù)學(xué)提法,同時也在形式上部分地突出了瓦爾德的想法,,把形式不一樣的統(tǒng)計問題歸并在一個模式下統(tǒng)一處理,。決策函數(shù)的觀點使統(tǒng)計更注重了所采取行動的效果,也使統(tǒng)計問題提法更加多樣化,,從而開拓了某些新的研究領(lǐng)域,,例如前面提到的關(guān)于容許性及最小化最大準(zhǔn)則的研究。因此,瓦爾德的理論受到統(tǒng)計學(xué)界的重視,成為二次大戰(zhàn)后統(tǒng)計學(xué)史上一個重大事件,。但是,在這個問題上的看法也并不一致,,英國統(tǒng)計學(xué)家M.肯德爾認(rèn)為“損失的數(shù)量化”并非在任何情況下都合理可行,,而且他還認(rèn)為,把統(tǒng)計問題歸之于統(tǒng)計工作者與大自然之間的博弈的觀點,是值得懷疑的,。 20,,什么是中心極限定理 大數(shù)定律揭示了大量隨機(jī)變量的平均結(jié)果,但沒有涉及到隨機(jī)變量的分布的問題,。而中心極限定理說明的是在一定條件下,,大量獨(dú)立隨機(jī)變量的平均數(shù)是以正態(tài)分布為極限的。 中心極限定理是概率論中最著名的結(jié)果之一,。它提出,,大量的獨(dú)立隨機(jī)變量之和具有近似于正態(tài)的分布。因此,,它不僅提供了計算獨(dú)立隨機(jī)變量之和的近似概率的簡單方法,,而且有助于解釋為什么有很多自然群體的經(jīng)驗頻率呈現(xiàn)出鐘形(即正態(tài))曲線這一事實,因此中心極限定理這個結(jié)論使正態(tài)分布在數(shù)理統(tǒng)計中具有很重要的地位,,也使正態(tài)分布有了廣泛的應(yīng)用,。 中心極限定理的表現(xiàn)形式 中心極限定理也有若干個表現(xiàn)形式,這里僅介紹其中四個常用定理: (一)辛欽中心極限定理 設(shè)隨機(jī)變量 相互獨(dú)立,,服從同一分布且有有限的數(shù)學(xué)期望a和方差σ2,,則隨機(jī)變量 ,在n無限增大時,,服從參數(shù)為a和 的正態(tài)分布即n→∞時,, 將該定理應(yīng)用到抽樣調(diào)查,就有這樣一個結(jié)論:如果抽樣總體的數(shù)學(xué)期望a和方差σ2是有限的,,無論總體服從什么分布,,從中抽取容量為n的樣本時,只要n足夠大,,其樣本平均數(shù)的分布就趨于數(shù)學(xué)期望為a,,方差為σ2 / n的正態(tài)分布。 (二)德莫佛——拉普拉斯中心極限定理 設(shè)μn是n次獨(dú)立試驗中事件A發(fā)生的次數(shù),,事件A在每次試驗中發(fā)生的概率為P,,則當(dāng)n無限大時,頻率設(shè)μn / n趨于服從參數(shù)為 的正態(tài)分布,。即: 該定理是辛欽中心極限定理的特例,。在抽樣調(diào)查中,不論總體服從什么分布,,只要n充分大,,那么頻率就近似服從正態(tài)分布。 (三)李亞普洛夫中心極限定理 設(shè) 是一個相互獨(dú)立的隨機(jī)變量序列,,它們具有有限的數(shù)學(xué)期望和方差: ,。 記 ,,如果能選擇這一個正數(shù)δ>0,使當(dāng)n→∞時,, ,,則對任意的x有: 該定理的含義是:如果一個量是由大量相互獨(dú)立的隨機(jī)因素影響所造成的,而每一個別因素在總影響中所起的作用不很大,,則這個量服從或近似服從正態(tài)分布,。 (四)林德貝爾格定理 設(shè) 是一個相對獨(dú)立的隨機(jī)變量序列,它們具有有限的數(shù)學(xué)期望和方差 滿足林德貝爾格條件,,則當(dāng)n→∞時,,對任意的x,有 ,。 中心極限定理案例分析 案例一:中心極限定理在商業(yè)管理中的應(yīng)用 水房擁擠問題:假設(shè)西安郵電學(xué)院新校區(qū)有學(xué)生5000人,,只有一個開水房,由于每天傍晚打開水的人較多,,經(jīng)常出現(xiàn)同學(xué)排長隊的現(xiàn)象,,為此校學(xué)生會特向后勤集團(tuán)提議增設(shè)水龍頭。假設(shè)后勤集團(tuán)經(jīng)過調(diào)查,,發(fā)現(xiàn)每個學(xué)生在傍晚一般有1%的時間要占用一個水龍頭,,現(xiàn)有水龍頭45個,現(xiàn)在總務(wù)處遇到的問題是: (1)未新裝水龍頭前,,擁擠的概率是多少,? (2)至少要裝多少個水龍頭,才能以95%以上的概率保證不擁擠,? 解:(1)設(shè)同一時刻,,5000個學(xué)生中占用水龍頭的人數(shù)為X,則 X~B(5000,,0.01) 擁擠的概率是 有定理2,,n=5000,p=0.01,,q=0.99,, 故 即擁擠的概率 P(ζ > 45) = 1 ? 0.2389 = 0.7611 (2)欲求m,使得 即 由于 即 查表 即 需裝62個水龍頭,。 問題的變形: (3)至少安裝多少個水龍頭,,才能以99%以上的概率保證不擁擠? 解:欲求m,,使得 即 由 即 查表 即m≥66.4 故需要裝67個水龍頭,。 (4)若條件中已有水龍頭數(shù)量改為55個,其余的條件不變,1,2兩問題結(jié)果如何,? 解:(1) (2)同上,。 (5)若條件中的每個學(xué)生占用由1%提高到1.5%,,其余的條件不變,則(1),, (2)兩問題結(jié)果如何? 解:(1)設(shè)同一時刻,5000個學(xué)生中占用水龍頭的人數(shù)為X,,則 X-B(5000,,0.015) 已知n=5000,p=0.015,,q=0.985,,np=75,, 擁擠的概率達(dá) (2)欲求m,,使得 即 由 即 查表 即m≥89.14 故需裝90個水龍頭。 中心極限定理以嚴(yán)格的數(shù)學(xué)形式闡明了在大樣本條件下,,不論總體的分布如何,,樣本的均值總是近似地服從正態(tài)分布,。如果一個隨機(jī)變量能夠分解為獨(dú)立同分布的隨機(jī)變量序列之和,則可以直接利用中心極限定理進(jìn)行解決,??傊‘?dāng)?shù)厥褂弥行臉O限定理解決實際問題有著極其重要意義,。, 21,,什么是大數(shù)定律 大數(shù)定律是指在隨機(jī)試驗中,每次出現(xiàn)的結(jié)果不同,,但是大量重復(fù)試驗出現(xiàn)的結(jié)果的平均值卻幾乎總是接近于某個確定的值,。 其原因是,在大量的觀察試驗中,,個別的,、偶然的因素影響而產(chǎn)生的差異將會相互抵消,從而使現(xiàn)象的必然規(guī)律性顯示出來,。例如,,觀察個別或少數(shù)家庭的嬰兒出生情況,發(fā)現(xiàn)有的生男,,有的生女,,沒有一定的規(guī)律性,但是通過大量的觀察就會發(fā)現(xiàn),,男嬰和女嬰占嬰兒總數(shù)的比重均會趨于50%,。 大數(shù)定律的表現(xiàn)形式 定義1:設(shè) 為概率空間(Ω,F,P)上定義的隨機(jī)變量序列(簡稱隨機(jī)序列),若存在隨機(jī)變數(shù) ,,使對任意 ,,恒有: 則稱隨機(jī)序列 依概率收斂于隨機(jī)變量 ( 也可以是一個常數(shù)),,并用下面的符號表示: 或 定義2:設(shè) 為一隨機(jī)序列,數(shù)學(xué)期望 )存在,,令 ,,若 0(P),則稱隨機(jī)序列 服從大數(shù)定律,,或者說大數(shù)法則成立,。 定義3:設(shè)Fn(x)是分布函數(shù)序列,若存在一個非降函數(shù)F(x),,對于它的每一連續(xù)點x,,都有 ,則稱分布函數(shù)序列Fn(x)弱收斂于F(x),。 定義4:設(shè) 分別是隨機(jī)變量 及 的分布函數(shù),,若 ,則稱 依分布收斂于 ,,亦記為 ,,且有:(1)若 ,則 ,;(2)設(shè)c為常數(shù),,則 的充要條件是 。 逆極限定理:設(shè)特征函數(shù)列fn(t)收斂于某一函數(shù)f(t),,且f(t)在t=0時連續(xù),,則相應(yīng)的分布函數(shù)列Fn(x)弱收斂于某一分布函數(shù)F(x),而且f(t)是F(x)的特征函數(shù),。 大數(shù)定律有若干個表現(xiàn)形式,。這里僅介紹其中常用的兩個重要定律: (一)切貝雪夫大數(shù)定理 設(shè) 是一列兩兩相互獨(dú)立的隨機(jī)變量,服從同一分布,,且存在有限的數(shù)學(xué)期望a和方差σ2,,則對任意小的正數(shù)ε,有: 該定律的含義是:當(dāng)n很大,,服從同一分布的隨機(jī)變量 的算術(shù)平均數(shù) 將依概率接近于這些隨機(jī)變量的數(shù)學(xué)期望,。 將該定律應(yīng)用于抽樣調(diào)查,就會有如下結(jié)論:隨著樣本容量n的增加,,樣本平均數(shù)將接近于總體平均數(shù),。從而為統(tǒng)計推斷中依據(jù)樣本平均數(shù)估計總體平均數(shù)提供了理論依據(jù)。 (二)貝努里大數(shù)定律 設(shè)μn是n次獨(dú)立試驗中事件A發(fā)生的次數(shù),,且事件A在每次試驗中發(fā)生的概率為P,,則對任意正數(shù)ε,有: 該定律是切貝雪夫大數(shù)定律的特例,,其含義是,,當(dāng)n足夠大時,,事件A出現(xiàn)的頻率將幾乎接近于其發(fā)生的概率,即頻率的穩(wěn)定性,。 在抽樣調(diào)查中,,用樣本成數(shù)去估計總體成數(shù),其理論依據(jù)即在于此,。 22,,什么是對照組 對照組,英文稱control group,,是指在隨機(jī)抽取的實驗中,起輔助,、對比作用,,以突出并有力支持從實驗組所能得出結(jié)論的單組或多組實驗。 關(guān)于對照組,,要注意以下幾點: 1,、要盡可能消除無關(guān)變量,即讓所有要形成對比的變量(稱作“實驗變量”)之外的變量都盡可能地減少,。比如,,在證明“吸煙會增大得肺癌的幾率”的實驗或者 調(diào)查中,如果一個人群為吸煙的官員,,另一個人群為不吸煙的核廢料處理廠工人,,那么這個實驗顯然是有問題的,因為這增加了職業(yè)這個重要的無關(guān)變量,。 2,、對比要鮮明,易于觀察,。 3,、要考慮實驗中的種種現(xiàn)實因素之制約,要具有可行性,。 23,,什么是完全隨機(jī)設(shè)計 完全隨機(jī)設(shè)計,又稱成組設(shè)計,,英文稱completely random design,,是指不加任何條件限制應(yīng)用隨機(jī)數(shù)字表或隨機(jī)排列表將觀察對象隨機(jī)地分配到試驗組和對照組進(jìn)行實驗觀察的一種設(shè)計方法,是用隨機(jī)化的方式來控 制誤差變異,,認(rèn)為經(jīng)過隨機(jī)化處理后,,樣本間的變異在各個處理水平上隨機(jī)分布,這樣就可將實驗結(jié)果的差異歸于不同處理的影響,。 隨機(jī)區(qū)組設(shè)計與完全隨機(jī)設(shè)計的區(qū)別 1.從定義上看:隨機(jī)區(qū)組和完全隨機(jī)的設(shè)計方式不同,。 完全隨機(jī)的實驗設(shè)計是,,有幾種實驗處理就有幾組被試分組,比如說,,研究噪音對數(shù)學(xué)成績的影響,,你可以研究有無噪音但是也可以研究噪音程度,那么,,噪音就要 有不同水平,,高分貝,低分貝,,中分貝三種不同程度的噪音,,被試在不同噪音下進(jìn)行數(shù)學(xué)作業(yè),分別評估不同水平下,,數(shù)學(xué)成績的高低從而得出結(jié)論,。 2.實驗誤差來源不一樣 完全隨機(jī)設(shè)計的誤差:被試之間的誤差(很大比率),實驗誤差,,不可控誤差,。 3.進(jìn)行方差分析的時候不一樣:隨機(jī)區(qū)組不用進(jìn)行方差齊性檢驗而完全隨機(jī)需要。 24,,什么是校正值 校正值,,英文稱correction value,是指為了使測量結(jié)果去掉系統(tǒng)誤差,,接近真實值而產(chǎn)生的數(shù)值,,真值=測量值+校正值。 真值=測量值+校正值=測量值-示值誤差 25,,什么是數(shù)據(jù)分析 簡單的說就是對數(shù)據(jù)進(jìn)行分析,;較為專業(yè)的說是只用適當(dāng)?shù)慕y(tǒng)計分析方法對收集來的數(shù)據(jù)進(jìn)行分析,將他們加以匯總,、理解并笑話,,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用,。數(shù)據(jù)分析是為了提取有用的信息和形成結(jié)論而對數(shù)據(jù)加以詳細(xì)的研究和概括總結(jié)的過程,。 探索性數(shù)據(jù)分析側(cè)重于數(shù)據(jù)中發(fā)現(xiàn)新的特性;而驗證性數(shù)據(jù)分析側(cè)重于已有假設(shè)的真?zhèn)涡?;描述性?shù)據(jù)分析屬于初級的數(shù)據(jù)分析,;常見的分析方法有對比分析,平均 分析,,交叉分析,;探索性數(shù)據(jù)分析以及驗證性數(shù)據(jù)分析主要屬于高級的數(shù)據(jù)分析,常見的數(shù)據(jù)分析有相關(guān)分析、因子分析,、回歸分析,。日常生活中主要設(shè)計的是描述 性數(shù)據(jù)分析,也就是大家常說的初級數(shù)據(jù)分析,。 26,,什么是抽樣框 抽樣框又稱“抽樣框架”、“抽樣結(jié)構(gòu)”,,是指對可以選擇作為樣本的總體單位列出名冊或排序編號,,以確定總體的抽樣范圍和結(jié)構(gòu)。設(shè)計出了抽樣框 后,,便可采用抽簽的方式或按照隨機(jī)數(shù)表來抽選必要的單位數(shù),。若沒有抽樣框,則不能計算樣本單位的概率,,從而也就無法進(jìn)行概率選樣,。 好的抽樣框應(yīng)做到:完整而不重復(fù)。 常見的抽樣框:大學(xué)學(xué)生花名冊,、城市黃頁里的電話列表、工商企業(yè)名錄,、街道派出所里居民戶籍冊,、意向購房人信息冊……。在沒有現(xiàn)成的名單的情況 下,,可由調(diào)查人員自己編制,。應(yīng)該注意的是,在利用現(xiàn)有的名單作為抽樣框時,,要先對該名錄進(jìn)行檢查,,避免有重復(fù)、遺漏的情況發(fā)生,。以提高樣本對總體的代表 性,。 例如:要從10000名職工中抽出200名組成一個樣本,則10000名職工的名冊,,就是抽樣框,。 27、什么是假設(shè)檢驗 假設(shè)檢驗又稱統(tǒng)計假設(shè)檢驗(注:顯著性檢驗只是假設(shè)檢驗中最常用的一種方法),,是一種基本的統(tǒng)計推斷形式,,也是數(shù)理統(tǒng)計學(xué)的一個重要的分支,用來判斷樣本與樣本,,樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計推斷方法,。 其基本原理是先對總體的特征作出某種假設(shè),然后通過抽樣研究的統(tǒng)計推理,,對此假設(shè)應(yīng)該被拒絕還是接受作出推斷,。 28,、什么是歸納統(tǒng)計學(xué) 歸納統(tǒng)計學(xué)(stochastics,inductive statistics)是從現(xiàn)實所給予的比較少量的資料中,,來推論其所包含的整個規(guī)律的以數(shù)程序為主體所構(gòu)成的學(xué)科,。R.A.Fisher曾把歸納統(tǒng)計學(xué) 作為農(nóng)業(yè)試驗法這一分支領(lǐng)域的一項基礎(chǔ),而現(xiàn)在在社會群團(tuán),、生物群體的樣本調(diào)查法,、農(nóng)業(yè)試驗和各種自然科學(xué)中的實驗分析法、工業(yè)的抽樣檢查法,、產(chǎn)品質(zhì)量管 理法等許多方面都廣為應(yīng)用,。 歸納統(tǒng)計學(xué)的主要概念是: (1)群體:系作為調(diào)查、研究的對象,,也就是具特定標(biāo)記的所有個體或其屬性之集群,。在一定管理條件下進(jìn)行測定和試驗中,其試行在無限反復(fù)情況時所估算的值 為因素的假定全體,,稱為無限群體,。無限群體的分布規(guī)律,通常以正態(tài)分布,、二項分布,、泊利-艾根貝格分布、泊松分布等來表示,。 (2)參數(shù):為群體分布規(guī)律特征的常數(shù),,在正態(tài)分布中的群體平均數(shù)和分散,在二項分布和泊松分布中的群體平均數(shù)等均屬于此,。一般群體數(shù)為未知數(shù),,必須從樣本來推測。 (3)樣本:實際上是作為所調(diào)查研究對象的群體的一部分,,以其數(shù)來作為樣本的大小,,隨機(jī)抽樣(random sampling),即對群體中任何個體都必須進(jìn)行同樣的隨機(jī)抽樣,,這樣所選取的樣品稱為隨機(jī)樣品(random sample),。根據(jù)隨機(jī)樣品便可進(jìn)行有關(guān)群體的統(tǒng)計學(xué)的推算。 29,,什么是標(biāo)準(zhǔn)正態(tài)分布 標(biāo)準(zhǔn)正態(tài)分布standard normal distribution 正態(tài)分布(Normal distribution)又名高斯分布(Gaussian distribution),,是一個在數(shù)學(xué)、物理及工程等領(lǐng)域都非常重要的概率分布,,在統(tǒng)計學(xué)的許多方面有著重大的影響力,。期望值μ=0,即曲線圖象對稱軸為Y軸,標(biāo)準(zhǔn)差σ=1條件下的正態(tài)分布,,記為N(0,,1)。 標(biāo)準(zhǔn)正態(tài)分布又稱為u分布,,是以0為均數(shù),、以1為標(biāo)準(zhǔn)差的正態(tài)分布,記為N(0,,1),。 標(biāo)準(zhǔn)正態(tài)分布曲線下面積分布規(guī)律是:在-1.96~+1.96范圍內(nèi)曲線下的面積等于0.9500,在-2.58~+2.58范圍內(nèi)曲線下面積為0.9900,。統(tǒng)計學(xué)家還制定了一張統(tǒng)計用表(自由度為∞時),,借助該表就可以估計出某些特殊u1和u2值范圍內(nèi)的曲線下面積。 正態(tài)分布的概率密度函數(shù)曲線呈鐘形,,因此人們又經(jīng)常稱之為鐘形曲線,。我們通常所說的標(biāo)準(zhǔn)正態(tài)分布是位置參數(shù)均數(shù)為0, 尺度參數(shù):標(biāo)準(zhǔn)差為1的正態(tài)分布(見右圖中綠色曲線)。 正態(tài)分布中一些值得注意的量: 密度函數(shù)關(guān)于平均值對稱 平均值與它的眾數(shù)(statistical mode)以及中位數(shù)(median)同一數(shù)值,。 函數(shù)曲線下68.268949%的面積在平均數(shù)左右的一個標(biāo)準(zhǔn)差范圍內(nèi),。 95.449974%的面積在平均數(shù)左右兩個標(biāo)準(zhǔn)差的范圍內(nèi)。 99.730020%的面積在平均數(shù)左右三個標(biāo)準(zhǔn)差的范圍內(nèi),。 99.993666%的面積在平均數(shù)左右四個標(biāo)準(zhǔn)差的范圍內(nèi),。 函數(shù)曲線的反曲點(inflection point)為離平均數(shù)一個標(biāo)準(zhǔn)差距離的位置。, 單個來源中國統(tǒng)計網(wǎng),,感謝原作者。 數(shù)據(jù)小編匯總整理,。\(^o^)/~ |
|