第三部分 關(guān)于“小樣本”預(yù)測“大總體” 現(xiàn)實(shí)生活中,總體的數(shù)量如果過于龐大我們無法獲取總體中每個(gè)數(shù)據(jù)的數(shù)值,,進(jìn)行對總體的特征提取進(jìn)而完成分析工作,。那么接下來就用到了本章節(jié)的知識(shí)。樣本:總體中選取相對較小的集合,用于做出關(guān)于總體本身的結(jié)論偏倚:樣本不能代表目標(biāo)總體,,說明該樣本存在偏倚簡單隨機(jī)抽樣: 隨機(jī)抽取單位形成樣本,。分成抽樣: 總體分成幾組或者幾層,對每一層執(zhí)行簡單隨機(jī)抽樣系統(tǒng)抽樣:選取一個(gè)參數(shù)K,,每到第K個(gè)抽樣單位,,抽樣一次。 2. 預(yù)測總體(點(diǎn)估計(jì)預(yù)測,,區(qū)間估計(jì)預(yù)測)點(diǎn)估計(jì)量--- 一個(gè)總參數(shù)的點(diǎn)估計(jì)量就是可用于估計(jì)總體參數(shù)數(shù)值的某個(gè)函數(shù)或算式,。場景1: 樣本無偏的情況下,已知樣本,,預(yù)測總體的均值,,方差。(1) 樣本的均值 = 總體的估算均值(總體均值的點(diǎn)估計(jì)量) ≈ 總體實(shí)際均值(誤差是否可接受)比例抽樣分布:考慮從同一個(gè)總體中取得所有大小為n的可能樣本,,由這些樣本的比例形成一個(gè)分布,這就是“比例抽樣分布”,。樣本的比例就是隨機(jī)變量,。舉個(gè)栗子:已知所有的糖球(總體)中紅色糖球比例為0.25。從總體中隨機(jī)抽n個(gè)糖球,,我們可以求用比例抽樣分布求出這n個(gè)糖球中對應(yīng)紅球各種可能比例的概率,。樣本均值分布:考慮同一個(gè)總體中所有大小為n的可能樣本,然后用這個(gè)樣本的均值形成分布,,該分布就是“樣本均值分布” ,,樣本的均值就是隨機(jī)變量。中心極限定理:如果從一個(gè)非正態(tài)總體X中抽出一個(gè)樣本,,且樣本極大(至少大于30),,則圖片.png的分布近似正態(tài)分布。區(qū)間估計(jì)量--- 點(diǎn)估計(jì)量是利用一個(gè)樣本對總體進(jìn)行估計(jì),,區(qū)間估計(jì)是利用樣本組成的一段區(qū)間對樣本進(jìn)行估計(jì),。舉個(gè)栗子:今天下午3點(diǎn)下雨,;今天下午3點(diǎn)到4點(diǎn)下雨,。如果我們的目的是為了盡可能預(yù)測正確,你會(huì)使用那句話術(shù),?如何求置信區(qū)間,?(這里筆者講一下思路,不畫圖碼公式了,,讀者有興趣可以查閱一下教材)關(guān)于C值參數(shù):置信水平 90% C=1.64 ,, 95% C=1.96 , 99% C=2.58我們之前的區(qū)間預(yù)測有個(gè)前提,就是利用了中心極限定理,,當(dāng)樣本量足夠大的時(shí)候(通常大于30),,均值抽樣分布近似于正態(tài)分布。若樣本量不夠大呢,?這是同樣的思路,,只是樣本均值分布將近似于另一種分布處理更加準(zhǔn)確,那就是t分布,。這里筆者直接放張圖,,不做拓展了。待補(bǔ)充知識(shí)二(卡方分布)----注意待補(bǔ)充不代表不重要,,是筆者水平有限,,目前還不能用簡單的語言概述其中的精髓。若n個(gè)相互獨(dú)立的隨機(jī)變量ξ,、ξ,、……、ξn ,,均服從標(biāo)準(zhǔn)正態(tài)分布,,則這n個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和構(gòu)成一新的隨機(jī)變量,其分布規(guī)律稱為卡方分布,。用途1:用于檢驗(yàn)擬合優(yōu)度,。也就是檢驗(yàn)一組給定的數(shù)據(jù)與指定分布的吻合程度;用途2:檢驗(yàn)兩個(gè)變量的獨(dú)立性,。通過卡方分布可以檢查變量之間是否存在某種關(guān)聯(lián): 3. 驗(yàn)證結(jié)果(假設(shè)檢驗(yàn))假設(shè)檢驗(yàn)是一種方法用于驗(yàn)證結(jié)果是否真實(shí)可靠,。具體操作分為六個(gè)步驟。兩類錯(cuò)誤---即使我們進(jìn)行了“假設(shè)檢驗(yàn)”依然無法保證決策是百分百正確的,,會(huì)出現(xiàn)兩類錯(cuò)誤第一類錯(cuò)誤: 拒絕了一個(gè)正確的假設(shè),,錯(cuò)殺了一個(gè)好人第二類錯(cuò)誤:接收了一個(gè)錯(cuò)誤的假設(shè),放過了一個(gè)壞人 2. 點(diǎn)估計(jì)量預(yù)測(已知樣本預(yù)測總體,,已知總體預(yù)測樣本)3. 區(qū)間估計(jì)量預(yù)測(求置信區(qū)間)這里介紹的相關(guān)和回歸是關(guān)于二維雙變量的最簡單最實(shí)用的線性回歸,,非線性回歸這里不暫不做拓展。散點(diǎn)圖:顯示出二變量數(shù)據(jù)的模式相關(guān)性:變量之間的數(shù)學(xué)關(guān)系,。線性相關(guān)性:兩個(gè)變量之間呈現(xiàn)的直線相關(guān)關(guān)系,。最佳擬合直線:與數(shù)據(jù)點(diǎn)擬合程度最高的線。(即每個(gè)因變量的值與實(shí)際值的誤差平方和最?。?/span>線性回歸法:求最佳擬合直線的方法(y=ax+b),,就是求參數(shù)a和b相關(guān)系數(shù)r:表征描述的數(shù)據(jù)與最佳擬合線偏離的距離。(r=-1完全負(fù)相關(guān),,r=1完全正相關(guān),,r=0不相關(guān))筆者這里梳理了統(tǒng)計(jì)與概率學(xué)最基礎(chǔ)的概念知識(shí),,盡量闡述清楚這些概念知識(shí)之間關(guān)聯(lián)的關(guān)系,以及應(yīng)用的場景,。底層概念是上層應(yīng)用的基礎(chǔ),,當(dāng)今浮躁的“機(jī)器學(xué)習(xí)”,“神經(jīng)網(wǎng)絡(luò)”,,“AI自適應(yīng)”這些高大上的關(guān)鍵字滿天飛,。筆者認(rèn)為踏踏實(shí)實(shí)的把“基礎(chǔ)”打扎實(shí),才是向上發(fā)展的唯一途徑,。筆者水平有限,,概念理解有偏差的地方歡迎批評指正。
|