01 位置的度量 1.平均數(shù)
將數(shù)據(jù)按照從小到大排列:
出現(xiàn)最多的數(shù)據(jù),,可能不止一個(gè),。
至少有p%的數(shù)據(jù)小于等于該值,至少有1-p%的數(shù)據(jù)大于等于該值,。 將數(shù)據(jù)按照從小到大的順序排列,,并計(jì)算n*p%:
02 變異程度的度量 1.極差與四分位數(shù)間距
極差與四分位數(shù)間距都是變異程度的簡(jiǎn)單度量,相比較而言,,極差更容易受異常值影響,,因此多采用四分位數(shù)間距,。 2.方差與標(biāo)準(zhǔn)差 方差是對(duì)數(shù)據(jù)總體變異程度的度量。
其中樣本方差為無(wú)偏方差,。
證明:其中μ為總體均值,,σ為總體標(biāo)準(zhǔn)差 對(duì)于隨機(jī)變量X 故有 同理,由于 故 標(biāo)準(zhǔn)差(s):方差的算術(shù)平方根,。 標(biāo)準(zhǔn)差系數(shù)(變異系數(shù)):標(biāo)準(zhǔn)差除以平均數(shù),。 03 分布形態(tài)、相對(duì)位置度量以及異常值檢測(cè) 1.分布形態(tài)的度量——偏度 偏度:若隨機(jī)變量的三階矩存在,,則偏度定義如下: 當(dāng)偏度大于0時(shí),,稱為右偏,偏度小于零稱為左偏,。 2.切比雪夫定理 切比雪夫定理:對(duì)于任意分布,,與均值距離z個(gè)標(biāo)準(zhǔn)差的之內(nèi)的數(shù)據(jù)所占的比例至少為1-1/z2,其中z>0,。 切比雪夫定理來(lái)源于切比雪夫不等式: 或 針對(duì)連續(xù)變量的切比雪夫不等式證明: 要證 只需 即 由于 且 故原命題得證,。 3.異常值檢測(cè) 異常值檢測(cè)有兩種簡(jiǎn)單的方法: 1.z-score法 由于日常數(shù)據(jù)大多近似服從正態(tài)分布,由標(biāo)準(zhǔn)正態(tài)分布表可知,,數(shù)據(jù)位于z=±3之內(nèi)的的概率為99.87%,,因此,對(duì)于z位于該區(qū)間之外的數(shù)據(jù)認(rèn)為是異常值,。 2.四分位數(shù)間距法 04 五數(shù)概括法和箱線圖置的度量 1.五數(shù)概括法 用最大值最小值中位數(shù)以及上下四分位數(shù)五個(gè)數(shù)字對(duì)數(shù)據(jù)進(jìn)行概括的方法,。 2.箱線圖 以上數(shù)據(jù)為某城市100家餐廳的代表餐品價(jià)格以及餐廳的質(zhì)量評(píng)級(jí),下面使用箱線圖描述不同等級(jí)的餐廳價(jià)格分布,。其中:
05 兩變量之間關(guān)系的度量 1.協(xié)方差 協(xié)方差是兩隨機(jī)變量線性相關(guān)性的度量,,協(xié)方差絕對(duì)值越大,兩隨機(jī)變量相關(guān)性越強(qiáng),,協(xié)方差為正數(shù)表明兩隨機(jī)變量正相關(guān),,協(xié)方差為負(fù)表明兩隨機(jī)變量負(fù)相關(guān)。對(duì)于一組容量為N的數(shù)據(jù),,其觀測(cè)值為(X1Y1),(X2Y2)...(XNYN),其協(xié)方差定義如下: 總體協(xié)方差: 類似的,,樣本協(xié)方差為: 樣本協(xié)方差為總體協(xié)方差的無(wú)偏估計(jì)量,其證明如下: 2.相關(guān)系數(shù) 協(xié)方差的問(wèn)題在于受數(shù)據(jù)大小影響,,例如,,將所有數(shù)據(jù)擴(kuò)大5倍,則線性相關(guān)性不變但是協(xié)方差絕對(duì)值增大,,為避免這種現(xiàn)象,,我們采用相關(guān)系數(shù)描述相關(guān)性。 總體相關(guān)系數(shù): 樣本相關(guān)系數(shù):
相關(guān)系數(shù)取值范圍的證明: 由柯西-施瓦茨不等式 易證明相關(guān)系數(shù)取值范圍為[-1,1] 柯西-施瓦茨不等式簡(jiǎn)單證明: 構(gòu)造一個(gè)恒不為負(fù)的二次函數(shù) 由于其恒為非負(fù),故有判別式小于等于0,,即: 原命題得證,。 本文內(nèi)容來(lái)源:segmentfault,作者:心里有點(diǎn)小空白 |
|