Q-Q圖 樣本數(shù)據(jù)集在構(gòu)建機(jī)器學(xué)習(xí)模型的過(guò)程中具有重要的作用,樣本數(shù)據(jù)集包括訓(xùn)練集,、驗(yàn)證集,、測(cè)試集,其中訓(xùn)練集和驗(yàn)證集的作用是對(duì)學(xué)習(xí)模型進(jìn)行參數(shù)擇優(yōu),,測(cè)試集是測(cè)試該模型的泛化能力,。 正負(fù)樣本數(shù)據(jù)集符合獨(dú)立同分布是構(gòu)建機(jī)器學(xué)習(xí)模型的前提,從概率角度分析,,樣本數(shù)據(jù)獨(dú)立同分布是正負(fù)樣本數(shù)據(jù)是從某一特定的數(shù)據(jù)分布隨機(jī)抽取得到的,,且正負(fù)樣本的分布是不一樣的。舉例來(lái)說(shuō),,若我們用非洲的西瓜作為訓(xùn)練集,,然后用中國(guó)的西瓜作為測(cè)試集,則數(shù)據(jù)集可能不滿足同分布這一前提,;拋硬幣是最簡(jiǎn)單的獨(dú)立同分布,;用較專業(yè)的學(xué)術(shù)用語(yǔ)來(lái)舉例,若訓(xùn)練數(shù)據(jù)集符合正態(tài)分布,,測(cè)試集符合均勻分布,,那么數(shù)據(jù)集不滿足獨(dú)立同分布這一前提,。 本文用Q-Q可以分析不同數(shù)據(jù)集是否為同一分布,且可以用Q-Q圖來(lái)驗(yàn)證數(shù)據(jù)集是否符合正態(tài)分布,。 一,、累積分布函數(shù)與分位數(shù) 累計(jì)分布函數(shù)(CDF,Cumulative Distribution Function),,顧名思義,是概率累計(jì)的過(guò)程,。對(duì)某一變量X取值為x,,則x的累計(jì)分布函數(shù)是所有小于x值的概率相加,公式如下: 分位數(shù)(quantile)的概念與累計(jì)分布函數(shù)類似,,也是一種概率累計(jì)過(guò)程,,如第一四分位數(shù)是累積分布概率達(dá)到0.25時(shí)所對(duì)應(yīng)的變量值,第二四分位數(shù)是累計(jì)分布概率達(dá)到0.5時(shí)多對(duì)應(yīng)的值,,第三四分位數(shù)是累計(jì)分布概率達(dá)到0.75時(shí)對(duì)應(yīng)的值,,公式如下: α代表累計(jì)概率,分位數(shù)為Zα: P(X<=Zα) = α ,; 二,、Q-Q圖定義 Q-Q是一種散點(diǎn)圖,橫坐標(biāo)為某一樣本的分位數(shù),,縱坐標(biāo)為另一樣本的分位數(shù),,橫坐標(biāo)與縱坐標(biāo)組成的散點(diǎn)圖代表同一個(gè)累計(jì)概率所對(duì)應(yīng)的分位數(shù)。若散點(diǎn)圖在直線y=x附近分布,,則這兩個(gè)樣本是同等分布,;若橫坐標(biāo)樣本為標(biāo)準(zhǔn)正態(tài)分布且散點(diǎn)圖是在直線y=x附近分布,則縱坐標(biāo)樣本符合正態(tài)分布,,且直線斜率代表樣本標(biāo)準(zhǔn)差,,截距代表樣本均值。 如上圖左上角圖為某一數(shù)據(jù)的累計(jì)概率分布函數(shù),,右上角為標(biāo)準(zhǔn)正態(tài)分布的累計(jì)概率分布函數(shù),,對(duì)上述兩圖取同一個(gè)累計(jì)概率值對(duì)應(yīng)的分位數(shù),繪制散點(diǎn)圖,,由圖可知,,數(shù)據(jù)符合正態(tài)分布,斜率和截距分別代表數(shù)據(jù)的標(biāo)準(zhǔn)差和均值,。 QQ圖中正態(tài)分布直線的推導(dǎo): 若數(shù)據(jù)x是正態(tài)分布的,,那么f(x)是一個(gè)正態(tài)分布的概率密度函數(shù),根據(jù)正態(tài)分布的特性,,數(shù)據(jù)x對(duì)應(yīng)的標(biāo)準(zhǔn)正態(tài)分布函數(shù)的概率密度函數(shù): y =f((x-m)/std),,其中m為樣本均值,dtd為樣本標(biāo)準(zhǔn)差 橫坐標(biāo)的數(shù)據(jù)分布是標(biāo)準(zhǔn)正態(tài)分布,概率密度函數(shù)為f(n),,由QQ圖定義可知兩者是一一對(duì)應(yīng)的,,因此有: (x-m)/std = n ; 即:x = n*std + m; 所以直線的斜率代表標(biāo)準(zhǔn)差,,截距代表均值,。 三、構(gòu)建普通QQ圖 普通QQ圖用于評(píng)估兩個(gè)數(shù)據(jù)集的分布的相似程度,,如上節(jié)所說(shuō)的,,若散點(diǎn)圖在直線y=x附近,則兩個(gè)數(shù)據(jù)集的分布類似,。普通QQ圖與正態(tài)QQ圖的不同點(diǎn)在于普通QQ圖的橫坐標(biāo)是未知數(shù)據(jù)集的分位數(shù),,正態(tài)QQ圖的橫坐標(biāo)是標(biāo)準(zhǔn)正態(tài)分布的分位數(shù),其他步驟都一樣,。 由上圖可知,,散點(diǎn)圖沒有接近一條直線,因此數(shù)據(jù)集1和數(shù)據(jù)集2來(lái)自不同的分布集,。 上圖是本人所從事項(xiàng)目數(shù)據(jù)的普通QQ圖,,散點(diǎn)圖接近一條直線,因此可以認(rèn)為數(shù)據(jù)集是來(lái)自同一分布,。 參考:https://blog.csdn.net/hzwwpgmwy/article/details/79178485 |
|