久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

Q-Q圖

 我是皮卡丘 2021-11-20

Q-Q圖

        樣本數(shù)據(jù)集在構(gòu)建機(jī)器學(xué)習(xí)模型的過(guò)程中具有重要的作用,樣本數(shù)據(jù)集包括訓(xùn)練集,、驗(yàn)證集,、測(cè)試集,其中訓(xùn)練集和驗(yàn)證集的作用是對(duì)學(xué)習(xí)模型進(jìn)行參數(shù)擇優(yōu),,測(cè)試集是測(cè)試該模型的泛化能力,。

圖片

        正負(fù)樣本數(shù)據(jù)集符合獨(dú)立同分布是構(gòu)建機(jī)器學(xué)習(xí)模型的前提,從概率角度分析,,樣本數(shù)據(jù)獨(dú)立同分布是正負(fù)樣本數(shù)據(jù)是從某一特定的數(shù)據(jù)分布隨機(jī)抽取得到的,,且正負(fù)樣本的分布是不一樣的。舉例來(lái)說(shuō),,若我們用非洲的西瓜作為訓(xùn)練集,,然后用中國(guó)的西瓜作為測(cè)試集,則數(shù)據(jù)集可能不滿足同分布這一前提,;拋硬幣是最簡(jiǎn)單的獨(dú)立同分布,;用較專業(yè)的學(xué)術(shù)用語(yǔ)來(lái)舉例,若訓(xùn)練數(shù)據(jù)集符合正態(tài)分布,,測(cè)試集符合均勻分布,,那么數(shù)據(jù)集不滿足獨(dú)立同分布這一前提,。

        本文用Q-Q可以分析不同數(shù)據(jù)集是否為同一分布,且可以用Q-Q圖來(lái)驗(yàn)證數(shù)據(jù)集是否符合正態(tài)分布,。

一,、累積分布函數(shù)與分位數(shù)

        累計(jì)分布函數(shù)(CDF,Cumulative Distribution Function),,顧名思義,是概率累計(jì)的過(guò)程,。對(duì)某一變量X取值為x,,則x的累計(jì)分布函數(shù)是所有小于x值的概率相加,公式如下:

圖片

        分位數(shù)(quantile)的概念與累計(jì)分布函數(shù)類似,,也是一種概率累計(jì)過(guò)程,,如第一四分位數(shù)是累積分布概率達(dá)到0.25時(shí)所對(duì)應(yīng)的變量值,第二四分位數(shù)是累計(jì)分布概率達(dá)到0.5時(shí)多對(duì)應(yīng)的值,,第三四分位數(shù)是累計(jì)分布概率達(dá)到0.75時(shí)對(duì)應(yīng)的值,,公式如下:

α代表累計(jì)概率,分位數(shù)為Zα:

P(X<=Zα) = α ,;

二,、Q-Q圖定義

        Q-Q是一種散點(diǎn)圖,橫坐標(biāo)為某一樣本的分位數(shù),,縱坐標(biāo)為另一樣本的分位數(shù),,橫坐標(biāo)與縱坐標(biāo)組成的散點(diǎn)圖代表同一個(gè)累計(jì)概率所對(duì)應(yīng)的分位數(shù)。若散點(diǎn)圖在直線y=x附近分布,,則這兩個(gè)樣本是同等分布,;若橫坐標(biāo)樣本為標(biāo)準(zhǔn)正態(tài)分布且散點(diǎn)圖是在直線y=x附近分布,則縱坐標(biāo)樣本符合正態(tài)分布,,且直線斜率代表樣本標(biāo)準(zhǔn)差,,截距代表樣本均值。

圖片

        如上圖左上角圖為某一數(shù)據(jù)的累計(jì)概率分布函數(shù),,右上角為標(biāo)準(zhǔn)正態(tài)分布的累計(jì)概率分布函數(shù),,對(duì)上述兩圖取同一個(gè)累計(jì)概率值對(duì)應(yīng)的分位數(shù),繪制散點(diǎn)圖,,由圖可知,,數(shù)據(jù)符合正態(tài)分布,斜率和截距分別代表數(shù)據(jù)的標(biāo)準(zhǔn)差和均值,。

QQ圖中正態(tài)分布直線的推導(dǎo):

        若數(shù)據(jù)x是正態(tài)分布的,,那么f(x)是一個(gè)正態(tài)分布的概率密度函數(shù),根據(jù)正態(tài)分布的特性,,數(shù)據(jù)x對(duì)應(yīng)的標(biāo)準(zhǔn)正態(tài)分布函數(shù)的概率密度函數(shù):

                            y =f((x-m)/std),,其中m為樣本均值,dtd為樣本標(biāo)準(zhǔn)差

        橫坐標(biāo)的數(shù)據(jù)分布是標(biāo)準(zhǔn)正態(tài)分布,概率密度函數(shù)為f(n),,由QQ圖定義可知兩者是一一對(duì)應(yīng)的,,因此有:

                            (x-m)/std = n ;

                            即:x = n*std + m;

所以直線的斜率代表標(biāo)準(zhǔn)差,,截距代表均值,。

三、構(gòu)建普通QQ圖

        普通QQ圖用于評(píng)估兩個(gè)數(shù)據(jù)集的分布的相似程度,,如上節(jié)所說(shuō)的,,若散點(diǎn)圖在直線y=x附近,則兩個(gè)數(shù)據(jù)集的分布類似,。普通QQ圖與正態(tài)QQ圖的不同點(diǎn)在于普通QQ圖的橫坐標(biāo)是未知數(shù)據(jù)集的分位數(shù),,正態(tài)QQ圖的橫坐標(biāo)是標(biāo)準(zhǔn)正態(tài)分布的分位數(shù),其他步驟都一樣,。

圖片

        由上圖可知,,散點(diǎn)圖沒有接近一條直線,因此數(shù)據(jù)集1和數(shù)據(jù)集2來(lái)自不同的分布集,。

圖片

        上圖是本人所從事項(xiàng)目數(shù)據(jù)的普通QQ圖,,散點(diǎn)圖接近一條直線,因此可以認(rèn)為數(shù)據(jù)集是來(lái)自同一分布,。

參考:https://blog.csdn.net/hzwwpgmwy/article/details/79178485

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多