如果數(shù)據(jù)分布是非正態(tài)的怎么辦,？用切比雪夫不等式呀,！

geoallan 2018-12-14

展開全文

如果數(shù)據(jù)分布是非正態(tài)的怎么辦？用切比雪夫不等式呀,！

大數(shù)據(jù)文摘出品

編譯：蔣寶尚,、茶西

上圖是萬圣節(jié)的一周，在搗蛋和給糖之間,，數(shù)據(jù)極客們在社交媒體上為這個可愛的網(wǎng)紅詞匯而竊竊私語,。

如果數(shù)據(jù)分布是非正態(tài)的怎么辦,？用切比雪夫不等式呀,！

正態(tài)分布/超自然分布

你覺得這是個玩笑？讓我告訴你,，這不是笑料,。這是嚇人的，真正的萬圣節(jié)精神,！

如果我們無法假設(shè)我們的大部分?jǐn)?shù)據(jù)(商業(yè),、社會、經(jīng)濟(jì)或科學(xué)根源) 至少近似“正態(tài)”(即它們是由一個高斯過程或多個這樣的過程的總和產(chǎn)生的),，那么我們就完蛋了,！

簡單來說吧，以下非常重要的概念將無效~

六西格瑪?shù)母拍?/li>
著名的68-95-99.7規(guī)則
統(tǒng)計分析中p=0.05(來自2西格瑪區(qū)間)的“神圣”概念

夠嚇人了么,？那我們再多說兩句…

無所不在的正態(tài)分布

正態(tài)分布（高斯分布）是最廣為人知的概率分布,。在數(shù)據(jù)科學(xué)的圈里，數(shù)據(jù)科學(xué)家非常喜歡這個分布,。

一方面是因為,，符合這個分布的現(xiàn)象在自然界隨處可見。在概率統(tǒng)計方面,，中心極限定理撐起了一片天,，而中心極限定理的最重要的一個假設(shè)是數(shù)據(jù)的分布符合中心極限定理。

最重要的一點是：簡潔,。

因為無論是正態(tài)分布的性質(zhì)還是表達(dá)式都非常的簡潔：

它的均值（mean）,、中值（median）和眾數(shù)（mode）都相同
只需要用兩個參數(shù)就可以確定整個分布

如果數(shù)據(jù)分布是非正態(tài)的怎么辦？用切比雪夫不等式呀！

所以問題在哪呢,？

這看起來都挺棒的啊,，有什么問題嗎？

問題是通常是,，你可能會找到特定的數(shù)據(jù)集分布,，這些分布可能不滿足正態(tài)性，即正態(tài)分布的性質(zhì),。但由于過度依賴于常態(tài)假設(shè),，大多數(shù)業(yè)務(wù)分析框架都是為處理正態(tài)分布數(shù)據(jù)集而量身定做的。

假設(shè)你被要求檢測來自某個流程(工程或業(yè)務(wù))的一批新數(shù)據(jù)是否有意義,。所謂“有意義”是指新的數(shù)據(jù)是否屬于它的“預(yù)期范圍”,，或者在它的“預(yù)期范圍”之內(nèi)。

“期望”是什么,？如何確定范圍,？

我們自動如潛意識驅(qū)使般，測量樣本數(shù)據(jù)集的均值和標(biāo)準(zhǔn)差,，并繼續(xù)檢查新數(shù)據(jù)是否在一定的標(biāo)準(zhǔn)偏差范圍內(nèi),。

如果我們必須在95%的置信區(qū)間下工作，那么我們很高興看到數(shù)據(jù)在2個標(biāo)準(zhǔn)差內(nèi),。如果我們需要更嚴(yán)格的界限,，我們檢查3或4個標(biāo)準(zhǔn)差。我們計算Cpk,，或者我們遵循六西格瑪線的ppm(每百萬零件數(shù))的質(zhì)量水平.

如果數(shù)據(jù)分布是非正態(tài)的怎么辦,？用切比雪夫不等式呀！

所有這些計算都是基于一個隱含的假設(shè),，即人口數(shù)據(jù)(而不是樣本)服從高斯分布,，即生成所有數(shù)據(jù)的基本過程(過去和現(xiàn)在)受下面左側(cè)圖的支配。但是,，如果數(shù)據(jù)在遵循右側(cè)圖形會發(fā)生什么呢,？

如果數(shù)據(jù)分布是非正態(tài)的怎么辦？用切比雪夫不等式呀,！

左,，正態(tài)：右，非正態(tài)

或者數(shù)據(jù)分布符合下邊兩個圖形,。

如果數(shù)據(jù)分布是非正態(tài)的怎么辦,？用切比雪夫不等式呀！

當(dāng)數(shù)據(jù)非正態(tài)時,，是否有更普遍的界限呢,？

最終,，即使數(shù)據(jù)是非正態(tài)的，我們?nèi)匀恍枰环N數(shù)學(xué)上完整的方法來限定我們的置信區(qū)間,。這意味著,，我們的計算可能會有一點變化，但我們還是應(yīng)該能說出這樣的話：

“與平均值一定距離處觀察一個新的數(shù)據(jù)點的概率就是這樣和這樣的…”

顯然,，我們需要尋求一個比珍貴的68-95-99.7的高斯界限更普遍的界限(對應(yīng)于與平均值的1/2/3標(biāo)準(zhǔn)差距離),。

幸運的是，還真有一個這樣的公式,，叫做“切比雪夫不等式”,。

什么是切比雪夫界限，它是如何有用的,？

切比雪夫不等式(也稱為Bienaymé-Chebyshev不等式)可以確保,，對于一類廣泛的概率分布，不超過某特定分段的值會比均值的特定距離大,。

大學(xué)生必修課《概率論與數(shù)理統(tǒng)計》里是這么說的：

切比雪夫不等式可以使人們在隨機變量X的分布未知的情況下,，對事件|x-u|<>

表達(dá)式是這樣的：

如果數(shù)據(jù)分布是非正態(tài)的怎么辦？用切比雪夫不等式呀,！

其中,，u為數(shù)學(xué)期望，σ為標(biāo)準(zhǔn)差,，ε為任意正數(shù)

它適用于幾乎無限種類型的概率分布,，并在比正態(tài)更寬松的假設(shè)下工作,。

如何應(yīng)用

正如你現(xiàn)在可以猜到的,，數(shù)據(jù)分析的基本機制不需要改變。你仍將收集數(shù)據(jù)樣本,，并且越大越好,，計算?以前也會算的均值和標(biāo)準(zhǔn)差這兩個量，然后應(yīng)用新的界限,，而不是68-95-99.7規(guī)則,。

如果數(shù)據(jù)分布是非正態(tài)的怎么辦？用切比雪夫不等式呀,！

提取樣本數(shù)據(jù)/計算：均值,，標(biāo)準(zhǔn)差/應(yīng)用切比雪夫界限

該表如下所示(這里k表示許多偏離平均值的標(biāo)準(zhǔn)差)：

如果數(shù)據(jù)分布是非正態(tài)的怎么辦？用切比雪夫不等式呀,！

K均值標(biāo)準(zhǔn)差內(nèi)的最小百分比/超出k均值標(biāo)準(zhǔn)差的百分比

痛點在哪呢,？為什么人們不使用這種假設(shè)更弱的約束呢？

通過看表格或數(shù)學(xué)定義痛點很明顯,。切比雪夫規(guī)則在數(shù)據(jù)界的問題上比高斯規(guī)則弱得多,。

首先，與正態(tài)分布的指數(shù)下降模式相比，它遵循1/k2 的圖形,。再例如,，要以95%的置信度設(shè)定界限，需要包含最多4.5標(biāo)準(zhǔn)偏差的數(shù)據(jù),，而對于正態(tài)分布只需要2個標(biāo)準(zhǔn)差,。

總體來說，在數(shù)據(jù)不是正態(tài)分布的時候還是挺有效的,。

那么,，我們還有別的選擇么？

當(dāng)然,，還有切諾夫界以及Hoeffding不等式,，它給出了獨立隨機變量和的指數(shù)銳尾分布。

當(dāng)數(shù)據(jù)看起來非正態(tài)分布時也可以用來代替高斯分布,，但只適用于有高置信度,，且數(shù)據(jù)相互獨立的情況。

不幸的是,，在許多社會和商業(yè)案例中,，數(shù)據(jù)有非常強的相關(guān)性。

敲黑板,，總結(jié)一下

在本文中,，我們學(xué)習(xí)了一種特殊類型的統(tǒng)計界限，它可以應(yīng)用于最廣泛的數(shù)據(jù)分布,，而不依賴于正態(tài)假設(shè),。當(dāng)我們對數(shù)據(jù)的真正來源知之甚少，并且不能假定它遵循高斯分布時,，這是有用的,。因此，它是分析隨意類型數(shù)據(jù)分布的重要工具,。

相關(guān)報道：

https:///what-if-your-data-is-not-normal-d7293f7b8f0

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： geoallan > 《數(shù)據(jù)分析》

舉報/認(rèn)領(lǐng)