久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

如果數(shù)據(jù)分布是非正態(tài)的怎么辦,?用切比雪夫不等式呀,!

 geoallan 2018-12-14

如果數(shù)據(jù)分布是非正態(tài)的怎么辦?用切比雪夫不等式呀,!


大數(shù)據(jù)文摘出品

編譯:蔣寶尚,、茶西

上圖是萬圣節(jié)的一周,在搗蛋和給糖之間,,數(shù)據(jù)極客們在社交媒體上為這個可愛的網(wǎng)紅詞匯而竊竊私語,。


如果數(shù)據(jù)分布是非正態(tài)的怎么辦,?用切比雪夫不等式呀,!


正態(tài)分布/超自然分布

你覺得這是個玩笑?讓我告訴你,,這不是笑料,。這是嚇人的,真正的萬圣節(jié)精神,!

如果我們無法假設(shè)我們的大部分?jǐn)?shù)據(jù)(商業(yè),、社會、經(jīng)濟(jì)或科學(xué)根源) 至少近似“正態(tài)”(即它們是由一個高斯過程或多個這樣的過程的總和產(chǎn)生的),,那么我們就完蛋了,!

簡單來說吧,以下非常重要的概念將無效~

  • 六西格瑪?shù)母拍?/li>
  • 著名的68-95-99.7規(guī)則
  • 統(tǒng)計分析中p=0.05(來自2西格瑪區(qū)間)的“神圣”概念

夠嚇人了么,?那我們再多說兩句…

無所不在的正態(tài)分布

正態(tài)分布(高斯分布)是最廣為人知的概率分布,。在數(shù)據(jù)科學(xué)的圈里,數(shù)據(jù)科學(xué)家非常喜歡這個分布,。

一方面是因為,,符合這個分布的現(xiàn)象在自然界隨處可見。在概率統(tǒng)計方面,,中心極限定理撐起了一片天,,而中心極限定理的最重要的一個假設(shè)是數(shù)據(jù)的分布符合中心極限定理。

最重要的一點是:簡潔,。

因為無論是正態(tài)分布的性質(zhì)還是表達(dá)式都非常的簡潔:

  • 它的均值(mean),、中值(median)和眾數(shù)(mode)都相同
  • 只需要用兩個參數(shù)就可以確定整個分布

如果數(shù)據(jù)分布是非正態(tài)的怎么辦?用切比雪夫不等式呀!

所以問題在哪呢,?

這看起來都挺棒的啊,,有什么問題嗎?

問題是通常是,,你可能會找到特定的數(shù)據(jù)集分布,,這些分布可能不滿足正態(tài)性,即正態(tài)分布的性質(zhì),。但由于過度依賴于常態(tài)假設(shè),,大多數(shù)業(yè)務(wù)分析框架都是為處理正態(tài)分布數(shù)據(jù)集而量身定做的。

假設(shè)你被要求檢測來自某個流程(工程或業(yè)務(wù))的一批新數(shù)據(jù)是否有意義,。所謂“有意義”是指新的數(shù)據(jù)是否屬于它的“預(yù)期范圍”,,或者在它的“預(yù)期范圍”之內(nèi)。

“期望”是什么,?如何確定范圍,?

我們自動如潛意識驅(qū)使般,測量樣本數(shù)據(jù)集的均值和標(biāo)準(zhǔn)差,,并繼續(xù)檢查新數(shù)據(jù)是否在一定的標(biāo)準(zhǔn)偏差范圍內(nèi),。

如果我們必須在95%的置信區(qū)間下工作,那么我們很高興看到數(shù)據(jù)在2個標(biāo)準(zhǔn)差內(nèi),。如果我們需要更嚴(yán)格的界限,,我們檢查3或4個標(biāo)準(zhǔn)差。我們計算Cpk,,或者我們遵循六西格瑪線的ppm(每百萬零件數(shù))的質(zhì)量水平.

如果數(shù)據(jù)分布是非正態(tài)的怎么辦,?用切比雪夫不等式呀!

所有這些計算都是基于一個隱含的假設(shè),,即人口數(shù)據(jù)(而不是樣本)服從高斯分布,,即生成所有數(shù)據(jù)的基本過程(過去和現(xiàn)在)受下面左側(cè)圖的支配。但是,,如果數(shù)據(jù)在遵循右側(cè)圖形會發(fā)生什么呢,?

如果數(shù)據(jù)分布是非正態(tài)的怎么辦?用切比雪夫不等式呀,!

左,,正態(tài):右,非正態(tài)

或者數(shù)據(jù)分布符合下邊兩個圖形,。

如果數(shù)據(jù)分布是非正態(tài)的怎么辦,?用切比雪夫不等式呀!

當(dāng)數(shù)據(jù)非正態(tài)時,,是否有更普遍的界限呢,?

最終,,即使數(shù)據(jù)是非正態(tài)的,我們?nèi)匀恍枰环N數(shù)學(xué)上完整的方法來限定我們的置信區(qū)間,。這意味著,,我們的計算可能會有一點變化,但我們還是應(yīng)該能說出這樣的話:

“與平均值一定距離處觀察一個新的數(shù)據(jù)點的概率就是這樣和這樣的…”

顯然,,我們需要尋求一個比珍貴的68-95-99.7的高斯界限更普遍的界限(對應(yīng)于與平均值的1/2/3標(biāo)準(zhǔn)差距離),。

幸運的是,還真有一個這樣的公式,,叫做“切比雪夫不等式”,。

什么是切比雪夫界限,它是如何有用的,?

切比雪夫不等式(也稱為Bienaymé-Chebyshev不等式)可以確保,,對于一類廣泛的概率分布,不超過某特定分段的值會比均值的特定距離大,。

大學(xué)生必修課《概率論與數(shù)理統(tǒng)計》里是這么說的:

切比雪夫不等式可以使人們在隨機變量X的分布未知的情況下,,對事件|x-u|<>

表達(dá)式是這樣的:


如果數(shù)據(jù)分布是非正態(tài)的怎么辦?用切比雪夫不等式呀,!


其中,,u為數(shù)學(xué)期望,σ為標(biāo)準(zhǔn)差,,ε為任意正數(shù)

它適用于幾乎無限種類型的概率分布,,并在比正態(tài)更寬松的假設(shè)下工作,。

如何應(yīng)用

正如你現(xiàn)在可以猜到的,,數(shù)據(jù)分析的基本機制不需要改變。你仍將收集數(shù)據(jù)樣本,,并且越大越好,,計算?以前也會算的均值和標(biāo)準(zhǔn)差這兩個量,然后應(yīng)用新的界限,,而不是68-95-99.7規(guī)則,。

如果數(shù)據(jù)分布是非正態(tài)的怎么辦?用切比雪夫不等式呀,!

提取樣本數(shù)據(jù)/計算:均值,,標(biāo)準(zhǔn)差/應(yīng)用切比雪夫界限

該表如下所示(這里k表示許多偏離平均值的標(biāo)準(zhǔn)差):

如果數(shù)據(jù)分布是非正態(tài)的怎么辦?用切比雪夫不等式呀,!

K均值標(biāo)準(zhǔn)差內(nèi)的最小百分比/超出k均值標(biāo)準(zhǔn)差的百分比

痛點在哪呢,?為什么人們不使用這種假設(shè)更弱的約束呢?

通過看表格或數(shù)學(xué)定義痛點很明顯,。切比雪夫規(guī)則在數(shù)據(jù)界的問題上比高斯規(guī)則弱得多,。

首先,與正態(tài)分布的指數(shù)下降模式相比,它遵循1/k2 的圖形,。再例如,,要以95%的置信度設(shè)定界限,需要包含最多4.5標(biāo)準(zhǔn)偏差的數(shù)據(jù),,而對于正態(tài)分布只需要2個標(biāo)準(zhǔn)差,。

總體來說,在數(shù)據(jù)不是正態(tài)分布的時候還是挺有效的,。

那么,,我們還有別的選擇么?

當(dāng)然,,還有切諾夫界以及Hoeffding不等式,,它給出了獨立隨機變量和的指數(shù)銳尾分布。

當(dāng)數(shù)據(jù)看起來非正態(tài)分布時也可以用來代替高斯分布,,但只適用于有高置信度,,且數(shù)據(jù)相互獨立的情況。

不幸的是,,在許多社會和商業(yè)案例中,,數(shù)據(jù)有非常強的相關(guān)性。

敲黑板,,總結(jié)一下

在本文中,,我們學(xué)習(xí)了一種特殊類型的統(tǒng)計界限,它可以應(yīng)用于最廣泛的數(shù)據(jù)分布,,而不依賴于正態(tài)假設(shè),。當(dāng)我們對數(shù)據(jù)的真正來源知之甚少,并且不能假定它遵循高斯分布時,,這是有用的,。因此,它是分析隨意類型數(shù)據(jù)分布的重要工具,。

相關(guān)報道:

https:///what-if-your-data-is-not-normal-d7293f7b8f0

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多