大數(shù)據(jù)文摘出品 編譯:蔣寶尚,、茶西 上圖是萬圣節(jié)的一周,在搗蛋和給糖之間,,數(shù)據(jù)極客們在社交媒體上為這個可愛的網(wǎng)紅詞匯而竊竊私語,。 正態(tài)分布/超自然分布 你覺得這是個玩笑?讓我告訴你,,這不是笑料,。這是嚇人的,真正的萬圣節(jié)精神,! 如果我們無法假設(shè)我們的大部分?jǐn)?shù)據(jù)(商業(yè),、社會、經(jīng)濟(jì)或科學(xué)根源) 至少近似“正態(tài)”(即它們是由一個高斯過程或多個這樣的過程的總和產(chǎn)生的),,那么我們就完蛋了,! 簡單來說吧,以下非常重要的概念將無效~
夠嚇人了么,?那我們再多說兩句… 無所不在的正態(tài)分布 正態(tài)分布(高斯分布)是最廣為人知的概率分布,。在數(shù)據(jù)科學(xué)的圈里,數(shù)據(jù)科學(xué)家非常喜歡這個分布,。 一方面是因為,,符合這個分布的現(xiàn)象在自然界隨處可見。在概率統(tǒng)計方面,,中心極限定理撐起了一片天,,而中心極限定理的最重要的一個假設(shè)是數(shù)據(jù)的分布符合中心極限定理。 最重要的一點是:簡潔,。 因為無論是正態(tài)分布的性質(zhì)還是表達(dá)式都非常的簡潔:
所以問題在哪呢,? 這看起來都挺棒的啊,,有什么問題嗎? 問題是通常是,,你可能會找到特定的數(shù)據(jù)集分布,,這些分布可能不滿足正態(tài)性,即正態(tài)分布的性質(zhì),。但由于過度依賴于常態(tài)假設(shè),,大多數(shù)業(yè)務(wù)分析框架都是為處理正態(tài)分布數(shù)據(jù)集而量身定做的。 假設(shè)你被要求檢測來自某個流程(工程或業(yè)務(wù))的一批新數(shù)據(jù)是否有意義,。所謂“有意義”是指新的數(shù)據(jù)是否屬于它的“預(yù)期范圍”,,或者在它的“預(yù)期范圍”之內(nèi)。 “期望”是什么,?如何確定范圍,? 我們自動如潛意識驅(qū)使般,測量樣本數(shù)據(jù)集的均值和標(biāo)準(zhǔn)差,,并繼續(xù)檢查新數(shù)據(jù)是否在一定的標(biāo)準(zhǔn)偏差范圍內(nèi),。 如果我們必須在95%的置信區(qū)間下工作,那么我們很高興看到數(shù)據(jù)在2個標(biāo)準(zhǔn)差內(nèi),。如果我們需要更嚴(yán)格的界限,,我們檢查3或4個標(biāo)準(zhǔn)差。我們計算Cpk,,或者我們遵循六西格瑪線的ppm(每百萬零件數(shù))的質(zhì)量水平. 所有這些計算都是基于一個隱含的假設(shè),,即人口數(shù)據(jù)(而不是樣本)服從高斯分布,,即生成所有數(shù)據(jù)的基本過程(過去和現(xiàn)在)受下面左側(cè)圖的支配。但是,,如果數(shù)據(jù)在遵循右側(cè)圖形會發(fā)生什么呢,? 左,,正態(tài):右,非正態(tài) 或者數(shù)據(jù)分布符合下邊兩個圖形,。 當(dāng)數(shù)據(jù)非正態(tài)時,,是否有更普遍的界限呢,? 最終,,即使數(shù)據(jù)是非正態(tài)的,我們?nèi)匀恍枰环N數(shù)學(xué)上完整的方法來限定我們的置信區(qū)間,。這意味著,,我們的計算可能會有一點變化,但我們還是應(yīng)該能說出這樣的話:
顯然,,我們需要尋求一個比珍貴的68-95-99.7的高斯界限更普遍的界限(對應(yīng)于與平均值的1/2/3標(biāo)準(zhǔn)差距離),。 幸運的是,還真有一個這樣的公式,,叫做“切比雪夫不等式”,。 什么是切比雪夫界限,它是如何有用的,? 切比雪夫不等式(也稱為Bienaymé-Chebyshev不等式)可以確保,,對于一類廣泛的概率分布,不超過某特定分段的值會比均值的特定距離大,。 大學(xué)生必修課《概率論與數(shù)理統(tǒng)計》里是這么說的:
表達(dá)式是這樣的: 其中,,u為數(shù)學(xué)期望,σ為標(biāo)準(zhǔn)差,,ε為任意正數(shù) 它適用于幾乎無限種類型的概率分布,,并在比正態(tài)更寬松的假設(shè)下工作,。 如何應(yīng)用 正如你現(xiàn)在可以猜到的,,數(shù)據(jù)分析的基本機制不需要改變。你仍將收集數(shù)據(jù)樣本,,并且越大越好,,計算?以前也會算的均值和標(biāo)準(zhǔn)差這兩個量,然后應(yīng)用新的界限,,而不是68-95-99.7規(guī)則,。 提取樣本數(shù)據(jù)/計算:均值,,標(biāo)準(zhǔn)差/應(yīng)用切比雪夫界限 該表如下所示(這里k表示許多偏離平均值的標(biāo)準(zhǔn)差): K均值標(biāo)準(zhǔn)差內(nèi)的最小百分比/超出k均值標(biāo)準(zhǔn)差的百分比 痛點在哪呢,?為什么人們不使用這種假設(shè)更弱的約束呢? 通過看表格或數(shù)學(xué)定義痛點很明顯,。切比雪夫規(guī)則在數(shù)據(jù)界的問題上比高斯規(guī)則弱得多,。 首先,與正態(tài)分布的指數(shù)下降模式相比,它遵循1/k2 的圖形,。再例如,,要以95%的置信度設(shè)定界限,需要包含最多4.5標(biāo)準(zhǔn)偏差的數(shù)據(jù),,而對于正態(tài)分布只需要2個標(biāo)準(zhǔn)差,。 總體來說,在數(shù)據(jù)不是正態(tài)分布的時候還是挺有效的,。 那么,,我們還有別的選擇么? 當(dāng)然,,還有切諾夫界以及Hoeffding不等式,,它給出了獨立隨機變量和的指數(shù)銳尾分布。 當(dāng)數(shù)據(jù)看起來非正態(tài)分布時也可以用來代替高斯分布,,但只適用于有高置信度,,且數(shù)據(jù)相互獨立的情況。 不幸的是,,在許多社會和商業(yè)案例中,,數(shù)據(jù)有非常強的相關(guān)性。 敲黑板,,總結(jié)一下 在本文中,,我們學(xué)習(xí)了一種特殊類型的統(tǒng)計界限,它可以應(yīng)用于最廣泛的數(shù)據(jù)分布,,而不依賴于正態(tài)假設(shè),。當(dāng)我們對數(shù)據(jù)的真正來源知之甚少,并且不能假定它遵循高斯分布時,,這是有用的,。因此,它是分析隨意類型數(shù)據(jù)分布的重要工具,。 相關(guān)報道: https:///what-if-your-data-is-not-normal-d7293f7b8f0 |
|