#如何成為數(shù)據(jù)科學(xué)家# #統(tǒng)計(jì)概念#
本文翻譯自Soner Y?ld?r?m《10 Must-Know Statistical Concepts for Data Scientists》來(lái)源:Medium
數(shù)據(jù)科學(xué)是一個(gè)跨學(xué)科領(lǐng)域。數(shù)據(jù)科學(xué)的基石之一是統(tǒng)計(jì)學(xué),。如果沒(méi)有相當(dāng)水平的統(tǒng)計(jì)知識(shí),,就很難理解或解釋數(shù)據(jù)。
統(tǒng)計(jì)數(shù)據(jù)幫助我們解釋數(shù)據(jù),。我們使用統(tǒng)計(jì)數(shù)據(jù)根據(jù)從總體中抽取的樣本來(lái)推斷有關(guān)總體的結(jié)果,。此外,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)有很多重疊之處,。
長(zhǎng)話短說(shuō),,要想成為一名數(shù)據(jù)科學(xué)家,需要學(xué)習(xí)統(tǒng)計(jì)學(xué)及其概念,。在這篇文章中,,我將嘗試解釋 10 個(gè)基本的統(tǒng)計(jì)概念。
1.總體和樣本
總體是一個(gè)組中的所有元素,。例如,,美國(guó)大學(xué)生是包括美國(guó)所有大學(xué)生的總體。歐洲的 25 歲人口包括所有符合描述的人口,。
對(duì)總體進(jìn)行分析并不總是可行或可能的,,因?yàn)槲覀儾荒苁占粋€(gè)總體的所有數(shù)據(jù),因此,,我們使用樣本,。
2. 正態(tài)分布
概率分布是顯示事件或?qū)嶒?yàn)結(jié)果概率的函數(shù),。考慮數(shù)據(jù)框中的一個(gè)特征(即列),。這個(gè)特征是一個(gè)變量,,它的概率分布函數(shù)顯示了它可以取的值的可能性。
概率分布函數(shù)在預(yù)測(cè)分析或機(jī)器學(xué)習(xí)中非常有用,。我們可以根據(jù)來(lái)自該總體的樣本的概率分布函數(shù)對(duì)總體進(jìn)行預(yù)測(cè)。
正態(tài)(高斯)分布是一種看起來(lái)像鐘形的概率分布函數(shù),。
下圖是使用 NumPy 的 numpy.random.randn 函數(shù)返回的隨機(jī)樣本創(chuàng)建的典型正態(tài)分布曲線的形狀,。
典型的正態(tài)分布曲線
典型的正態(tài)分布曲線
曲線的峰值表示變量可以采用的最可能值。當(dāng)我們遠(yuǎn)離峰值時(shí),,這些值的概率會(huì)降低,。
以下是正態(tài)分布的更正式表示。百分比表示落在該區(qū)域的數(shù)據(jù)的百分比,。當(dāng)我們遠(yuǎn)離均值時(shí),,我們開(kāi)始看到更多的極值,但被觀察到的概率卻越來(lái)越小,。
3. 集中趨勢(shì)度量
集中趨勢(shì)是概率分布的中心(或典型)值。最常見(jiàn)的集中趨勢(shì)度量是均值,、中位數(shù)和眾數(shù)。
- 均值是一系列值的平均值,;
- 中值是按升序或降序?qū)χ颠M(jìn)行排序時(shí)位于中間的值,;
- 眾數(shù)是最常出現(xiàn)的值。
4. 方差和標(biāo)準(zhǔn)差
方差是值之間變化的度量,。它的計(jì)算方法是將每個(gè)值與平均值差值的平方相加,,然后將總和除以樣本數(shù)。
標(biāo)準(zhǔn)差是衡量值的分布情況,,更具體地說(shuō),,它是方差的平方根。
注意:均值,、中位數(shù),、眾數(shù)、方差和標(biāo)準(zhǔn)差是有助于解釋變量的基本描述性統(tǒng)計(jì)量,。
5. 協(xié)方差和相關(guān)性
協(xié)方差是一種定量度量,,表示兩個(gè)變量的變化相互匹配的程度。更具體地說(shuō),,協(xié)方差根據(jù)與均值(或預(yù)期)值的偏差來(lái)比較兩個(gè)變量,。
下圖顯示了隨機(jī)變量 X 和 Y 的一些值。橙色點(diǎn)代表這些變量的均值,。這些值相對(duì)于變量的平均值變化類似,。因此,X 和 Y 之間存在正協(xié)方差,。
兩個(gè)隨機(jī)變量的協(xié)方差公式:
其中 E 是期望值,,μ 是平均值。
注意:變量與自身的協(xié)方差就是該變量的方差,。
相關(guān)性是通過(guò)每個(gè)變量的標(biāo)準(zhǔn)差對(duì)協(xié)方差進(jìn)行歸一化,。
其中 σ 是標(biāo)準(zhǔn)差。
這種歸一化抵消了單位,,相關(guān)值始終在 0 和 1 之間。請(qǐng)注意,,這是絕對(duì)值,。如果兩個(gè)變量之間存在負(fù)相關(guān),則相關(guān)性介于 0 和 -1 之間,。如果我們比較三個(gè)或更多變量之間的關(guān)系,,最好使用相關(guān)性,因?yàn)橹档姆秶騿挝豢赡軙?huì)導(dǎo)致錯(cuò)誤的假設(shè),。
6. 中心極限定理
在包括自然科學(xué)和社會(huì)科學(xué)在內(nèi)的許多領(lǐng)域中,,當(dāng)隨機(jī)變量的分布未知時(shí),使用正態(tài)分布,。
中心極限定理 (CLT) 證明了為什么可以在這種情況下使用正態(tài)分布,。根據(jù) CLT,當(dāng)我們從分布中抽取更多樣本時(shí),,無(wú)論總體分布如何,,樣本平均值都將趨向于正態(tài)分布。
考慮一個(gè)案例,,我們需要了解一個(gè)國(guó)家所有 20 歲人口的身高分布,。收集這些數(shù)據(jù)幾乎是不可能的,當(dāng)然也不切實(shí)際,。所以,,我們抽取全國(guó)20歲的人作為樣本,計(jì)算樣本中人的平均身高,。CLT 指出,,隨著我們從總體中抽取更多樣本,,抽樣分布將接近正態(tài)分布。
為什么正態(tài)分布如此重要,?正態(tài)分布用平均值和標(biāo)準(zhǔn)差來(lái)描述,,這很容易計(jì)算。而且,,如果我們知道正態(tài)分布的均值和標(biāo)準(zhǔn)差,,我們幾乎可以計(jì)算出關(guān)于它的所有內(nèi)容。
7. P 值
P 值是隨機(jī)變量取值的可能性,??紤]我們有一個(gè)隨機(jī)變量 A 和值 x。x 的 p 值是 A 取值 x 或任何具有相同或更少機(jī)會(huì)被觀察到的值的概率,。下圖顯示了 A 的概率分布,,很可能會(huì)觀察到 10 左右的值。隨著值的升高或降低,,概率會(huì)降低,。
我們有另一個(gè)隨機(jī)變量 B,想看看 B 是否大于 A,。從 B 獲得的平均樣本平均值是 12.5 ,。12.5 的 p 值是下圖中的綠色區(qū)域。綠色區(qū)域表示獲得 12.5 或更極端值的概率(在我們的例子中高于 12.5),。
假設(shè) p 值為 0.11,,但我們?nèi)绾谓忉屗縫 值為 0.11 意味著我們對(duì)結(jié)果有 89% 的把握,。換句話說(shuō),,結(jié)果有 11% 的幾率是隨機(jī)的。類似地,,p 值為 0.05 意味著結(jié)果有 5% 的可能性是由于隨機(jī)機(jī)會(huì)造成的,。
注意:p 值越低,結(jié)果越確定,。
如果來(lái)自隨機(jī)變量 B 的樣本均值的平均值結(jié)果為 15,,這是一個(gè)更極端的值,則 p 值將低于 0.11,。
8. 隨機(jī)變量的期望值
隨機(jī)變量的期望值是該變量所有可能值的加權(quán)平均值,。這里的權(quán)重是指隨機(jī)變量取特定值的概率。
對(duì)于離散和連續(xù)隨機(jī)變量,,期望值的計(jì)算方式不同,。
離散隨機(jī)變量取有限多個(gè)或可數(shù)無(wú)限多個(gè)值。一年中的下雨天數(shù)是一個(gè)離散的隨機(jī)變量,。
連續(xù)隨機(jī)變量取無(wú)數(shù)個(gè)無(wú)窮多的值,。例如,從家到辦公室的時(shí)間是一個(gè)連續(xù)隨機(jī)變量,。根據(jù)您測(cè)量它的方式(分鐘,、秒、納秒等),,它需要無(wú)數(shù)個(gè)無(wú)窮多的值,。
離散隨機(jī)變量的期望值公式為:
連續(xù)隨機(jī)變量的期望值是用相同的邏輯但使用不同的方法計(jì)算的。由于連續(xù)隨機(jī)變量可以取不可數(shù)的無(wú)窮多個(gè)值,,因此我們不能談?wù)撊√囟ㄖ档淖兞?。我們更專注于價(jià)值范圍。
9. 條件概率
概率僅表示事件發(fā)生的可能性,,并且始終取 0 到 1(包括 0 和 1)之間的值,。事件 A 的概率表示為 p(A) 并計(jì)算為期望結(jié)果的數(shù)量除以所有結(jié)果的數(shù)量。例如,,當(dāng)您擲骰子時(shí),,得到小于 3 的數(shù)字的概率為 2 / 6。所需結(jié)果的數(shù)量為 2(1 和 2),;總結(jié)果數(shù)為 6,。
條件概率是給定與事件 A 相關(guān)的另一個(gè)事件已經(jīng)發(fā)生的情況下事件 A 發(fā)生的可能性。
假設(shè)我們將 6 個(gè)藍(lán)色球和 4 個(gè)黃色球放在兩個(gè)盒子中,,如下所示。我請(qǐng)你隨機(jī)挑選一個(gè)球,。得到藍(lán)球的概率是 6 / 10 = 0.6,。如果我讓你從盒子 A 中挑選一個(gè)球怎么辦?撿到藍(lán)球的概率明顯降低,。這里的條件是從盒子 A 中挑選,,這顯然會(huì)改變事件的概率(挑選一個(gè)藍(lán)色球)。給定事件 B 發(fā)生的事件 A 的概率表示為 p(A|B),。
10. 貝葉斯定理
根據(jù)貝葉斯定理,,在事件B已經(jīng)發(fā)生的情況下,可以使用事件A和事件B的概率以及在事件A已經(jīng)發(fā)生的情況下事件B的概率來(lái)計(jì)算事件A的概率,。
貝葉斯定理是如此基本和普遍,,以至于存在一個(gè)稱為“貝葉斯統(tǒng)計(jì)”的領(lǐng)域。在貝葉斯統(tǒng)計(jì)中,,作為證據(jù)的事件或假設(shè)的概率開(kāi)始發(fā)揮作用,。因此,先驗(yàn)概率和后驗(yàn)概率因證據(jù)而異,。
樸素貝葉斯算法的結(jié)構(gòu)是結(jié)合貝葉斯定理和一些樸素假設(shè),。樸素貝葉斯算法假設(shè)特征相互獨(dú)立,,特征之間沒(méi)有相關(guān)性。
結(jié)論
我們已經(jīng)介紹了一些基本的統(tǒng)計(jì)概念,。如果你正在或計(jì)劃在數(shù)據(jù)科學(xué)領(lǐng)域工作,,你很可能會(huì)遇到這些概念。
當(dāng)然,,關(guān)于統(tǒng)計(jì)學(xué)還有很多東西需要學(xué)習(xí),。一旦您了解了基礎(chǔ)知識(shí),您就可以穩(wěn)步地學(xué)習(xí)高級(jí)主題,。