常見分布及其概率分布圖

lhbsd 2022-09-07 發(fā)布于廣東

展開全文

概率分布有兩種類型：離散（discrete）概率分布和連續(xù)（continuous）概率分布。

離散概率分布也稱為概率質(zhì)量函數(shù)（probability mass function）,。離散概率分布包括：

伯努利分布（Bernoulli distribution）
二項分布（binomial distribution）
幾何分布（geometric distribution）
泊松分布（Poisson distribution）等,。

連續(xù)概率分布也稱為概率密度函數(shù)（probability density function）,，它們是具有連續(xù)取值（例如一條實線上的值）的函數(shù)。連續(xù)概率分布包括：

正態(tài)分布（normal distribution）
指數(shù)分布（exponential distribution）
β分布（beta distribution）等,。

1. 兩點分布（伯努利分布）

伯努利試驗：

伯努利試驗是在同樣的條件下重復(fù)地,、各次之間相互獨立地進行的一種試驗。

即只先進行一次伯努利試驗,，該事件發(fā)生的概率為p,，不發(fā)生的概率為1-p。這是一個最簡單的分布,，任何一個只有兩種結(jié)果的隨機現(xiàn)象都服從0-1分布,。

最常見的例子為拋硬幣

其中，期望 E = p E = p E=p ,，方差 D = p ( 1 ? p ) 2 + ( 1 ? p ) ( 0 ? p ) 2 = p ( 1 ? p ) D = p(1-p)^2+(1-p)(0-p)^2 = p(1-p) D=p(1?p)2+(1?p)(0?p)2=p(1?p)

2. 二項分布（n重伯努利分布）

用數(shù)學(xué)符號 X~B(n,p) 來表示二項分布,。即做n個兩點分布的實驗，其中,， E = n p E = np E=np,， D = n p ( 1 ? p ) D = np(1-p) D=np(1?p)。而它的概率分布函數(shù)為: P ( k ) = C n k p k ( 1 ? p ) n ? k P(k)=C_n^kp^k(1-p)^{n-k} P(k)=Cnk?pk(1?p)n?k,。

對于拋硬幣的問題,，做100次實驗，正反面概率都為0.5,，觀察其概率分布函數(shù)：

from scipy.stats import binom
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np

# Binomial distribution
n = 100
p = 0.5
k = np.arange(20,80)
binomial = binom.pmf(k,n,p)
plt.plot(k, binomial, 'o-')
plt.title('binomial:n=%i,p=%.2f'%(n,p))
plt.xlabel('number of success') #正面向上的次數(shù)
plt.ylabel('probalility of success')
plt.grid(True)
plt.show()

結(jié)果顯示如下：
二項分布
觀察概率分布圖,，可以看到，對于n = 100次實驗中,，有50次成功的概率（正面向上）的概率最大,。

3. 幾何分布

用數(shù)學(xué)符號 X~GE(p) 來表示幾何分布。即在n次伯努利實驗中,，第k次實驗才得到第一次成功的概率分布,。其中： P ( k ) = ( 1 ? p ) ( k ? 1 ) p P(k) = (1-p)^{(k-1)}p P(k)=(1?p)(k?1)p。期望值 E = 1 / p E = 1/p E=1/p 推導(dǎo)方法就是利用利用錯位相減法然后求lim - k ->無窮 ,。方差 D = ( 1 ? p ) / p 2 D = (1-p)/p^2 D=(1?p)/p2 推導(dǎo)方法利用了 D ( x ) = E ( x ) 2 ? E ( x 2 ) D(x) = E(x)^2-E(x^2) D(x)=E(x)2?E(x2),，其中 E ( x 2 ) E(x^2) E(x2)求解同上,。

對于拋硬幣的問題，正反面概率都為0.5,，觀察第k次實驗才得到第一次成功的概率分布函數(shù)：

from scipy.stats import geom

# 幾何分布（geometric distribution）
n = 10
p = 0.5
k = np.arange(1,10)
geom_dis = geom.pmf(k,p)
plt.plot(k, geom_dis, 'o-')
plt.title('geometric distribution')
plt.xlabel('i-st item success')
plt.ylabel('probalility of i-st item success')
plt.grid(True)
plt.show()

顯示結(jié)果如下：
幾何分布

4. 泊松分布

用數(shù)學(xué)符號X~P(λ) 表示泊松分布,。描述單位時間/面積內(nèi)，隨機事件發(fā)生的次數(shù),。 P ( x = k ) = λ k k ! e ( ? λ ) , k = 0 , 1 , 2 , . . . λ > 0 P(x = k) = \frac{λ^k}{k!}e^{(-λ) } ,k = 0,1,2, ... λ >0 P(x=k)=k!λk?e(?λ),k=0,1,2,...λ>0,。泊松分布可作為二項分布的極限而得到。

一般的說,，若X~B(n,p),，其中n很大，p很小,，因而 np=λ 不太大時,，X的分布接近于泊松分布 P(λ)。λ：單位時間/面積下,，隨機事件的平均發(fā)生率,。期望值E = λ，方差D = λ,。譬如：某一服務(wù)設(shè)施一定時間內(nèi)到達的人數(shù),、一個月內(nèi)機器損壞的次數(shù)等。

假設(shè)某地區(qū),，一年中發(fā)生槍擊案的平均次數(shù)為2,。考察一下不同次數(shù)的概率分布：

from scipy.stats import poisson

# 泊松分布（poisson distribution)
mu = 2
x = np.arange(10)
plt.plot(x, poisson.pmf(x, mu),'o')
plt.title(u'poisson distribution')
plt.xlabel('shot case count')
plt.ylabel('probalility of shot case count')
plt.grid(True)
plt.show()

結(jié)果顯示如下：

泊松分布
一年內(nèi)的槍擊案發(fā)生次數(shù)的分布如上所示,?？梢钥吹?次和2次的槍擊案發(fā)生概率最高。

與二項分布對比：

# 二項分布和泊松分布對比
fig,ax = plt.subplots(1,1)
 
n = 1000
p = 0.1
x = np.arange(80,120)
p1, = ax.plot(x, binom.pmf(x, n, p),'b*',label = 'binom')
 
mu = n*p
p2, = ax.plot(x, poisson.pmf(x, mu),'ro',label = 'poisson')
 
plt.legend(handles = [p1, p2])
plt.title(u'possion and binomial')
plt.show()

可以看到這里當(dāng)n=1000,，p=0.1時,， λ=100，泊松分布和二項分布已經(jīng)很接近了,。

5. 指數(shù)分布

用數(shù)學(xué)符號 X~E(λ) 表示指數(shù)分布,。

指數(shù)分布的特性：無記憶性。比如燈泡的使用壽命服從指數(shù)分布,，無論他已經(jīng)使用多長一段時間,，假設(shè)為s，只要還沒有損壞,，它能再使用一段時間t 的概率與一件新產(chǎn)品使用時間t 的概率一樣,。

這個證明過程簡單表示： P ( s + t ∣ s ) = P ( s + t , s ) / P ( s ) = F （ s + t ） / F （ s ） = P ( t ) P(s+t| s) = P(s+t , s)/P(s) = F（s+t）/F（s）=P(t) P(s+t∣s)=P(s+t,s)/P(s)=F（s+t）/F（s）=P(t)

它的概率密度函數(shù)為：

f ( x ) = { λ e ? λ x x > 0 , λ > 0 0 x ≤ 0 f(x)= f(x)={λe?λx0?x>0,λ>0x≤0?

期望值 E = 1 / λ E=1/λ E=1/λ，方差 D = 1 / λ 2 D=1/λ^2 D=1/λ2,。

from scipy.stats import expon
# 指數(shù)分布
fig,ax = plt.subplots(1,1)
 
lambdaUse = 2
loc = 0
scale = 1.0/lambdaUse
 
#ppf:累積分布函數(shù)的反函數(shù),。q=0.01時,，ppf就是p(X<x)=0.01時的x值,。
x = np.linspace(expon.ppf(0.01,loc,scale),expon.ppf(0.99,loc,scale),100)
ax.plot(x, expon.pdf(x,loc,scale),'b-',label = 'expon')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.title(u'expon distribution')
plt.show()

顯示結(jié)果如下：

指數(shù)分布

6. 正態(tài)分布（高斯分布）

用數(shù)學(xué)符號 X~N(μ,，σ^2) 表示正態(tài)分布。期望值 E = μ E = μ E=μ,，方差 D = σ 2 D = σ^2 D=σ2,。

正態(tài)分布是比較常見的，譬如學(xué)生考試成績的人數(shù)分布,、身高分布等,。

它的概率密度函數(shù)是：

f ( x ) = 1 2 π σ e x p ( ? ( x ? μ ) 2 2 σ 2 ) f(x)=\frac{1}{\sqrt{2\pi} \sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2}) f(x)=2π ?σ1?exp(?2σ2(x?μ)2?)

from scipy.stats import norm
# 正態(tài)分布（normal distribution）
fig,ax = plt.subplots(1,1)
 
loc = 1
scale = 2.0

#ppf:累積分布函數(shù)的反函數(shù)。q=0.01時,，ppf就是p(X<x)=0.01時的x值,。
x = np.linspace(norm.ppf(0.01,loc,scale),norm.ppf(0.99,loc,scale),100)
ax.plot(x, norm.pdf(x,loc,scale),'-',label = 'norm')
 
plt.title(u'normal distribution')
plt.show()