機(jī)器學(xué)習(xí)所需的所有概率基礎(chǔ)

taotao_2016 2020-05-08

展開全文

鑒于您已閱讀本文,，因此您的概率基本原理已準(zhǔn)備好進(jìn)行機(jī)器學(xué)習(xí)的概率為100％,。

機(jī)器學(xué)習(xí)所需的所有概率基礎(chǔ)

機(jī)器學(xué)習(xí)就是關(guān)于做出預(yù)測(cè)的一切。從預(yù)測(cè)具有多種功能的房屋價(jià)格到基于單細(xì)胞測(cè)序確定腫瘤是否為惡性,。這些預(yù)測(cè)僅僅是預(yù)測(cè)-輸出的值是從數(shù)據(jù)中找到的相關(guān)性得出的-并不是在現(xiàn)實(shí)世界中發(fā)生的確定性值或事件,。

因此，我們可以認(rèn)為機(jī)器學(xué)習(xí)是在給定一定的輸入或公認(rèn)的相關(guān)性的情況下輸出最可能或概率性的結(jié)果（幾乎像條件概率P（x | y）,。因此,，需要對(duì)概率論有扎實(shí)的理解才能理解機(jī)器學(xué)習(xí) 在更深層次上；雖然許多使用機(jī)器學(xué)習(xí)的人僅將其用作'黑匣子'（他們不在乎模型如何提出預(yù)測(cè),，而只是在預(yù)測(cè)本身）,，但其他人卻在意理解ML模型是如何產(chǎn)生的它的預(yù)測(cè)，并利用對(duì)ML模型如何學(xué)習(xí)的理解,，以便更深入地了解他們正在研究的過程的機(jī)制,。

機(jī)器學(xué)習(xí)中的許多'學(xué)習(xí)'過程實(shí)際上是從概率和概率分布中派生的，因此,，了解這些概念背后的數(shù)學(xué)將使我們能夠更深入地理解機(jī)器學(xué)習(xí),。

在本部分中，我將介紹高中水平的統(tǒng)計(jì)信息-如果您已經(jīng)熟悉條件概率和高斯分布的簡單版本,，則可以繼續(xù)進(jìn)行下一部分,。

想象一下，您正在乘坐飛機(jī),，并且正在嘗試預(yù)測(cè)飛機(jī)在特定時(shí)間到達(dá)目的地的可能性,。您需要做的第一件事是了解會(huì)改變到達(dá)時(shí)間的不確定性（波動(dòng)變量）的來源。一些示例包括：

· 湍流

· 更多空中交通

· 閃電

· 其他惡劣天氣

這稱為被建模系統(tǒng)的固有隨機(jī)性,。其他類型的不確定性源于不完整的可觀察性-在我們的情況下,，這可能意味著您可能無法預(yù)測(cè)即將發(fā)生的空中交通流量,。最后，建模不完善,，就是您遺漏了大量變量的可能性,。

上面的每個(gè)變量都由一個(gè)隨機(jī)變量表示，該變量可以具有多個(gè)值,，每個(gè)值都有不同的發(fā)生概率,。

概率密度函數(shù)和質(zhì)量函數(shù)分別用于連續(xù)函數(shù)和離散函數(shù)。

例如,，如果X是特定量湍流的隨機(jī)變量,，則P（X = x）是隨機(jī)變量X取該特定值的概率。

認(rèn)知計(jì)算-一種被廣泛認(rèn)為是……的最重要表現(xiàn)的技能

作為其用戶,，我們已逐漸將技術(shù)視為理所當(dāng)然,。這些天幾乎沒有什么比這更普遍了……

聯(lián)合概率分布與正常分布相似，不同之處在于,，您現(xiàn)在嘗試封裝兩個(gè)變量的隨機(jī)性,，因此

P（x，y）= P（X = x,，Y = y）

本質(zhì)上,，這是兩個(gè)變量采用非常具體的值的可能性。

現(xiàn)在,，如果我告訴您在飛機(jī)上飛行時(shí)到達(dá)目的地的概率為0.000000001,，您將不相信我，但您必須考慮到有足夠的燃料到那里,，飛機(jī)已經(jīng)過檢修,。

P（您會(huì)準(zhǔn)時(shí)到達(dá)目的地|加油，維修已完成）

這稱為條件概率,。

分布類型

高斯分布

好的-現(xiàn)在有許多數(shù)學(xué)上表示分布的方法,。最常見的方法是旋轉(zhuǎn)高斯分布（或正態(tài)分布），而正態(tài)名稱是合適的,，因?yàn)樗亲畛Ｓ糜诮破渌植嫉姆植肌?/p>

您可以使用以下表達(dá)式在笛卡爾坐標(biāo)上繪制方程式：

機(jī)器學(xué)習(xí)所需的所有概率基礎(chǔ)

Sigma和μ分別代表總體標(biāo)準(zhǔn)偏差和均值,。

想象一下,，我們想要一次或三個(gè)繪制兩個(gè)變量的分布,。事情很快就會(huì)瘋狂起來。這是二維高斯分布的樣子,。

機(jī)器學(xué)習(xí)所需的所有概率基礎(chǔ)

> Two dimensional multivariate gaussian distribution, where x1 and x2 represent the values of the tw

機(jī)器學(xué)習(xí)所需的所有概率基礎(chǔ)

> The equation for a multivariate gaussian distribution

在這里,，我們不僅要了解一個(gè)變量的'標(biāo)準(zhǔn)偏差'，還要了解變量之間的相互關(guān)系,。換句話說,，回到我們的飛機(jī)示例中,，如果湍流度更高，這是否意味著壞的可能性更大,？我們使用協(xié)方差矩陣,，其中協(xié)方差由以下公式表示。

機(jī)器學(xué)習(xí)所需的所有概率基礎(chǔ)

本質(zhì)上,，您是將兩個(gè)隨機(jī)變量的標(biāo)準(zhǔn)偏差相乘,，以查看它們之間的比例關(guān)系（彼此之間的依存程度）。

拉普拉斯分布

如果我們將高斯分布和拉普拉斯分布視為丘陵,，那么高斯分布具有一個(gè)平滑的頂點(diǎn),。換句話說，如果您將球放在頂部,，則在加速之前,，球會(huì)開始平穩(wěn)滾動(dòng)。

機(jī)器學(xué)習(xí)所需的所有概率基礎(chǔ)

另一方面,，拉普拉斯分布的山頂非常陡峭,，放在頂部的球?qū)⒘⒓撮_始加速。

機(jī)器學(xué)習(xí)所需的所有概率基礎(chǔ)

信息論就是關(guān)于一組給定的值和概率捕獲多少信息,。

例如,，如果我告訴您您今天要呼吸，會(huì)感到驚訝嗎,？可能不是,，因?yàn)檫@周您有99.99999％的機(jī)會(huì)還活著。因此,，該信息的信息含量低,。另一方面，其他信息具有更高的信息內(nèi)容-可能性越小,，它們擁有的信息就越多,。

例如，如果我告訴你夏天要下雪,，那條信息將具有超高的信息含量,。

讓我們更正式地定義信息（在數(shù)學(xué)上這意味著什么）。

我們可以通過采用特定概率的負(fù)對(duì)數(shù)來計(jì)算信息內(nèi)容,。

現(xiàn)在,，夏季實(shí)際上下雪的可能性確實(shí)很小（例如,，下雪的概率為0.0001％,，不會(huì)下雪的概率為99.9999％）。因此,，我們獲得大量信息的可能性非常低,。

機(jī)器學(xué)習(xí)所需的所有概率基礎(chǔ)

> Equation for self-information content

為了預(yù)測(cè)包含的平均信息量或預(yù)期信息量,，我們從分布中的事件中找到預(yù)期的信息量。

現(xiàn)在,，為什么信息在機(jī)器學(xué)習(xí)中很重要,？有時(shí)，我們輸入一個(gè)概率分布,，然后得到另一個(gè)輸出,，這兩個(gè)都是針對(duì)相同的隨機(jī)變量x，我們想看看分布之間的相似程度,。

對(duì)于采用分派作為輸入的變體自動(dòng)編碼器,，嘗試在幾個(gè)潛在變量中進(jìn)行編碼，然后進(jìn)行解構(gòu)以嘗試重新創(chuàng)建原始分布,，請(qǐng)務(wù)必查看新分布是否具有更多或更少的信息比原來的大一號(hào),。

我們可以通過檢查新發(fā)行版是否具有較高的信息內(nèi)容來檢查模型是否'學(xué)習(xí)'了任何東西。我們可以使用KL（Kullback-Leibler）散度來度量,。

機(jī)器學(xué)習(xí)所需的所有概率基礎(chǔ)

> Equation for Kuller-Leibler Divergence

結(jié)構(gòu)化概率模型

結(jié)構(gòu)化概率模型（具有節(jié)點(diǎn)和邊）用于表示多個(gè)變量和與之關(guān)聯(lián)的條件概率之間的相互作用,。

例如，查看下面的結(jié)構(gòu)化概率模型,。節(jié)點(diǎn)由小寫字母表示,，有向邊表示條件關(guān)系。換句話說,，c取決于b上的a,，因?yàn)閍和b的箭頭指向它。

機(jī)器學(xué)習(xí)所需的所有概率基礎(chǔ)

我們可以通過查看每個(gè)變量的條件概率乘積來表示找到所有五個(gè)變量的某種組合的概率,。

機(jī)器學(xué)習(xí)所需的所有概率基礎(chǔ)

'給定'符號(hào)右側(cè)的變量表示提供有向箭頭的節(jié)點(diǎn),。

無向模型不需要定向邊緣（帶有箭頭）。它們只是在表示依賴關(guān)系的變量之間有一行,。

機(jī)器學(xué)習(xí)所需的所有概率基礎(chǔ)

無向模型中的每個(gè)集團(tuán)都由相互連接的節(jié)點(diǎn)組成,。例如，在上圖中,，a,，b和c是集團(tuán)。每個(gè)集團(tuán)都有與之關(guān)聯(lián)的獨(dú)特功能,，可以從中得出一個(gè)因素,。

就是這樣-您需要了解的有關(guān)機(jī)器學(xué)習(xí)概率的全部信息:)

(本文翻譯自Mukundh Murthy的文章《All the Probability Fundamentals you need for Machine Learning》，參考：https:///datadriveninvestor/all-the-probability-fundamentals-you-need-for-machine-learning-93a177dc9aea)

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： taotao_2016 > 《概率》

舉報(bào)/認(rèn)領(lǐng)