鑒于您已閱讀本文,,因此您的概率基本原理已準(zhǔn)備好進(jìn)行機(jī)器學(xué)習(xí)的概率為100%,。 機(jī)器學(xué)習(xí)就是關(guān)于做出預(yù)測(cè)的一切。 從預(yù)測(cè)具有多種功能的房屋價(jià)格到基于單細(xì)胞測(cè)序確定腫瘤是否為惡性,。 這些預(yù)測(cè)僅僅是預(yù)測(cè)-輸出的值是從數(shù)據(jù)中找到的相關(guān)性得出的-并不是在現(xiàn)實(shí)世界中發(fā)生的確定性值或事件,。 因此,我們可以認(rèn)為機(jī)器學(xué)習(xí)是在給定一定的輸入或公認(rèn)的相關(guān)性的情況下輸出最可能或概率性的結(jié)果(幾乎像條件概率P(x | y),。因此,,需要對(duì)概率論有扎實(shí)的理解才能理解機(jī)器學(xué)習(xí) 在更深層次上;雖然許多使用機(jī)器學(xué)習(xí)的人僅將其用作'黑匣子'(他們不在乎模型如何提出預(yù)測(cè),,而只是在預(yù)測(cè)本身),,但其他人卻在意理解ML模型是如何產(chǎn)生的 它的預(yù)測(cè),并利用對(duì)ML模型如何學(xué)習(xí)的理解,,以便更深入地了解他們正在研究的過程的機(jī)制,。 機(jī)器學(xué)習(xí)中的許多'學(xué)習(xí)'過程實(shí)際上是從概率和概率分布中派生的,因此,,了解這些概念背后的數(shù)學(xué)將使我們能夠更深入地理解機(jī)器學(xué)習(xí),。 在本部分中,我將介紹高中水平的統(tǒng)計(jì)信息-如果您已經(jīng)熟悉條件概率和高斯分布的簡單版本,,則可以繼續(xù)進(jìn)行下一部分,。 想象一下,您正在乘坐飛機(jī),,并且正在嘗試預(yù)測(cè)飛機(jī)在特定時(shí)間到達(dá)目的地的可能性,。 您需要做的第一件事是了解會(huì)改變到達(dá)時(shí)間的不確定性(波動(dòng)變量)的來源。 一些示例包括: · 湍流 · 更多空中交通 · 閃電 · 其他惡劣天氣 這稱為被建模系統(tǒng)的固有隨機(jī)性,。 其他類型的不確定性源于不完整的可觀察性-在我們的情況下,,這可能意味著您可能無法預(yù)測(cè)即將發(fā)生的空中交通流量,。 最后,建模不完善,,就是您遺漏了大量變量的可能性,。 上面的每個(gè)變量都由一個(gè)隨機(jī)變量表示,該變量可以具有多個(gè)值,,每個(gè)值都有不同的發(fā)生概率,。 概率密度函數(shù)和質(zhì)量函數(shù)分別用于連續(xù)函數(shù)和離散函數(shù)。 例如,,如果X是特定量湍流的隨機(jī)變量,,則P(X = x)是隨機(jī)變量X取該特定值的概率。 認(rèn)知計(jì)算-一種被廣泛認(rèn)為是……的最重要表現(xiàn)的技能作為其用戶,,我們已逐漸將技術(shù)視為理所當(dāng)然,。 這些天幾乎沒有什么比這更普遍了……聯(lián)合概率分布與正常分布相似,不同之處在于,,您現(xiàn)在嘗試封裝兩個(gè)變量的隨機(jī)性,,因此 P(x,y)= P(X = x,,Y = y) 本質(zhì)上,,這是兩個(gè)變量采用非常具體的值的可能性。 現(xiàn)在,,如果我告訴您在飛機(jī)上飛行時(shí)到達(dá)目的地的概率為0.000000001,,您將不相信我,但您必須考慮到有足夠的燃料 到那里,,飛機(jī)已經(jīng)過檢修,。 P(您會(huì)準(zhǔn)時(shí)到達(dá)目的地|加油,維修已完成) 這稱為條件概率,。 分布類型高斯分布好的-現(xiàn)在有許多數(shù)學(xué)上表示分布的方法,。 最常見的方法是旋轉(zhuǎn)高斯分布(或正態(tài)分布),而正態(tài)名稱是合適的,,因?yàn)樗亲畛S糜诮破渌植嫉姆植肌?/p> 您可以使用以下表達(dá)式在笛卡爾坐標(biāo)上繪制方程式: Sigma和μ分別代表總體標(biāo)準(zhǔn)偏差和均值,。 想象一下,,我們想要一次或三個(gè)繪制兩個(gè)變量的分布,。 事情很快就會(huì)瘋狂起來。 這是二維高斯分布的樣子,。 > Two dimensional multivariate gaussian distribution, where x1 and x2 represent the values of the tw > The equation for a multivariate gaussian distribution 在這里,,我們不僅要了解一個(gè)變量的'標(biāo)準(zhǔn)偏差',還要了解變量之間的相互關(guān)系,。 換句話說,,回到我們的飛機(jī)示例中,,如果湍流度更高,這是否意味著壞的可能性更大,? 我們使用協(xié)方差矩陣,,其中協(xié)方差由以下公式表示。 本質(zhì)上,,您是將兩個(gè)隨機(jī)變量的標(biāo)準(zhǔn)偏差相乘,,以查看它們之間的比例關(guān)系(彼此之間的依存程度)。 拉普拉斯分布如果我們將高斯分布和拉普拉斯分布視為丘陵,,那么高斯分布具有一個(gè)平滑的頂點(diǎn),。 換句話說,如果您將球放在頂部,,則在加速之前,,球會(huì)開始平穩(wěn)滾動(dòng)。 另一方面,,拉普拉斯分布的山頂非常陡峭,,放在頂部的球?qū)⒘⒓撮_始加速。 信息論就是關(guān)于一組給定的值和概率捕獲多少信息,。 例如,,如果我告訴您您今天要呼吸,會(huì)感到驚訝嗎,? 可能不是,,因?yàn)檫@周您有99.99999%的機(jī)會(huì)還活著。 因此,,該信息的信息含量低,。 另一方面,其他信息具有更高的信息內(nèi)容-可能性越小,,它們擁有的信息就越多,。 例如,如果我告訴你夏天要下雪,,那條信息將具有超高的信息含量,。 讓我們更正式地定義信息(在數(shù)學(xué)上這意味著什么)。 我們可以通過采用特定概率的負(fù)對(duì)數(shù)來計(jì)算信息內(nèi)容,。 現(xiàn)在,,夏季實(shí)際上下雪的可能性確實(shí)很小(例如,,下雪的概率為0.0001%,,不會(huì)下雪的概率為99.9999%)。 因此,,我們獲得大量信息的可能性非常低,。 > Equation for self-information content 為了預(yù)測(cè)包含的平均信息量或預(yù)期信息量,,我們從分布中的事件中找到預(yù)期的信息量。 現(xiàn)在,,為什么信息在機(jī)器學(xué)習(xí)中很重要,? 有時(shí),我們輸入一個(gè)概率分布,,然后得到另一個(gè)輸出,,這兩個(gè)都是針對(duì)相同的隨機(jī)變量x,我們想看看分布之間的相似程度,。 對(duì)于采用分派作為輸入的變體自動(dòng)編碼器,,嘗試在幾個(gè)潛在變量中進(jìn)行編碼,然后進(jìn)行解構(gòu)以嘗試重新創(chuàng)建原始分布,,請(qǐng)務(wù)必查看新分布是否具有更多或更少的信息 比原來的大一號(hào),。 我們可以通過檢查新發(fā)行版是否具有較高的信息內(nèi)容來檢查模型是否'學(xué)習(xí)'了任何東西。 我們可以使用KL(Kullback-Leibler)散度來度量,。 > Equation for Kuller-Leibler Divergence 結(jié)構(gòu)化概率模型結(jié)構(gòu)化概率模型(具有節(jié)點(diǎn)和邊)用于表示多個(gè)變量和與之關(guān)聯(lián)的條件概率之間的相互作用,。 例如,查看下面的結(jié)構(gòu)化概率模型,。 節(jié)點(diǎn)由小寫字母表示,,有向邊表示條件關(guān)系。 換句話說,,c取決于b上的a,,因?yàn)閍和b的箭頭指向它。 我們可以通過查看每個(gè)變量的條件概率乘積來表示找到所有五個(gè)變量的某種組合的概率,。 '給定'符號(hào)右側(cè)的變量表示提供有向箭頭的節(jié)點(diǎn),。 無向模型不需要定向邊緣(帶有箭頭)。 它們只是在表示依賴關(guān)系的變量之間有一行,。 無向模型中的每個(gè)集團(tuán)都由相互連接的節(jié)點(diǎn)組成,。 例如,在上圖中,,a,,b和c是集團(tuán)。 每個(gè)集團(tuán)都有與之關(guān)聯(lián)的獨(dú)特功能,,可以從中得出一個(gè)因素,。 就是這樣-您需要了解的有關(guān)機(jī)器學(xué)習(xí)概率的全部信息:) (本文翻譯自Mukundh Murthy的文章《All the Probability Fundamentals you need for Machine Learning》,參考:https:///datadriveninvestor/all-the-probability-fundamentals-you-need-for-machine-learning-93a177dc9aea) |
|