久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

機(jī)器學(xué)習(xí)中的數(shù)學(xué)基礎(chǔ)

 昵稱16619343 2018-12-17

一,、微積分與概率論

1、 微分學(xué):

中國(guó)教科書中通常首先學(xué)習(xí)導(dǎo)數(shù),,例如中學(xué)時(shí)期的切線方程,,函數(shù)單調(diào)性,零值點(diǎn)和極值點(diǎn)個(gè)數(shù)等等,,而直到大學(xué)時(shí)期才引入微分的概念,,導(dǎo)致大多數(shù)人通常并不了解微分和導(dǎo)數(shù)之間的關(guān)系。

函數(shù)在點(diǎn)a處可微,,指它的值在所研究點(diǎn)的鄰域內(nèi)其變化近似是線性的,,并且這種近似的誤差是(x-a)的高階無(wú)窮小。而導(dǎo)數(shù)描述的是,,微分定義中線性變化的速度,,即系數(shù)。即,,f(x)-f(a)=L*(x-a)+o(x-a),,等式右邊是函數(shù)f(x)在a點(diǎn)處的微分,而系數(shù)L就是其導(dǎo)數(shù)f'(x),。

當(dāng)函數(shù)一階導(dǎo)數(shù)的線性逼近不能滿足運(yùn)算要求時(shí),,通常會(huì)對(duì)無(wú)窮小量o(x-a)繼續(xù)逼近,因?yàn)闆]有更好的辦法,,所以數(shù)學(xué)家選擇繼續(xù)使用高階導(dǎo)數(shù)線性逼近,。于是這也就誕生了一元微分學(xué)中的巔峰成就:泰勒公式。而數(shù)學(xué)史上最美的歐拉公式,也可以由exp(x),,sinx和cosx的泰勒展開推導(dǎo)出來(lái),。微分方程同樣也可以從泰勒展開的角度求解其解析函數(shù)。

同理,,對(duì)于多元函數(shù)的全微分而言,,函數(shù)在多個(gè)方向的全微分則使用各個(gè)方向偏導(dǎo)數(shù)為系數(shù),對(duì)其進(jìn)行線性逼近,。

衍生到機(jī)器學(xué)習(xí)的應(yīng)用上,,微分學(xué)主要用于求解損失函數(shù)的極小值問題。即,,對(duì)于一個(gè)無(wú)窮可微的函數(shù)J(x),,使用梯度下降法和牛頓法尋找它的極小值。兩種方法最大的區(qū)別在于,,梯度下降法直接沿著函數(shù)梯度下降最快,,即方向?qū)?shù)最大,函數(shù)增長(zhǎng)最快的方向迭代優(yōu)化尋找極值點(diǎn),,而牛頓法則是,,間接的通過不斷求解某一特定點(diǎn)鄰域附近的極值點(diǎn),來(lái)迭代優(yōu)化尋找極值,。梯度下降可以直接求解到極小值點(diǎn),,而牛頓法則只能找到極值點(diǎn),還需要額外判斷函數(shù)鄰域是否為凸函數(shù)來(lái)判別,。

從理論上說(shuō),,梯度下降法中的“梯度方向”首先定義的便是函數(shù)增長(zhǎng)的方向,然后通過對(duì)多變量函數(shù)的一階線性逼近來(lái)選擇其方向?qū)?shù)最大的方向作為迭代優(yōu)化的梯度方向,,雖然我們并不能精確的知道極值點(diǎn)在什么地方,,但能得到極值點(diǎn)所處的方向。

舉例說(shuō)明,,在一元函數(shù)中使用梯度下降法尋找極小值,,要使 f(x+x) - f(x) ≈ f'(x)·x <= 0="" 恒成立,="" 手到擒來(lái)x="-f'(x),。因此,,只需使x始終向著-f'(x)的方向移動(dòng),便可迭代找到極小值,,多元函數(shù)同理,。而牛頓法通常用來(lái)求解函數(shù)的零值點(diǎn),從計(jì)算機(jī)的角度來(lái)看,,要使f(x)≈f(a)" +f'(a)·(x-a)≈0,,="">
推出 x=a-,,通過不斷的迭代,當(dāng)x收斂時(shí)就能求解出函數(shù)值為0的近似解,。

顯而易見,,梯度下降法和牛頓法求零值點(diǎn)的本質(zhì)相同。那么,,一個(gè)求解函數(shù)零值的牛頓法,如何應(yīng)用到求解極值問題呢,?我們知道,,函數(shù)的極值點(diǎn)一定是存在于其駐點(diǎn),而駐點(diǎn)又是導(dǎo)數(shù)為0的點(diǎn),,于是函數(shù)的極值點(diǎn)必然位于其導(dǎo)數(shù)為0的點(diǎn),,所以牛頓法需要二階逼近。

因此,,從求解極值的角度看,,牛頓法和梯度下降法本質(zhì)上都是對(duì)目標(biāo)函數(shù)的局部逼近,由于梯度下降是一階逼近,,它的計(jì)算簡(jiǎn)單但收斂速度慢,,而牛頓法則剛好相反,具體使用哪個(gè)方法則還需要具體問題具體分析,。

那求解到局部極值點(diǎn)并不能說(shuō)明損失函數(shù)J(x)最優(yōu)?。磕亲顑?yōu)化問題如何保證呢,?這時(shí)就需要研究損失函數(shù)J(x)的凹凸性了,,由Jesen不等式得,如果一個(gè)函數(shù)為凸函數(shù),,則函數(shù)的局部極值點(diǎn)就是其全局最值點(diǎn),。Jesen不等式:若f(a·x1+b*x2) <= a·f(x1)+b·f(x2),a+b="">

2,、 積分學(xué)與概率統(tǒng)計(jì):

因?yàn)闃颖究臻g中所有事件的概率和為1,,將每個(gè)自變量看作一個(gè)特定事件,Jesen不等式又可以表示為所有事件發(fā)生的期望所對(duì)應(yīng)的函數(shù)值小于等于各個(gè)事件所對(duì)應(yīng)函數(shù)值的期望,,這時(shí)就將概率論和積分學(xué)聯(lián)系到了一起,。

通常所說(shuō)的積分,都是黎曼積分,。黎曼積分就是采用無(wú)限逼近的方法,,求解曲線所圍的面積。即,,高等數(shù)學(xué)的核心都是逼近,。

積分學(xué)中最有名的牛頓-萊布尼茨公式=因?yàn)閷?dǎo)數(shù)描繪的是函數(shù)的變化,,從幾何意義上來(lái)說(shuō),可微函數(shù)f(x)在[a,b]區(qū)間內(nèi)全部變化的總和就是它在兩個(gè)端點(diǎn)處的差值,??梢姡谝欢ǔ潭壬?,微分與積分是互逆運(yùn)算,。

同理,多重積分,,也可看作積分函數(shù)在各個(gè)坐標(biāo)軸上分別積分匯總后的結(jié)果,。

從概率論的角度看,某一事件的概率是構(gòu)成該事件的隨機(jī)變量所有可能概率的求和,,即隨機(jī)變量概率函數(shù)的求和,。因此,對(duì)于連續(xù)型隨機(jī)變量來(lái)說(shuō),,由于單個(gè)點(diǎn)的概率為0無(wú)意義,,因此某一事件發(fā)生的概率即為該事件概率密度函數(shù)在其變化區(qū)間內(nèi)的積分。需要注意的是,,概率函數(shù)或概率密度函數(shù)的定義域即為其對(duì)應(yīng)隨機(jī)變量的值域,。

具體到機(jī)器學(xué)習(xí)中,最重要的概率應(yīng)用是貝葉斯公式,。

而提到貝葉斯公式,,就必須介紹一下,頻率學(xué)派和貝葉斯學(xué)派,,之間的理念沖突,。簡(jiǎn)單點(diǎn)說(shuō),頻率學(xué)派相信,,事件本身是不確定的,,所研究的隨機(jī)變量即事件本身,整個(gè)樣本空間即為全部事件,,因此他們的研究只能通過在客觀世界中不斷做重復(fù)隨機(jī)試驗(yàn)來(lái)進(jìn)行,。而貝葉斯學(xué)派,相信人具有先驗(yàn)知識(shí),,事件本身應(yīng)該是確定的,,只是因?yàn)槿藗兊恼J(rèn)識(shí)不足,而無(wú)法判斷事件結(jié)果最后會(huì)走向何方,,它研究的隨機(jī)變量通常是估計(jì)參數(shù),,整個(gè)樣本空間就是所有可能的參數(shù)值。就擲骰子來(lái)舉例,,如果事先根據(jù)常識(shí)假設(shè)骰子中每個(gè)數(shù)字出現(xiàn)的概率都是1/6,,每投擲完一次骰子后便重新計(jì)算一次概率,,通過不斷迭代獲取最新的概率得到最終估計(jì)就是貝葉斯的方法。但如果事先不對(duì)骰子做任何假設(shè),,以圖直接通過大量的隨機(jī)獨(dú)立重復(fù)實(shí)驗(yàn)獲取樣本,,通過最大似然法直接求解骰子在何種概率下能發(fā)生全體樣本的可能性最高,從而得到骰子的估計(jì)概率,,這便是頻率學(xué)派的方法,。

就貝葉斯公式本身來(lái)分析,,。其中,,P(|X)是參數(shù)在新樣本X發(fā)生后的后驗(yàn)概率,P(X|)是已知的前提下發(fā)生X的概率=似然函數(shù),, P()是通過早期樣本和數(shù)據(jù)得到的先驗(yàn)概率,是在的全樣本空間內(nèi)發(fā)生樣本X的概率和,。有趣的是,,P(A|B)是基于P(B|A)計(jì)算的概率結(jié)果,多少有些顛倒因果的意味在里面,。

那么,,機(jī)器學(xué)習(xí)中為什么普遍使用貝葉斯學(xué)派的觀點(diǎn)呢?個(gè)人理解,,學(xué)習(xí)一定是知識(shí)不斷獲取并更新迭代的過程,。因此,計(jì)算機(jī)首先通過歷史的樣本獲取到先驗(yàn)知識(shí),,然后依照新樣本的輸入來(lái)計(jì)算后驗(yàn)概率,,更新對(duì)該事件的認(rèn)識(shí),這就是一個(gè)貝葉斯公式的過程,。

隨機(jī)變量的矩所描述的是隨機(jī)變量一系列的基本統(tǒng)計(jì)特征,,比如期望、方差,、偏度和峰度等,,均來(lái)自矩。而對(duì)特征函數(shù)E(exp(itX))求所有k階導(dǎo)又能唯一表示隨機(jī)變量的所有原點(diǎn)矩,,即特征函數(shù)可唯一的確定隨機(jī)變量的矩,,所以如果一個(gè)函數(shù)的特征函數(shù)確定,則該函數(shù)的分布也就隨之確定,。

切比雪夫不等式描述了,,對(duì)于任意存在期望u和標(biāo)準(zhǔn)差s的隨機(jī)變量X來(lái)說(shuō),|X-u|落在k·s以外概率的最大上界 ,,而對(duì)于其他常見的分布而言,,該上界可以比較小,。該不等式的意義在于,它給出了方差對(duì)于X分散程度的一種定量描述,。

統(tǒng)計(jì)學(xué)中,,可以分別用協(xié)方差和相關(guān)系數(shù),描述隨機(jī)變量X和Y之間的關(guān)系,。協(xié)方差有量綱,,是它描述隨機(jī)變量間相關(guān)程度的缺點(diǎn),它的大小與隨機(jī)變量的度量單位有關(guān),,對(duì)kX與kY間的統(tǒng)計(jì)關(guān)系,,理論上和X與Y間的統(tǒng)計(jì)關(guān)系相同,但它們的協(xié)方差卻差了 倍,!為了避免這個(gè)問題,,可將每個(gè)隨機(jī)變量標(biāo)準(zhǔn)化去量綱,即除以其各自的標(biāo)準(zhǔn)差,,相關(guān)系數(shù)由此誕生,。需要注意的是,兩個(gè)隨機(jī)變量的相關(guān)系數(shù)等于0,,僅代表兩者線性無(wú)關(guān),,并不能說(shuō)互相獨(dú)立。因?yàn)楠?dú)立表示不存在所有關(guān)系,。因此協(xié)方差本身也表示隨機(jī)變量間的線性關(guān)系,,這又與微積分中的線性逼近產(chǎn)生了聯(lián)系!

最后就是大數(shù)定理與中心極限定理,,大數(shù)定理描述做無(wú)數(shù)次獨(dú)立重復(fù)的實(shí)驗(yàn),,樣本X的統(tǒng)計(jì)均值一定依概率收斂至期望,依概率的意思就是從概率的角度上看與期望相差無(wú)二,。而中心極限定理描述,,獨(dú)立同分布的任意隨機(jī)變量加總一定依概率收斂至正態(tài)分布。簡(jiǎn)單說(shuō),,大數(shù)定理描述 趨近于一個(gè)數(shù)u,,而中心極限定理則說(shuō)明,它是以正態(tài)分布的方式趨近于u,。

兩者在現(xiàn)實(shí)中的應(yīng)用是,,保險(xiǎn)和對(duì)未知隨機(jī)變量分布的假設(shè)。保險(xiǎn),,對(duì)于每個(gè)個(gè)體來(lái)說(shuō),,其發(fā)生事故的概率不同,但作為人類這個(gè)整體來(lái)說(shuō)發(fā)生的綜合概率一定趨近于其均值,,因此保險(xiǎn)報(bào)銷費(fèi)用的期望是一定的,,投保的人數(shù)越多,,保險(xiǎn)公司賺錢的概率就越大。而未知隨機(jī)變量分布的假設(shè),,對(duì)一個(gè)復(fù)雜事件的綜合效應(yīng),,即股票的波動(dòng),人們普遍認(rèn)為它是由任意未知個(gè)效應(yīng)的綜合結(jié)果,,而對(duì)其分布最簡(jiǎn)單合理的假設(shè)便是股票波動(dòng)從中心極限定理的角度服從正態(tài)分布,,剩下的只需要估計(jì)其期望和方差即可。

3,、 參數(shù)估計(jì):

所謂參數(shù)估計(jì),,就是通過樣本對(duì)總體中未知參數(shù)進(jìn)行估計(jì),它是統(tǒng)計(jì)推斷的基礎(chǔ),,是建立統(tǒng)計(jì)模型的一個(gè)基本步驟,。它主要包含2個(gè)大類:點(diǎn)估計(jì)和區(qū)間估計(jì)。點(diǎn)估計(jì)是得到分布函數(shù)中某個(gè)參數(shù)的特定值,,而區(qū)間估計(jì)則是描述該參數(shù)會(huì)以多大的置信度落入某個(gè)區(qū)間,。

點(diǎn)估計(jì)中最常見的是矩估計(jì)和最大似然估計(jì)。矩估計(jì),,即利用隨機(jī)變量的樣本矩去估計(jì)總體矩。它的基本思想是大數(shù)定律:無(wú)限多次獨(dú)立重復(fù)實(shí)驗(yàn)所產(chǎn)生的樣本均值依概率收斂至期望,,期望是總體分布的一階矩,,由此便建立了樣本矩(均值)和總體矩(期望)間的關(guān)系,這也被叫作替換原則,。矩估計(jì)能同時(shí)解決在實(shí)際中經(jīng)常遇到的2大問題:第1,,在未知總體分布時(shí),可直接求出該總體所有的矩估計(jì)值,,從而了解其重要的特征量,。我們?cè)趯?shí)驗(yàn)中拿到一批樣本數(shù)據(jù),經(jīng)常不管三七二十一先估計(jì)它的期望和方差就是這個(gè)應(yīng)用,。第2,,在已知總體分布時(shí),求解關(guān)于未知參數(shù)的總體期望和方差的解析式,,將解析式與樣本矩建立聯(lián)系求解未知參數(shù)估計(jì)值,。但由于矩估計(jì)沒有充分利用分布所提供的信息,通常使得參數(shù)估計(jì)的解析式多于需要估計(jì)的參數(shù)個(gè)數(shù),,所以一般情況下,,矩估計(jì)量不具有唯一性。經(jīng)驗(yàn)上會(huì)選擇使用低階矩去計(jì)算未知參數(shù)的估計(jì)值,,因?yàn)榭傮w分布的高階矩有可能不存在,。正是由于以上2點(diǎn),,矩估計(jì)通常只用于在總體分布未知的情況下去計(jì)算樣本特征值,而當(dāng)總體已知時(shí),,通常使用極大似然估計(jì)法,。

極大似然估計(jì):即,最大化似然函數(shù),。簡(jiǎn)單說(shuō),,它將已發(fā)生的隨機(jī)變量樣本值當(dāng)作已知,而將未知參數(shù)看作變量,,通過計(jì)算最有可能產(chǎn)生該樣本的似然函數(shù)來(lái)估計(jì)參數(shù)值,。方法和公式都很簡(jiǎn)單,同時(shí)符合人們的直觀認(rèn)知,。

那么對(duì)同一組樣本估計(jì)出的多個(gè)參數(shù)值,,如何評(píng)判它們誰(shuí)優(yōu)誰(shuí)劣呢?這就引出了點(diǎn)估計(jì)的4大評(píng)判標(biāo)準(zhǔn):相合性,,無(wú)偏性,,有效性和漸進(jìn)正態(tài)性。

相合性是指,,當(dāng)獨(dú)立重復(fù)試驗(yàn)的樣本趨于無(wú)窮時(shí),,參數(shù)的估計(jì)量會(huì)收斂到參數(shù)真實(shí)值。相合性是對(duì)參數(shù)估計(jì)量最基本的要求,,就矩估計(jì)和極大似然估計(jì)來(lái)說(shuō),,相合性都由大數(shù)定律來(lái)保證。因此,,對(duì)于矩估計(jì)和極大似然估計(jì)所計(jì)算出來(lái)的參數(shù)估計(jì)值均滿足相合性,。

無(wú)偏性是指,對(duì)于有限的樣本,,參數(shù)估計(jì)量所符合的分布期望等于參數(shù)的真實(shí)值,。當(dāng)樣本無(wú)限時(shí),由相合性可知,,參數(shù)的估計(jì)量可以近似認(rèn)為就是參數(shù)本身,。但現(xiàn)實(shí)生活中無(wú)限樣本不存在,退而求其次,,在樣本有限的情況下,,我希望由不同樣本所估計(jì)出的參數(shù)本身期望值要等于其真實(shí)值。
就正態(tài)分布方差的矩估計(jì)和極大似然估計(jì)來(lái)說(shuō),,都傾向于低估方差,,低估量Var()是系數(shù)為與之間的差異。因此,教科書上所說(shuō)的樣本方差與參數(shù)估計(jì)所估計(jì)出的方差略有不同,。

有效性是指,,對(duì)參數(shù)估計(jì)值所符合的分布來(lái)說(shuō),方差越小越好,。一般情況下,,估計(jì)參數(shù)越收斂,我們就認(rèn)為它越接近真實(shí)值,,基于這一點(diǎn),,當(dāng)存在符合相合性和無(wú)偏性的兩個(gè)參數(shù)估計(jì)量時(shí),通常取方差較小的那個(gè)更優(yōu),。

漸進(jìn)正態(tài)性是指,,當(dāng)樣本趨于無(wú)窮時(shí),去中心化去量綱的參數(shù)估計(jì)量符合標(biāo)準(zhǔn)正態(tài)分布,。漸進(jìn)正態(tài)性的概念和中心極限定理有點(diǎn)兒像,,若將參數(shù)本身作為一個(gè)隨機(jī)變量,不同的參數(shù)估計(jì)量作為樣本,,漸進(jìn)正態(tài)性就是一個(gè)中心極限定理的特征,。(這個(gè)比方是否恰當(dāng)還有待考證。)

最后就是區(qū)間估計(jì),,即參數(shù)在多大的置信度上會(huì)落入一個(gè)區(qū)間,,參數(shù)估計(jì)得越準(zhǔn)確,區(qū)間越收斂,。個(gè)人認(rèn)為區(qū)間估計(jì)在工程上作用不大,,完全就是對(duì)自己的估計(jì)結(jié)果沒有自信。若點(diǎn)估計(jì)準(zhǔn)了,,區(qū)間估計(jì)自然也準(zhǔn),,兩者只會(huì)發(fā)生同時(shí)準(zhǔn)確或同時(shí)不準(zhǔn)的情況,,因此仔細(xì)將點(diǎn)估計(jì)研究透徹便好,。

RECOMMEND

【AI求職百題斬】已經(jīng)悄咪咪上線啦,點(diǎn)擊下方小程序卡片,,開始愉快答題吧,!

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多