久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

我們來(lái)聊一聊機(jī)器學(xué)習(xí)的核心:參數(shù)估計(jì)以及貝葉斯模型

 CharlseShan 2016-05-10





首先,,機(jī)器學(xué)習(xí)的核心思想是從過(guò)去的經(jīng)驗(yàn)中自動(dòng)地學(xué)習(xí)出規(guī)則,從而去對(duì)新的事件做預(yù)測(cè),。樣本量的增多有助于構(gòu)建機(jī)器學(xué)習(xí)模型,,這是不變的道理。 所以在領(lǐng)域里的應(yīng)用中,,我們首先要做的是想辦法搜集更多的樣本,。當(dāng)然,我在這里主要講監(jiān)督學(xué)習(xí),  因?yàn)檫@是整個(gè)行業(yè)里應(yīng)用最廣泛的技術(shù),。



機(jī)器學(xué)習(xí)的應(yīng)用有很多,,這大概是目前比較流行的一些應(yīng)用例子。包括圖像識(shí)別,,語(yǔ)音識(shí)別等,,大家可以仔細(xì)看一下,我就不一一解釋了,。其中圖像識(shí)別和語(yǔ)音識(shí)別,,自然語(yǔ)言處理的發(fā)展變得非??欤蟛糠止谑怯捎谏疃葘W(xué)習(xí)的崛起,。

如果說(shuō)深度學(xué)習(xí)的發(fā)展造就了當(dāng)今AI熱潮也不為過(guò),。 后續(xù)如果有機(jī)會(huì)再跟大家仔細(xì)分享一下深度學(xué)習(xí)技術(shù)。


這是大家熟悉的AlphaGo與李世石的對(duì)戰(zhàn),,機(jī)器最終勝利,。這個(gè)很振奮人心,但與此同時(shí),,也有不少媒體用這件事情做一些炒作,。 機(jī)器的勝利真的意味著AI發(fā)展到了一定牛的程度? 我覺(jué)得在這一類(lèi)問(wèn)題上AI戰(zhàn)勝人類(lèi)是必然的,,因?yàn)閲暹@種游戲的空間是確定的,,沒(méi)有什么隨機(jī)性。機(jī)器最難處理的問(wèn)題就是具有較大隨機(jī)性的問(wèn)題,。 


其實(shí),,我更期待的是Alphago和星際2的較量。 :)  大家可以期待一下,,在這里我就不賭誰(shuí)贏誰(shuí)輸了,。





今天的目的很明確,就是要給大家講兩個(gè)方面: ML,MAP,貝葉斯估計(jì)之間的區(qū)別和 怎么才能做到大規(guī)模貝葉斯模型的學(xué)習(xí),。


這個(gè)幻燈頁(yè)涵蓋了整個(gè)機(jī)器學(xué)習(xí)的過(guò)程,。首先,為了學(xué)習(xí),,我們需要定義我們的假設(shè),, 大家可以理解為對(duì)模型的假設(shè),比如我們假設(shè)我們用的模型為線性模型或者非線性模型,。
其次,,我們需要定義我們的目標(biāo)函數(shù),也就是定義怎么去衡量學(xué)出來(lái)的模型的好壞,。這部分往往用一個(gè)loss function來(lái)定義,。比如在這里,我們可以選用square loss,。

接下來(lái)就是,,怎么對(duì)這個(gè)目標(biāo)函數(shù)做優(yōu)化,并能學(xué)習(xí)出最優(yōu)的模型,,,。這部分我們可以稱(chēng)之為optimization其實(shí)就是一種優(yōu)化算法,這種算法可以來(lái)對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化,,并能得到最優(yōu)化的解,。 所以,機(jī)器學(xué)習(xí)大概分成兩個(gè)方面:  機(jī)器學(xué)習(xí) = 模型   優(yōu)化,。

優(yōu)化方法有很多種比如梯度下降,,牛頓法,蒙特卡洛等等,。不同的模型可選擇不同的優(yōu)化方法,。比如邏輯回歸,我們常用隨機(jī)梯度下降法來(lái)解決,,神經(jīng)網(wǎng)絡(luò)用反向推導(dǎo)來(lái)解決,,貝葉斯模型則用MCMC這類(lèi)方法來(lái)解決。

還有一個(gè)方面就是模型的復(fù)雜性,。 復(fù)雜的模型對(duì)數(shù)據(jù)的fit程度一般會(huì)高于簡(jiǎn)單的模型,但即便這樣,,學(xué)出來(lái)的模型對(duì)測(cè)試集的效果可能還不如簡(jiǎn)單的模型,,而且明顯低于訓(xùn)練集上的效果。這種我們成為過(guò)擬合(overfiting)現(xiàn)象,。正則化(regularization)可以用來(lái)解決過(guò)擬合,。 MAP估計(jì),這種方式其實(shí)在某種意義上就是相當(dāng)于正則化,,貝葉斯當(dāng)然也會(huì)避免過(guò)擬合現(xiàn)象,。后面會(huì)講到。

當(dāng)有了模型,,也有了算法,,我們就可以找到最優(yōu)解,接下來(lái)我們就需要判斷這種解是否真的是我們需要的,? 這部分就需要一些技術(shù)比如交叉驗(yàn)證( cross validation),。

到此為止,就是整個(gè)機(jī)器學(xué)習(xí)的框架,,學(xué)習(xí)機(jī)器學(xué)習(xí),,必須要對(duì)整個(gè)流程明確,所以這個(gè)slide是有必要去深入理解的,。


接下來(lái)重點(diǎn)講一下 ML,MAP和貝葉斯估計(jì)之間的關(guān)聯(lián)和區(qū)別,,是今天的重點(diǎn)。

我們用D來(lái)表示樣本集,,用\theta來(lái)表示模型所有的參數(shù), x*就是一個(gè)新的樣本(當(dāng)模型學(xué)習(xí)完之后,,我們需要在新的樣本上做預(yù)測(cè))。

1. ML
(最大似然估計(jì)), 就是給定一個(gè)模型的參數(shù),,然后試著去最大化p(D|\theta), 這就是在參數(shù)給定的情況下,,看到樣本集的概率。 在這里我們假設(shè)模型的參數(shù)是給定的,,然后目標(biāo)就是要找到這種最優(yōu)的參數(shù)\theta使得p(D|\theta)最大化,。

我們平時(shí)碰到的邏輯回歸問(wèn)題都是基于最大似然估計(jì)得出來(lái)的。

2. 
但是ML估計(jì)有一個(gè)大的問(wèn)題,,就是不會(huì)把我們的先驗(yàn)知識(shí)考慮進(jìn)去,。相反,MAP這種估計(jì)會(huì)把 prior belief融入到模型里,。 MAPML非常類(lèi)似,,只不過(guò)我們?nèi)プ畲蠡?/span>p(\theta|D),概率里的模型參數(shù)和D的順序改變了,。但這種小小的改變帶來(lái)的是完全不一樣的模型的表達(dá)方式,。 

總之,MLMAP估計(jì)都屬于同一個(gè)范疇,,我們成為(frequentist),, 最后的目的都是一樣的: 找到“特定”的最優(yōu)解。當(dāng)我們找到最優(yōu)解之后,,我們就可以利用這個(gè)最優(yōu)解做預(yù)測(cè),。所以預(yù)測(cè)部分都是一樣的。

接下來(lái)就是貝葉斯估計(jì),,這個(gè)跟MLMAP估計(jì)有較大不同,。在這里,我們的預(yù)測(cè)是考慮到了所有可能的參數(shù)\theta,。也就是說(shuō),,所有的參數(shù)空間。 ML,MAP估計(jì)是要找到某特定的最優(yōu)解,。但相反,,貝葉斯估計(jì)考慮的是所有的參數(shù),也就是參數(shù)的分布,。所以,,在這里可以看到,當(dāng)我們對(duì)新的樣本做預(yù)測(cè)的時(shí)候,,我們其實(shí)計(jì)算的是p(y^|x,D),。這里不包含任何的參數(shù),因?yàn)樵谪惾~斯估計(jì)里,,我們需要考慮所有可能的參數(shù),,所以這部分可以被integrated out,。

下面,對(duì)每一個(gè)算法做更詳細(xì)的介紹,。




重新回到ML估計(jì),,如剛才提到那樣,我們需要去最大化p(D|\theta),,這部分優(yōu)化我們通??梢园褜?dǎo)數(shù)設(shè)置為0的方式去得到。然而,,ML估計(jì)不會(huì)把先驗(yàn)知識(shí)考慮進(jìn)去,,而且很容易造成過(guò)擬合現(xiàn)象

舉個(gè)例子,比如對(duì)癌癥的診斷,,一個(gè)醫(yī)生一天可能接到100名患者,,但最終被診斷出癌癥的患者為5個(gè)人,在ML估計(jì)下我們得到的癌癥的概率為0.05,。這顯然是不太切合實(shí)際的,,因?yàn)槲覀兏鶕?jù)已有的經(jīng)驗(yàn),我們知道這種概率會(huì)低很多,。然而ML估計(jì)并沒(méi)有把這種知識(shí)融入到模型里,。



MAP就是用來(lái)解決這個(gè)問(wèn)題。它會(huì)把我們已知的信息融入到模型訓(xùn)練里,。利用貝葉斯規(guī)則 p(\theta|D)可以寫(xiě)成如上的形式。

所以最大化 p(\theta|D)等同于最大化 p(D|\theta)p(\theta),。在這里p(\theta)其實(shí)就是我們的先驗(yàn)知識(shí),。

加上log對(duì)我們學(xué)習(xí)不會(huì)產(chǎn)生影響的,因?yàn)?/span>log就是strictly increasingfunction,。所以最后,,MAP的目標(biāo)函數(shù)就變成了 ML估計(jì)加上一個(gè)我們的先驗(yàn)。



所以,,MLMAP的唯一的區(qū)別在于p(\theta)這個(gè)term上,。我們可以把它理解成先驗(yàn)、也可以理解成損失函數(shù),。

其實(shí)它起到了正則化的作用,。 比如我們?cè)诰€性模型里,如果我們?cè)O(shè)定p(\theta)為高斯分布,,它等同于加了一個(gè) L2 norm, 如果我們假定p(\theta)為拉普拉斯分布,,它就等同于我們?cè)谀P屠锛恿?/span>L1 norm這部分的學(xué)習(xí)很重要,,希望大家可以做一些課下的功課,,我面試也會(huì)常常問(wèn)這類(lèi)的問(wèn)題。


最后,就是貝葉斯估計(jì)了,,如上面所述,,為了對(duì)一個(gè)新的樣本做預(yù)測(cè),我們以積分的方式去integrate out所有可能的參數(shù)(整個(gè)參數(shù)空間),。

 

再次強(qiáng)調(diào)一下: MLMAP只會(huì)給出特定的最優(yōu)解,, 然而貝葉斯模型會(huì)給出對(duì)參數(shù)的一個(gè)分布,比如對(duì)模型的參數(shù)\theta, 假定參數(shù)空間里有\theta1,\theta2, \theta3,...\thetaN,,貝葉斯模型學(xué)出來(lái)的就是這些參數(shù)的重要性(也就是分布),,當(dāng)我們對(duì)新的樣本做預(yù)測(cè)的時(shí)候,就會(huì)讓所有的模型一起去預(yù)測(cè),,但每個(gè)模型會(huì)有自己的權(quán)重(權(quán)重就是學(xué)出來(lái)的分布)

這是貝葉斯模型的核心思想,,也有一點(diǎn)random forest(隨機(jī)森林)的類(lèi)似思想。
也可以這么理解:把不同的模型都考慮進(jìn)來(lái),,當(dāng)預(yù)測(cè)的時(shí)候每個(gè)模型都會(huì)有重要性的權(quán)重,,
貝葉斯預(yù)測(cè)里我們討論的是無(wú)窮多這種模型一起來(lái)做預(yù)測(cè)。

討論完這些,,我們就好定義什么是frequentist bayesian 了,,接下來(lái)看下一個(gè)slide



就是一個(gè)總結(jié),,整個(gè)統(tǒng)計(jì)學(xué)的兩大派,。當(dāng)然這兩代派都有各自的理論。

要記住的一點(diǎn)就是: frequentist里,,我們都是假設(shè)模型的參數(shù)就是固定的,。但在貝葉斯領(lǐng)域里,我們不做這樣的假設(shè),,而是去學(xué)習(xí)參數(shù)的分布,。

用一個(gè)簡(jiǎn)答的例子來(lái)再總結(jié)一下(因?yàn)檫@部分是重點(diǎn))。 比如你是班里的班長(zhǎng),,你有個(gè)問(wèn)題想知道答案,,你可以問(wèn)班里所有的同學(xué),并且假設(shè)班里的每一位同學(xué)是整個(gè)參數(shù)空間里的一個(gè)模型參數(shù),。 一種方案是,,問(wèn)一個(gè)學(xué)習(xí)最好的同學(xué)。 另一種方案是,,問(wèn)所有的同學(xué),,然后把答案綜合起來(lái),但綜合的時(shí)候,,會(huì)按照每個(gè)同學(xué)的成績(jī)好壞來(lái)做個(gè)權(quán)重,。 第一種方案的思想類(lèi)似于ML,MAP,,第二種方案類(lèi)似于貝葉斯模型。

有個(gè)領(lǐng)域叫nonparametricBayesian,,簡(jiǎn)單科普一下: 比如用k-means算法,,我們需要去假定K的值,但我們并不知道哪個(gè)K是最好的,,所以我們要不斷地嘗試一系列的K的值,。 nonparametric方法就是我們想讓模型從數(shù)據(jù)里自動(dòng)的去學(xué)習(xí)K的值。當(dāng)然,,這種算法的復(fù)雜度會(huì)很高,,所以在實(shí)際應(yīng)用里用的比較少。


接下來(lái)問(wèn)題就來(lái)了: 既然貝葉斯模型這么牛,,為什么在實(shí)際應(yīng)用里并不普遍,? 我覺(jué)得最大的原因是在于它的計(jì)算復(fù)雜度上。

如上所述,, 我們需要去計(jì)算后驗(yàn)概率 p(\theta|D),, 但一般情況下,后驗(yàn)概率的計(jì)算是不現(xiàn)實(shí)的,。 看slide話就知道,,這里涉及到很復(fù)雜的積分,這個(gè)積分是在大部分情況下是不可能精確計(jì)算到的,。所以需要一些近似計(jì)算方法,。

所以整個(gè)貝葉斯領(lǐng)域的核心技術(shù)就是要近似地計(jì)算 p(\theta|D)。說(shuō)白了,,這里的核心問(wèn)題就是要近似這個(gè)復(fù)雜的積分(integral), 那接下來(lái)我講一種技術(shù)來(lái)去做近似,。
這里介紹蒙特卡洛算法,這個(gè)也是今天的重點(diǎn),。其實(shí)很簡(jiǎn)單,比如我想計(jì)算一個(gè)公司所有員工的平均身高,,這個(gè)時(shí)候最簡(jiǎn)答粗暴的方法就是讓行政去一個(gè)一個(gè)去測(cè)量,,然后取平均值。但想計(jì)算所有中國(guó)人的平均身高,,怎么做,?


這個(gè)就不難么簡(jiǎn)單了,一個(gè)一個(gè)去測(cè)量,,顯然是不太現(xiàn)實(shí)的,。一種解決方法就是蒙特卡洛方法,也就是采樣,。 我們可以隨機(jī)地采訪一些人,,然后用他們的身高來(lái)去估計(jì)全國(guó)人民的平均身高,。當(dāng)然,我們采訪的人越多,,準(zhǔn)確率會(huì)越高,。這是蒙特卡洛的核心思想,就是這么簡(jiǎn)單,。當(dāng)我們采訪完所有人的時(shí)候,,這個(gè)就是exact solution(精確值)了。 所以蒙特卡洛方法隨著樣本數(shù)量的增加,,我們的估計(jì)也會(huì)變得越來(lái)越準(zhǔn)確,,這點(diǎn)很重要。



再舉一個(gè)例子,,比如計(jì)算一個(gè)圓的面積,,而且假設(shè)我們不知道PI這個(gè)時(shí)候也可以用采樣的方法來(lái)做,,我們可以在一個(gè)正方形空間里隨機(jī)的做采樣,,比如落在紅色區(qū)域里的點(diǎn)的個(gè)數(shù)為 n1, 落在白色區(qū)域的個(gè)數(shù)為n2, 這個(gè)時(shí)候我們就知道紅色部分的面積就是 n1/(n1 n2)了。 


那接下來(lái)的問(wèn)題是,,怎么近似連續(xù)性函數(shù),,就是我們剛才提到的積分的計(jì)算?

思想都一樣,,假設(shè)我們要計(jì)算 f(x)的期望值,, 同時(shí)我們也有p(x)分布,這個(gè)時(shí)候我們就可以不斷的從p(x)這個(gè)分布里做一些采樣,,比如 x1,x2,...xn, 然后用這些采樣的值去算f(x),  所以最后得到的結(jié)果就是 (f(x1) f(x2),, f(xn))/ n,。當(dāng)然,采樣的樣本越多,,估計(jì)也會(huì)越準(zhǔn)確,。 所以對(duì)貝葉斯模型, 我們需要計(jì)算后驗(yàn)概率分布p(\theta|D),,其實(shí)就是從這個(gè)概率分布中采樣,。




上面例子中提到的采樣都是獨(dú)立的。也就是每個(gè)樣本跟其他的樣本都是獨(dú)立的,,不影響彼此之間的采樣,。然而,在現(xiàn)實(shí)問(wèn)題上,,有些時(shí)候我們想加快有效樣本的采樣速度,。這個(gè)問(wèn)題討論的就是怎么去優(yōu)化采樣過(guò)程,也是機(jī)器學(xué)習(xí)里一個(gè)比較大的話題,。 

重申一下,,用上面提到的采樣方式我們可以去近似地估計(jì)復(fù)雜的積分,,也可以估計(jì)圓的面積,也可以估計(jì)全國(guó)人口的平均身高,。但這個(gè)采樣方式是獨(dú)立的,,有些時(shí)候,我們希望用更少的樣本去更準(zhǔn)確的近似某一個(gè)目標(biāo),,所以就出現(xiàn)了sampling這種領(lǐng)域的研究,,就是在研究以什么樣的方式優(yōu)化整個(gè)采樣過(guò)程,使得過(guò)程更加高效,。

這個(gè)slide里介紹了MCMC采樣方法,,全稱(chēng)為Markov chain Monte Carlo方法。在這種采樣方式下,,每個(gè)樣本之間都存在著一些聯(lián)系(并不是獨(dú)立),,從而去優(yōu)化采樣過(guò)程。這個(gè)slide列了一些常見(jiàn)的方法,,如果之前對(duì)topic model比較熟悉,,那應(yīng)該也了解gibbs sampling這種方法,這也是非常經(jīng)典的方法,。


這種采樣的方式可以解決貝葉斯模型的推理,,那為什么貝葉斯模型還是沒(méi)能普遍用在應(yīng)用上呢? 

因?yàn)檫@部分技術(shù)還不能處理大的數(shù)據(jù)量,。為了得到每一個(gè)樣本,,我們需要iterate整個(gè)訓(xùn)練集 如果訓(xùn)練集不大還好,,但樣本量很大的時(shí)候,,這就顯然不可能了。 

這是為什么采樣的方式還未能普遍應(yīng)用在大數(shù)據(jù)環(huán)境下的原因,。 所以現(xiàn)在貝葉斯領(lǐng)域關(guān)心的主要問(wèn)題是:怎么去優(yōu)化采樣方式,,讓它能在大數(shù)據(jù)環(huán)境下有效學(xué)習(xí)貝葉斯模型。

遇到這個(gè)問(wèn)題可能大家也會(huì)想到一些解決的方法,。 如果對(duì)邏輯回歸模型熟悉,,大家應(yīng)該都了解梯度下降法。


簡(jiǎn)單回顧一下,,我們是怎么去解決邏輯回歸模型的,,這是LR的模型介紹,,很簡(jiǎn)單,,其實(shí)就是想讓大家重溫一下。

解邏輯回歸我們常用梯度下降法,,具體的梯度下降法,,我相信大家應(yīng)該不會(huì)陌生,,就是這樣的。




就是不斷的迭代,,每個(gè)迭代都需要去更新模型的參數(shù),,直到converge. 這是經(jīng)典的梯度下降法,任何書(shū)本上都會(huì)看得到,。 在這里每一次的更新,,我們都用到了整個(gè)數(shù)據(jù)集合。

所以,,人們就提出了一種新的算法,,叫做隨機(jī)梯度下降法,或者是batch gradient descent.


只有一個(gè)地方的改變,,就是每一次不取所有的樣本集合了,,只需某一個(gè)部分,而這個(gè)某一個(gè)部分的樣本集會(huì)遠(yuǎn)遠(yuǎn)小于整個(gè)樣本集,。

所以這種方式就可以應(yīng)用在大數(shù)據(jù)上了,,因?yàn)槊恳淮蔚母虏辉谝蕾?lài)于N 而是依賴(lài)于比N小很多的m,,m << N,。

如果一個(gè)算法依賴(lài)于N,絕對(duì)是不能用在大數(shù)據(jù)環(huán)境下的,。


所以接下來(lái)的問(wèn)題是,,我們能不能把這種思想應(yīng)用在之前提到的采樣中(因?yàn)槲覀冎疤徇^(guò),在MCMC采樣過(guò)程中都會(huì)用到所有的訓(xùn)練數(shù)據(jù)),。

幸運(yùn)的是,,在上面提到的langevin dynamicMCMC算法中的一種),和stochastic optimizaiton(比如隨機(jī)梯度下降法)可以結(jié)合在一起用,。

這樣,,我們就可以通過(guò)少量的訓(xùn)練集去做采樣,這個(gè)時(shí)候采樣的效率就不再依賴(lài)于N了,,而是依賴(lài)于m, m是遠(yuǎn)遠(yuǎn)小于N,。

這就是整個(gè)的idea, 其實(shí)在邏輯上很簡(jiǎn)單,就是想讓大家了解一下這個(gè)領(lǐng)域是怎么發(fā)展過(guò)來(lái)的,。每一次的發(fā)展都是有背后的需求的,。

 







這些我就不一一講了,有興趣可以看一下,。



這是今天的總結(jié),,重點(diǎn)就是 ML,MAP,貝葉斯思想以及 這些理論是怎么演變過(guò)來(lái)的。


問(wèn)答Question

@解答RBM的問(wèn)題: RBM也涉及到一個(gè)積分問(wèn)題,,所以也需要用采樣的方式來(lái)做,。但在RBM我們用到的采樣方式略有不同,,我們只采樣幾次(或一次),叫作contrastivedivergence,。


@
目前的應(yīng)用: 現(xiàn)在我知道的具體的應(yīng)用大部分在推薦上,。比如我聽(tīng)說(shuō)微軟用了貝葉斯矩陣分解法(Bayesianmatrix factorization), 而且也用到(Bayesianlogit regression) 還有LDA這種模型,,當(dāng)然很多地方都在用,。 這些都是貝葉斯模型的范疇,具體的解法都是基于采樣或者變分(這個(gè)今天我沒(méi)有提到)

@
針對(duì)非平衡數(shù)據(jù):  這個(gè)不好說(shuō),,我覺(jué)得針對(duì)非平衡數(shù)據(jù)還是需要依賴(lài)于像bootstrap這種方法,。貝葉斯最大的優(yōu)點(diǎn)應(yīng)該還是在于樣本比較少的情況下。

@Alphago  
應(yīng)該算是frequentist把,, 用到了deep reinforcement learning算法,。 在深度學(xué)習(xí)里,Bayesian neural network也會(huì)有所地位的,。

@MCMC 
有一個(gè)BURN IN PERIOD 的過(guò)程,,請(qǐng)問(wèn)我們是經(jīng)過(guò)了這個(gè)過(guò)程使分布達(dá)到收斂后才進(jìn)行采樣嘛?
是的,, 之后采樣就可以,。 之前的樣本就可以丟棄了

問(wèn):還有大數(shù)據(jù)領(lǐng)域是不是還是frequentist普遍,因?yàn)榇髽颖驹诖髷?shù)定理的影響下,,先驗(yàn)概率還是趨近于定值,?

@frequenst普遍。 是的,, 因?yàn)楸旧碡惾~斯模型計(jì)算量很大,,即使用先進(jìn)的方法也是很耗計(jì)算的,但我還是比較看好這方面的應(yīng)用,。 Frequenstvs Bayesian的應(yīng)用上,,也可以參考 AMA的一些討論

貝葉斯上好像沒(méi)有什么特別好的書(shū)。 我建議看網(wǎng)上的一些tutorial, 有一個(gè)比較經(jīng)典的入門(mén)資料應(yīng)該是一個(gè)Brown universityErik Sudderth教授的博士論文,。

請(qǐng)問(wèn)機(jī)器學(xué)習(xí)方法,,特別是bayesian的方法,現(xiàn)金融領(lǐng)域有哪些應(yīng)用呢,,謝謝,。


我覺(jué)得這方面的應(yīng)用會(huì)比較有前景。 因?yàn)榻鹑陬I(lǐng)域樣本量不多,,貝葉斯模型會(huì)有一席之地,。

langevin dynamic stochastic optimizaiton
,請(qǐng)問(wèn)這個(gè)優(yōu)化方式是否適用于分布式集群嘛?如目前spark上的LDA就是類(lèi)似的實(shí)現(xiàn)嘛,?


可以做成分布式的,針對(duì)LDA也可以做成分布式,。 請(qǐng)看一下 Sungjin Ahn的一篇論文 distributed MCMC,這是我的一位合作者,。

@
核函數(shù)如何選擇  是說(shuō)先驗(yàn)概率嗎?  這些函數(shù)的選擇基本上是考慮計(jì)算的復(fù)雜度,。貝葉斯領(lǐng)域有個(gè)叫做conjugateprior, 這個(gè)性質(zhì)可以讓計(jì)算變得簡(jiǎn)單很多,。

入門(mén)建議:我當(dāng)時(shí)入門(mén)的時(shí)候就是看LDA模型的,然后看網(wǎng)上video lecture.net上的tutorial視頻,。


機(jī)器學(xué)習(xí)入門(mén): 可以關(guān)注小象機(jī)器學(xué)習(xí)訓(xùn)練營(yíng),, 我也會(huì)在這里講一些
http://v./s/2fxp1a5k?eqrcode=1&from=singlemessage&isappinstalled=0

平時(shí)研究用GPU:  會(huì)用到, 我們?cè)?jīng)用一個(gè)龐大的集群做了一個(gè)實(shí)驗(yàn),,就是針對(duì)facebook整個(gè)網(wǎng)絡(luò),,這部分work可以參考一下我最新一篇的文章,可以在我的主頁(yè)上找到,。

用戶(hù)畫(huà)像: 這塊還是用基本的算法吧,, 或者最簡(jiǎn)單的segmentation

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多