首先,,機(jī)器學(xué)習(xí)的核心思想是從過(guò)去的經(jīng)驗(yàn)中自動(dòng)地學(xué)習(xí)出規(guī)則,從而去對(duì)新的事件做預(yù)測(cè),。樣本量的增多有助于構(gòu)建機(jī)器學(xué)習(xí)模型,,這是不變的道理。 所以在領(lǐng)域里的應(yīng)用中,,我們首先要做的是想辦法搜集更多的樣本,。當(dāng)然,我在這里主要講監(jiān)督學(xué)習(xí), 因?yàn)檫@是整個(gè)行業(yè)里應(yīng)用最廣泛的技術(shù),。
機(jī)器學(xué)習(xí)的應(yīng)用有很多,,這大概是目前比較流行的一些應(yīng)用例子。包括圖像識(shí)別,,語(yǔ)音識(shí)別等,,大家可以仔細(xì)看一下,我就不一一解釋了,。其中圖像識(shí)別和語(yǔ)音識(shí)別,,自然語(yǔ)言處理的發(fā)展變得非??欤蟛糠止谑怯捎谏疃葘W(xué)習(xí)的崛起,。
如果說(shuō)深度學(xué)習(xí)的發(fā)展造就了當(dāng)今AI的熱潮也不為過(guò),。 后續(xù)如果有機(jī)會(huì)再跟大家仔細(xì)分享一下深度學(xué)習(xí)技術(shù)。
這是大家熟悉的AlphaGo與李世石的對(duì)戰(zhàn),,機(jī)器最終勝利,。這個(gè)很振奮人心,但與此同時(shí),,也有不少媒體用這件事情做一些炒作,。 機(jī)器的勝利真的意味著AI發(fā)展到了一定牛的程度? 我覺(jué)得在這一類(lèi)問(wèn)題上AI戰(zhàn)勝人類(lèi)是必然的,,因?yàn)閲暹@種游戲的空間是確定的,,沒(méi)有什么隨機(jī)性。機(jī)器最難處理的問(wèn)題就是具有較大隨機(jī)性的問(wèn)題,。
其實(shí),,我更期待的是Alphago和星際2的較量。 :) 大家可以期待一下,,在這里我就不賭誰(shuí)贏誰(shuí)輸了,。
今天的目的很明確,就是要給大家講兩個(gè)方面: ML,MAP,貝葉斯估計(jì)之間的區(qū)別和 怎么才能做到大規(guī)模貝葉斯模型的學(xué)習(xí),。
這個(gè)幻燈頁(yè)涵蓋了整個(gè)機(jī)器學(xué)習(xí)的過(guò)程,。首先,為了學(xué)習(xí),,我們需要定義我們的假設(shè),, 大家可以理解為對(duì)模型的假設(shè),比如我們假設(shè)我們用的模型為線性模型或者非線性模型,。
其次,,我們需要定義我們的目標(biāo)函數(shù),也就是定義怎么去衡量學(xué)出來(lái)的模型的好壞,。這部分往往用一個(gè)loss function來(lái)定義,。比如在這里,我們可以選用square loss,。
接下來(lái)就是,,怎么對(duì)這個(gè)目標(biāo)函數(shù)做優(yōu)化,并能學(xué)習(xí)出最優(yōu)的模型,,,。這部分我們可以稱(chēng)之為optimization。其實(shí)就是一種優(yōu)化算法,這種算法可以來(lái)對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化,,并能得到最優(yōu)化的解,。 所以,機(jī)器學(xué)習(xí)大概分成兩個(gè)方面: 機(jī)器學(xué)習(xí) = 模型 優(yōu)化,。
優(yōu)化方法有很多種比如梯度下降,,牛頓法,蒙特卡洛等等,。不同的模型可選擇不同的優(yōu)化方法,。比如邏輯回歸,我們常用隨機(jī)梯度下降法來(lái)解決,,神經(jīng)網(wǎng)絡(luò)用反向推導(dǎo)來(lái)解決,,貝葉斯模型則用MCMC這類(lèi)方法來(lái)解決。
還有一個(gè)方面就是模型的復(fù)雜性,。 復(fù)雜的模型對(duì)數(shù)據(jù)的fit程度一般會(huì)高于簡(jiǎn)單的模型,但即便這樣,,學(xué)出來(lái)的模型對(duì)測(cè)試集的效果可能還不如簡(jiǎn)單的模型,,而且明顯低于訓(xùn)練集上的效果。這種我們成為過(guò)擬合(overfiting)現(xiàn)象,。正則化(regularization)可以用來(lái)解決過(guò)擬合,。 MAP估計(jì),這種方式其實(shí)在某種意義上就是相當(dāng)于正則化,,貝葉斯當(dāng)然也會(huì)避免過(guò)擬合現(xiàn)象,。后面會(huì)講到。
當(dāng)有了模型,,也有了算法,,我們就可以找到最優(yōu)解,接下來(lái)我們就需要判斷這種解是否真的是我們需要的,? 這部分就需要一些技術(shù)比如交叉驗(yàn)證( cross validation),。
到此為止,就是整個(gè)機(jī)器學(xué)習(xí)的框架,,學(xué)習(xí)機(jī)器學(xué)習(xí),,必須要對(duì)整個(gè)流程明確,所以這個(gè)slide是有必要去深入理解的,。
接下來(lái)重點(diǎn)講一下 ML,MAP和貝葉斯估計(jì)之間的關(guān)聯(lián)和區(qū)別,,是今天的重點(diǎn)。
我們用D來(lái)表示樣本集,,用\theta來(lái)表示模型所有的參數(shù), x*就是一個(gè)新的樣本(當(dāng)模型學(xué)習(xí)完之后,,我們需要在新的樣本上做預(yù)測(cè))。
1. ML(最大似然估計(jì)), 它就是給定一個(gè)模型的參數(shù),,然后試著去最大化p(D|\theta), 這就是在參數(shù)給定的情況下,,看到樣本集的概率。 在這里我們假設(shè)模型的參數(shù)是給定的,,然后目標(biāo)就是要找到這種最優(yōu)的參數(shù)\theta使得p(D|\theta)最大化,。
我們平時(shí)碰到的邏輯回歸問(wèn)題都是基于最大似然估計(jì)得出來(lái)的。
2. 但是ML估計(jì)有一個(gè)大的問(wèn)題,,就是不會(huì)把我們的先驗(yàn)知識(shí)考慮進(jìn)去,。相反,MAP這種估計(jì)會(huì)把 prior belief融入到模型里,。 MAP跟ML非常類(lèi)似,,只不過(guò)我們?nèi)プ畲蠡?/span>p(\theta|D),概率里的模型參數(shù)和D的順序改變了,。但這種小小的改變帶來(lái)的是完全不一樣的模型的表達(dá)方式,。
總之,ML和MAP估計(jì)都屬于同一個(gè)范疇,,我們成為(frequentist),, 最后的目的都是一樣的: 找到“特定”的最優(yōu)解。當(dāng)我們找到最優(yōu)解之后,,我們就可以利用這個(gè)最優(yōu)解做預(yù)測(cè),。所以預(yù)測(cè)部分都是一樣的。
接下來(lái)就是貝葉斯估計(jì),,這個(gè)跟ML和MAP估計(jì)有較大不同,。在這里,我們的預(yù)測(cè)是考慮到了所有可能的參數(shù)\theta,。也就是說(shuō),,所有的參數(shù)空間。 ML,MAP估計(jì)是要找到“某特定”的最優(yōu)解,。但相反,,貝葉斯估計(jì)考慮的是所有的參數(shù),也就是參數(shù)的分布,。所以,,在這里可以看到,當(dāng)我們對(duì)新的樣本做預(yù)測(cè)的時(shí)候,,我們其實(shí)計(jì)算的是p(y^|x,D),。這里不包含任何的參數(shù),因?yàn)樵谪惾~斯估計(jì)里,,我們需要考慮所有可能的參數(shù),,所以這部分可以被integrated out,。
下面,對(duì)每一個(gè)算法做更詳細(xì)的介紹,。
重新回到ML估計(jì),,如剛才提到那樣,我們需要去最大化p(D|\theta),,這部分優(yōu)化我們通??梢园褜?dǎo)數(shù)設(shè)置為0的方式去得到。然而,,ML估計(jì)不會(huì)把先驗(yàn)知識(shí)考慮進(jìn)去,,而且很容易造成過(guò)擬合現(xiàn)象
舉個(gè)例子,比如對(duì)癌癥的診斷,,一個(gè)醫(yī)生一天可能接到100名患者,,但最終被診斷出癌癥的患者為5個(gè)人,在ML估計(jì)下我們得到的癌癥的概率為0.05,。這顯然是不太切合實(shí)際的,,因?yàn)槲覀兏鶕?jù)已有的經(jīng)驗(yàn),我們知道這種概率會(huì)低很多,。然而ML估計(jì)并沒(méi)有把這種知識(shí)融入到模型里,。
MAP就是用來(lái)解決這個(gè)問(wèn)題。它會(huì)把我們已知的信息融入到模型訓(xùn)練里,。利用貝葉斯規(guī)則 p(\theta|D)可以寫(xiě)成如上的形式。
所以最大化 p(\theta|D)等同于最大化 p(D|\theta)p(\theta),。在這里p(\theta)其實(shí)就是我們的先驗(yàn)知識(shí),。
加上log對(duì)我們學(xué)習(xí)不會(huì)產(chǎn)生影響的,因?yàn)?/span>log就是strictly increasingfunction,。所以最后,,MAP的目標(biāo)函數(shù)就變成了 ML估計(jì)加上一個(gè)我們的先驗(yàn)。
所以,,ML和MAP的唯一的區(qū)別在于p(\theta)這個(gè)term上,。我們可以把它理解成先驗(yàn)、也可以理解成損失函數(shù),。
其實(shí)它起到了正則化的作用,。 比如我們?cè)诰€性模型里,如果我們?cè)O(shè)定p(\theta)為高斯分布,,它等同于加了一個(gè) L2 norm, 如果我們假定p(\theta)為拉普拉斯分布,,它就等同于我們?cè)谀P屠锛恿?/span>L1 norm。這部分的學(xué)習(xí)很重要,,希望大家可以做一些課下的功課,,我面試也會(huì)常常問(wèn)這類(lèi)的問(wèn)題。
最后,就是貝葉斯估計(jì)了,,如上面所述,,為了對(duì)一個(gè)新的樣本做預(yù)測(cè),我們以積分的方式去integrate out所有可能的參數(shù)(整個(gè)參數(shù)空間),。
再次強(qiáng)調(diào)一下: ML和MAP只會(huì)給出特定的最優(yōu)解,, 然而貝葉斯模型會(huì)給出對(duì)參數(shù)的一個(gè)分布,比如對(duì)模型的參數(shù)\theta, 假定參數(shù)空間里有\theta1,\theta2, \theta3,...\thetaN,,貝葉斯模型學(xué)出來(lái)的就是這些參數(shù)的重要性(也就是分布),,當(dāng)我們對(duì)新的樣本做預(yù)測(cè)的時(shí)候,就會(huì)讓所有的模型一起去預(yù)測(cè),,但每個(gè)模型會(huì)有自己的權(quán)重(權(quán)重就是學(xué)出來(lái)的分布)
這是貝葉斯模型的核心思想,,也有一點(diǎn)random forest(隨機(jī)森林)的類(lèi)似思想。
也可以這么理解:把不同的模型都考慮進(jìn)來(lái),,當(dāng)預(yù)測(cè)的時(shí)候每個(gè)模型都會(huì)有重要性的權(quán)重,,
貝葉斯預(yù)測(cè)里我們討論的是無(wú)窮多這種模型一起來(lái)做預(yù)測(cè)。
討論完這些,,我們就好定義什么是frequentist 和bayesian 了,,接下來(lái)看下一個(gè)slide。
就是一個(gè)總結(jié),,整個(gè)統(tǒng)計(jì)學(xué)的兩大派,。當(dāng)然這兩代派都有各自的理論。
要記住的一點(diǎn)就是: frequentist里,,我們都是假設(shè)模型的參數(shù)就是固定的,。但在貝葉斯領(lǐng)域里,我們不做這樣的假設(shè),,而是去學(xué)習(xí)參數(shù)的分布,。
用一個(gè)簡(jiǎn)答的例子來(lái)再總結(jié)一下(因?yàn)檫@部分是重點(diǎn))。 比如你是班里的班長(zhǎng),,你有個(gè)問(wèn)題想知道答案,,你可以問(wèn)班里所有的同學(xué),并且假設(shè)班里的每一位同學(xué)是整個(gè)參數(shù)空間里的一個(gè)模型參數(shù),。 一種方案是,,問(wèn)一個(gè)學(xué)習(xí)最好的同學(xué)。 另一種方案是,,問(wèn)所有的同學(xué),,然后把答案綜合起來(lái),但綜合的時(shí)候,,會(huì)按照每個(gè)同學(xué)的成績(jī)好壞來(lái)做個(gè)權(quán)重,。 第一種方案的思想類(lèi)似于ML,MAP,,第二種方案類(lèi)似于貝葉斯模型。
有個(gè)領(lǐng)域叫nonparametricBayesian,,簡(jiǎn)單科普一下: 比如用k-means算法,,我們需要去假定K的值,但我們并不知道哪個(gè)K是最好的,,所以我們要不斷地嘗試一系列的K的值,。 用nonparametric方法就是我們想讓模型從數(shù)據(jù)里自動(dòng)的去學(xué)習(xí)K的值。當(dāng)然,,這種算法的復(fù)雜度會(huì)很高,,所以在實(shí)際應(yīng)用里用的比較少。
接下來(lái)問(wèn)題就來(lái)了: 既然貝葉斯模型這么牛,,為什么在實(shí)際應(yīng)用里并不普遍,? 我覺(jué)得最大的原因是在于它的計(jì)算復(fù)雜度上。
如上所述,, 我們需要去計(jì)算后驗(yàn)概率 p(\theta|D),, 但一般情況下,后驗(yàn)概率的計(jì)算是不現(xiàn)實(shí)的,。 看slide話就知道,,這里涉及到很復(fù)雜的積分,這個(gè)積分是在大部分情況下是不可能精確計(jì)算到的,。所以需要一些近似計(jì)算方法,。
所以整個(gè)貝葉斯領(lǐng)域的核心技術(shù)就是要近似地計(jì)算 p(\theta|D)。說(shuō)白了,,這里的核心問(wèn)題就是要近似這個(gè)復(fù)雜的積分(integral), 那接下來(lái)我講一種技術(shù)來(lái)去做近似,。
在這里介紹蒙特卡洛算法,這個(gè)也是今天的重點(diǎn),。其實(shí)很簡(jiǎn)單,比如我想計(jì)算一個(gè)公司所有員工的平均身高,,這個(gè)時(shí)候最簡(jiǎn)答粗暴的方法就是讓行政去一個(gè)一個(gè)去測(cè)量,,然后取平均值。但想計(jì)算所有中國(guó)人的平均身高,,怎么做,?
這個(gè)就不難么簡(jiǎn)單了,一個(gè)一個(gè)去測(cè)量,,顯然是不太現(xiàn)實(shí)的,。一種解決方法就是蒙特卡洛方法,也就是采樣,。 我們可以隨機(jī)地采訪一些人,,然后用他們的身高來(lái)去估計(jì)全國(guó)人民的平均身高,。當(dāng)然,我們采訪的人越多,,準(zhǔn)確率會(huì)越高,。這是蒙特卡洛的核心思想,就是這么簡(jiǎn)單,。當(dāng)我們采訪完所有人的時(shí)候,,這個(gè)就是exact solution(精確值)了。 所以蒙特卡洛方法隨著樣本數(shù)量的增加,,我們的估計(jì)也會(huì)變得越來(lái)越準(zhǔn)確,,這點(diǎn)很重要。
再舉一個(gè)例子,,比如計(jì)算一個(gè)圓的面積,,而且假設(shè)我們不知道PI。這個(gè)時(shí)候也可以用采樣的方法來(lái)做,,我們可以在一個(gè)正方形空間里隨機(jī)的做采樣,,比如落在紅色區(qū)域里的點(diǎn)的個(gè)數(shù)為 n1, 落在白色區(qū)域的個(gè)數(shù)為n2, 這個(gè)時(shí)候我們就知道紅色部分的面積就是 n1/(n1 n2)了。
那接下來(lái)的問(wèn)題是,,怎么近似連續(xù)性函數(shù),,就是我們剛才提到的積分的計(jì)算?
思想都一樣,,假設(shè)我們要計(jì)算 f(x)的期望值,, 同時(shí)我們也有p(x)的分布,這個(gè)時(shí)候我們就可以不斷的從p(x)這個(gè)分布里做一些采樣,,比如 x1,x2,...xn, 然后用這些采樣的值去算f(x), 所以最后得到的結(jié)果就是 (f(x1) f(x2),, f(xn))/ n,。當(dāng)然,采樣的樣本越多,,估計(jì)也會(huì)越準(zhǔn)確,。 所以對(duì)貝葉斯模型, 我們需要計(jì)算后驗(yàn)概率分布p(\theta|D),,其實(shí)就是從這個(gè)概率分布中采樣,。
上面例子中提到的采樣都是獨(dú)立的。也就是每個(gè)樣本跟其他的樣本都是獨(dú)立的,,不影響彼此之間的采樣,。然而,在現(xiàn)實(shí)問(wèn)題上,,有些時(shí)候我們想加快有效樣本的采樣速度,。這個(gè)問(wèn)題討論的就是怎么去優(yōu)化采樣過(guò)程,也是機(jī)器學(xué)習(xí)里一個(gè)比較大的話題,。
重申一下,,用上面提到的采樣方式我們可以去近似地估計(jì)復(fù)雜的積分,,也可以估計(jì)圓的面積,也可以估計(jì)全國(guó)人口的平均身高,。但這個(gè)采樣方式是獨(dú)立的,,有些時(shí)候,我們希望用更少的樣本去更準(zhǔn)確的近似某一個(gè)目標(biāo),,所以就出現(xiàn)了sampling這種領(lǐng)域的研究,,就是在研究以什么樣的方式優(yōu)化整個(gè)采樣過(guò)程,使得過(guò)程更加高效,。
在這個(gè)slide里介紹了MCMC采樣方法,,全稱(chēng)為Markov chain Monte Carlo方法。在這種采樣方式下,,每個(gè)樣本之間都存在著一些聯(lián)系(并不是獨(dú)立),,從而去優(yōu)化采樣過(guò)程。這個(gè)slide列了一些常見(jiàn)的方法,,如果之前對(duì)topic model比較熟悉,,那應(yīng)該也了解gibbs sampling這種方法,這也是非常經(jīng)典的方法,。
這種采樣的方式可以解決貝葉斯模型的推理,,那為什么貝葉斯模型還是沒(méi)能普遍用在應(yīng)用上呢?
因?yàn)檫@部分技術(shù)還不能處理大的數(shù)據(jù)量,。為了得到每一個(gè)樣本,,我們需要iterate整個(gè)訓(xùn)練集。 如果訓(xùn)練集不大還好,,但樣本量很大的時(shí)候,,這就顯然不可能了。
這是為什么采樣的方式還未能普遍應(yīng)用在大數(shù)據(jù)環(huán)境下的原因,。 所以現(xiàn)在貝葉斯領(lǐng)域關(guān)心的主要問(wèn)題是:怎么去優(yōu)化采樣方式,,讓它能在大數(shù)據(jù)環(huán)境下有效學(xué)習(xí)貝葉斯模型。
遇到這個(gè)問(wèn)題可能大家也會(huì)想到一些解決的方法,。 如果對(duì)邏輯回歸模型熟悉,,大家應(yīng)該都了解梯度下降法。
簡(jiǎn)單回顧一下,,我們是怎么去解決邏輯回歸模型的,,這是LR的模型介紹,,很簡(jiǎn)單,,其實(shí)就是想讓大家重溫一下。
解邏輯回歸我們常用梯度下降法,,具體的梯度下降法,,我相信大家應(yīng)該不會(huì)陌生,,就是這樣的。
就是不斷的迭代,,每個(gè)迭代都需要去更新模型的參數(shù),,直到converge. 這是經(jīng)典的梯度下降法,任何書(shū)本上都會(huì)看得到,。 在這里每一次的更新,,我們都用到了整個(gè)數(shù)據(jù)集合。
所以,,人們就提出了一種新的算法,,叫做隨機(jī)梯度下降法,或者是batch gradient descent.
只有一個(gè)地方的改變,,就是每一次不取所有的樣本集合了,,只需某一個(gè)部分,而這個(gè)某一個(gè)部分的樣本集會(huì)遠(yuǎn)遠(yuǎn)小于整個(gè)樣本集,。
所以這種方式就可以應(yīng)用在大數(shù)據(jù)上了,,因?yàn)槊恳淮蔚母虏辉谝蕾?lài)于N, 而是依賴(lài)于比N小很多的m,,m << N,。
如果一個(gè)算法依賴(lài)于N,絕對(duì)是不能用在大數(shù)據(jù)環(huán)境下的,。
所以接下來(lái)的問(wèn)題是,,我們能不能把這種思想應(yīng)用在之前提到的采樣中(因?yàn)槲覀冎疤徇^(guò),在MCMC采樣過(guò)程中都會(huì)用到所有的訓(xùn)練數(shù)據(jù)),。
幸運(yùn)的是,,在上面提到的langevin dynamic(MCMC算法中的一種),和stochastic optimizaiton(比如隨機(jī)梯度下降法)可以結(jié)合在一起用,。
這樣,,我們就可以通過(guò)少量的訓(xùn)練集去做采樣,這個(gè)時(shí)候采樣的效率就不再依賴(lài)于N了,,而是依賴(lài)于m, m是遠(yuǎn)遠(yuǎn)小于N,。
這就是整個(gè)的idea, 其實(shí)在邏輯上很簡(jiǎn)單,就是想讓大家了解一下這個(gè)領(lǐng)域是怎么發(fā)展過(guò)來(lái)的,。每一次的發(fā)展都是有背后的需求的,。
這些我就不一一講了,有興趣可以看一下,。
這是今天的總結(jié),,重點(diǎn)就是 ML,MAP,貝葉斯思想以及 這些理論是怎么演變過(guò)來(lái)的。
@解答RBM的問(wèn)題: RBM也涉及到一個(gè)積分問(wèn)題,,所以也需要用采樣的方式來(lái)做,。但在RBM我們用到的采樣方式略有不同,,我們只采樣幾次(或一次),叫作contrastivedivergence,。
@目前的應(yīng)用: 現(xiàn)在我知道的具體的應(yīng)用大部分在推薦上,。比如我聽(tīng)說(shuō)微軟用了貝葉斯矩陣分解法(Bayesianmatrix factorization), 而且也用到(Bayesianlogit regression), 還有LDA這種模型,,當(dāng)然很多地方都在用,。 這些都是貝葉斯模型的范疇,具體的解法都是基于采樣或者變分(這個(gè)今天我沒(méi)有提到)
@針對(duì)非平衡數(shù)據(jù): 這個(gè)不好說(shuō),,我覺(jué)得針對(duì)非平衡數(shù)據(jù)還是需要依賴(lài)于像bootstrap這種方法,。貝葉斯最大的優(yōu)點(diǎn)應(yīng)該還是在于樣本比較少的情況下。
@Alphago 應(yīng)該算是frequentist把,, 用到了deep reinforcement learning算法,。 在深度學(xué)習(xí)里,Bayesian neural network也會(huì)有所地位的,。
@MCMC 有一個(gè)BURN IN PERIOD 的過(guò)程,,請(qǐng)問(wèn)我們是經(jīng)過(guò)了這個(gè)過(guò)程使分布達(dá)到收斂后才進(jìn)行采樣嘛?
是的,, 之后采樣就可以,。 之前的樣本就可以丟棄了
問(wèn):還有大數(shù)據(jù)領(lǐng)域是不是還是frequentist普遍,因?yàn)榇髽颖驹诖髷?shù)定理的影響下,,先驗(yàn)概率還是趨近于定值,?
@frequenst普遍。 是的,, 因?yàn)楸旧碡惾~斯模型計(jì)算量很大,,即使用先進(jìn)的方法也是很耗計(jì)算的,但我還是比較看好這方面的應(yīng)用,。 Frequenstvs Bayesian的應(yīng)用上,,也可以參考 AMA的一些討論
貝葉斯上好像沒(méi)有什么特別好的書(shū)。 我建議看網(wǎng)上的一些tutorial, 有一個(gè)比較經(jīng)典的入門(mén)資料應(yīng)該是一個(gè)Brown university的Erik Sudderth教授的博士論文,。
請(qǐng)問(wèn)機(jī)器學(xué)習(xí)方法,,特別是bayesian的方法,現(xiàn)金融領(lǐng)域有哪些應(yīng)用呢,,謝謝,。
我覺(jué)得這方面的應(yīng)用會(huì)比較有前景。 因?yàn)榻鹑陬I(lǐng)域樣本量不多,,貝葉斯模型會(huì)有一席之地,。
langevin dynamic stochastic optimizaiton,請(qǐng)問(wèn)這個(gè)優(yōu)化方式是否適用于分布式集群嘛?如目前spark上的LDA就是類(lèi)似的實(shí)現(xiàn)嘛,?
可以做成分布式的,針對(duì)LDA也可以做成分布式,。 請(qǐng)看一下 Sungjin Ahn的一篇論文 distributed MCMC,這是我的一位合作者,。
@核函數(shù)如何選擇 是說(shuō)先驗(yàn)概率嗎? 這些函數(shù)的選擇基本上是考慮計(jì)算的復(fù)雜度,。貝葉斯領(lǐng)域有個(gè)叫做conjugateprior, 這個(gè)性質(zhì)可以讓計(jì)算變得簡(jiǎn)單很多,。
入門(mén)建議:我當(dāng)時(shí)入門(mén)的時(shí)候就是看LDA模型的,然后看網(wǎng)上video lecture.net上的tutorial視頻,。
機(jī)器學(xué)習(xí)入門(mén): 可以關(guān)注小象機(jī)器學(xué)習(xí)訓(xùn)練營(yíng),, 我也會(huì)在這里講一些
http://v./s/2fxp1a5k?eqrcode=1&from=singlemessage&isappinstalled=0
平時(shí)研究用GPU: 會(huì)用到, 我們?cè)?jīng)用一個(gè)龐大的集群做了一個(gè)實(shí)驗(yàn),,就是針對(duì)facebook整個(gè)網(wǎng)絡(luò),,這部分work可以參考一下我最新一篇的文章,可以在我的主頁(yè)上找到,。
用戶(hù)畫(huà)像: 這塊還是用基本的算法吧,, 或者最簡(jiǎn)單的segmentation