我們來(lái)聊一聊機(jī)器學(xué)習(xí)的核心:參數(shù)估計(jì)以及貝葉斯模型

CharlseShan 2016-05-10

展開(kāi)全文

首先,，機(jī)器學(xué)習(xí)的核心思想是從過(guò)去的經(jīng)驗(yàn)中自動(dòng)地學(xué)習(xí)出規(guī)則，從而去對(duì)新的事件做預(yù)測(cè),。樣本量的增多有助于構(gòu)建機(jī)器學(xué)習(xí)模型,，這是不變的道理。所以在領(lǐng)域里的應(yīng)用中,，我們首先要做的是想辦法搜集更多的樣本,。當(dāng)然，我在這里主要講監(jiān)督學(xué)習(xí), 因?yàn)檫@是整個(gè)行業(yè)里應(yīng)用最廣泛的技術(shù),。

機(jī)器學(xué)習(xí)的應(yīng)用有很多,，這大概是目前比較流行的一些應(yīng)用例子。包括圖像識(shí)別,，語(yǔ)音識(shí)別等,，大家可以仔細(xì)看一下，我就不一一解釋了,。其中圖像識(shí)別和語(yǔ)音識(shí)別,，自然語(yǔ)言處理的發(fā)展變得非?？欤蟛糠止谑怯捎谏疃葘W(xué)習(xí)的崛起,。

如果說(shuō)深度學(xué)習(xí)的發(fā)展造就了當(dāng)今AI的熱潮也不為過(guò),。后續(xù)如果有機(jī)會(huì)再跟大家仔細(xì)分享一下深度學(xué)習(xí)技術(shù)。

這是大家熟悉的AlphaGo與李世石的對(duì)戰(zhàn),，機(jī)器最終勝利,。這個(gè)很振奮人心，但與此同時(shí),，也有不少媒體用這件事情做一些炒作,。機(jī)器的勝利真的意味著AI發(fā)展到了一定牛的程度？我覺(jué)得在這一類(lèi)問(wèn)題上AI戰(zhàn)勝人類(lèi)是必然的,，因?yàn)閲暹@種游戲的空間是確定的,，沒(méi)有什么隨機(jī)性。機(jī)器最難處理的問(wèn)題就是具有較大隨機(jī)性的問(wèn)題,。

其實(shí),，我更期待的是Alphago和星際2的較量。 :) 大家可以期待一下,，在這里我就不賭誰(shuí)贏誰(shuí)輸了,。

今天的目的很明確，就是要給大家講兩個(gè)方面： ML,MAP,貝葉斯估計(jì)之間的區(qū)別和怎么才能做到大規(guī)模貝葉斯模型的學(xué)習(xí),。

這個(gè)幻燈頁(yè)涵蓋了整個(gè)機(jī)器學(xué)習(xí)的過(guò)程,。首先，為了學(xué)習(xí),，我們需要定義我們的假設(shè),，大家可以理解為對(duì)模型的假設(shè)，比如我們假設(shè)我們用的模型為線性模型或者非線性模型,。
其次,，我們需要定義我們的目標(biāo)函數(shù)，也就是定義怎么去衡量學(xué)出來(lái)的模型的好壞,。這部分往往用一個(gè)loss function來(lái)定義,。比如在這里，我們可以選用square loss,。

接下來(lái)就是,，怎么對(duì)這個(gè)目標(biāo)函數(shù)做優(yōu)化，并能學(xué)習(xí)出最優(yōu)的模型,，,。這部分我們可以稱(chēng)之為optimization。其實(shí)就是一種優(yōu)化算法，這種算法可以來(lái)對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化,，并能得到最優(yōu)化的解,。所以，機(jī)器學(xué)習(xí)大概分成兩個(gè)方面：機(jī)器學(xué)習(xí) = 模型　優(yōu)化,。

優(yōu)化方法有很多種比如梯度下降,，牛頓法，蒙特卡洛等等,。不同的模型可選擇不同的優(yōu)化方法,。比如邏輯回歸，我們常用隨機(jī)梯度下降法來(lái)解決,，神經(jīng)網(wǎng)絡(luò)用反向推導(dǎo)來(lái)解決,，貝葉斯模型則用MCMC這類(lèi)方法來(lái)解決。

還有一個(gè)方面就是模型的復(fù)雜性,。復(fù)雜的模型對(duì)數(shù)據(jù)的fit程度一般會(huì)高于簡(jiǎn)單的模型，但即便這樣,，學(xué)出來(lái)的模型對(duì)測(cè)試集的效果可能還不如簡(jiǎn)單的模型,，而且明顯低于訓(xùn)練集上的效果。這種我們成為過(guò)擬合（overfiting)現(xiàn)象,。正則化（regularization)可以用來(lái)解決過(guò)擬合,。 MAP估計(jì)，這種方式其實(shí)在某種意義上就是相當(dāng)于正則化,，貝葉斯當(dāng)然也會(huì)避免過(guò)擬合現(xiàn)象,。后面會(huì)講到。

當(dāng)有了模型,，也有了算法,，我們就可以找到最優(yōu)解，接下來(lái)我們就需要判斷這種解是否真的是我們需要的,？這部分就需要一些技術(shù)比如交叉驗(yàn)證( cross validation),。

到此為止，就是整個(gè)機(jī)器學(xué)習(xí)的框架,，學(xué)習(xí)機(jī)器學(xué)習(xí),，必須要對(duì)整個(gè)流程明確，所以這個(gè)slide是有必要去深入理解的,。

接下來(lái)重點(diǎn)講一下 ML,MAP和貝葉斯估計(jì)之間的關(guān)聯(lián)和區(qū)別,，是今天的重點(diǎn)。

我們用D來(lái)表示樣本集,，用\theta來(lái)表示模型所有的參數(shù), x*就是一個(gè)新的樣本（當(dāng)模型學(xué)習(xí)完之后,，我們需要在新的樣本上做預(yù)測(cè)）。

1. ML（最大似然估計(jì)），它就是給定一個(gè)模型的參數(shù),，然后試著去最大化p(D|\theta), 這就是在參數(shù)給定的情況下,，看到樣本集的概率。在這里我們假設(shè)模型的參數(shù)是給定的,，然后目標(biāo)就是要找到這種最優(yōu)的參數(shù)\theta使得p(D|\theta)最大化,。

我們平時(shí)碰到的邏輯回歸問(wèn)題都是基于最大似然估計(jì)得出來(lái)的。

2. 但是ML估計(jì)有一個(gè)大的問(wèn)題,，就是不會(huì)把我們的先驗(yàn)知識(shí)考慮進(jìn)去,。相反，MAP這種估計(jì)會(huì)把 prior belief融入到模型里,。 MAP跟ML非常類(lèi)似,，只不過(guò)我們?nèi)プ畲蠡?/span>p(\theta|D)，概率里的模型參數(shù)和D的順序改變了,。但這種小小的改變帶來(lái)的是完全不一樣的模型的表達(dá)方式,。

總之，ML和MAP估計(jì)都屬于同一個(gè)范疇,，我們成為（frequentist),，最后的目的都是一樣的：找到“特定”的最優(yōu)解。當(dāng)我們找到最優(yōu)解之后,，我們就可以利用這個(gè)最優(yōu)解做預(yù)測(cè),。所以預(yù)測(cè)部分都是一樣的。

接下來(lái)就是貝葉斯估計(jì),，這個(gè)跟ML和MAP估計(jì)有較大不同,。在這里，我們的預(yù)測(cè)是考慮到了所有可能的參數(shù)\theta,。也就是說(shuō),，所有的參數(shù)空間。 ML,MAP估計(jì)是要找到“某特定”的最優(yōu)解,。但相反,，貝葉斯估計(jì)考慮的是所有的參數(shù)，也就是參數(shù)的分布,。所以,，在這里可以看到，當(dāng)我們對(duì)新的樣本做預(yù)測(cè)的時(shí)候,，我們其實(shí)計(jì)算的是p(y^|x,D),。這里不包含任何的參數(shù)，因?yàn)樵谪惾~斯估計(jì)里,，我們需要考慮所有可能的參數(shù),，所以這部分可以被integrated out,。

下面，對(duì)每一個(gè)算法做更詳細(xì)的介紹,。

重新回到ML估計(jì),，如剛才提到那樣，我們需要去最大化p(D|\theta),，這部分優(yōu)化我們通?？梢园褜?dǎo)數(shù)設(shè)置為0的方式去得到。然而,，ML估計(jì)不會(huì)把先驗(yàn)知識(shí)考慮進(jìn)去,，而且很容易造成過(guò)擬合現(xiàn)象

舉個(gè)例子，比如對(duì)癌癥的診斷,，一個(gè)醫(yī)生一天可能接到100名患者,，但最終被診斷出癌癥的患者為5個(gè)人，在ML估計(jì)下我們得到的癌癥的概率為0.05,。這顯然是不太切合實(shí)際的,，因?yàn)槲覀兏鶕?jù)已有的經(jīng)驗(yàn)，我們知道這種概率會(huì)低很多,。然而ML估計(jì)并沒(méi)有把這種知識(shí)融入到模型里,。

MAP就是用來(lái)解決這個(gè)問(wèn)題。它會(huì)把我們已知的信息融入到模型訓(xùn)練里,。利用貝葉斯規(guī)則 p(\theta|D)可以寫(xiě)成如上的形式。

所以最大化 p(\theta|D)等同于最大化 p(D|\theta)p(\theta),。在這里p(\theta)其實(shí)就是我們的先驗(yàn)知識(shí),。

加上log對(duì)我們學(xué)習(xí)不會(huì)產(chǎn)生影響的，因?yàn)?/span>log就是strictly increasingfunction,。所以最后,，MAP的目標(biāo)函數(shù)就變成了 ML估計(jì)加上一個(gè)我們的先驗(yàn)。

所以,，ML和MAP的唯一的區(qū)別在于p(\theta)這個(gè)term上,。我們可以把它理解成先驗(yàn)、也可以理解成損失函數(shù),。

其實(shí)它起到了正則化的作用,。比如我們?cè)诰€性模型里，如果我們?cè)O(shè)定p(\theta)為高斯分布,，它等同于加了一個(gè) L2 norm, 如果我們假定p(\theta)為拉普拉斯分布,，它就等同于我們?cè)谀Ｐ屠锛恿?/span>L1 norm。這部分的學(xué)習(xí)很重要,，希望大家可以做一些課下的功課,，我面試也會(huì)常常問(wèn)這類(lèi)的問(wèn)題。

最后，就是貝葉斯估計(jì)了,，如上面所述,，為了對(duì)一個(gè)新的樣本做預(yù)測(cè)，我們以積分的方式去integrate out所有可能的參數(shù)（整個(gè)參數(shù)空間）,。

再次強(qiáng)調(diào)一下： ML和MAP只會(huì)給出特定的最優(yōu)解,，然而貝葉斯模型會(huì)給出對(duì)參數(shù)的一個(gè)分布，比如對(duì)模型的參數(shù)\theta, 假定參數(shù)空間里有\theta1,\theta2, \theta3,...\thetaN,，貝葉斯模型學(xué)出來(lái)的就是這些參數(shù)的重要性（也就是分布）,，當(dāng)我們對(duì)新的樣本做預(yù)測(cè)的時(shí)候，就會(huì)讓所有的模型一起去預(yù)測(cè),，但每個(gè)模型會(huì)有自己的權(quán)重（權(quán)重就是學(xué)出來(lái)的分布）

這是貝葉斯模型的核心思想,，也有一點(diǎn)random forest(隨機(jī)森林）的類(lèi)似思想。
也可以這么理解：把不同的模型都考慮進(jìn)來(lái),，當(dāng)預(yù)測(cè)的時(shí)候每個(gè)模型都會(huì)有重要性的權(quán)重,，
貝葉斯預(yù)測(cè)里我們討論的是無(wú)窮多這種模型一起來(lái)做預(yù)測(cè)。

討論完這些,，我們就好定義什么是frequentist 和bayesian 了,，接下來(lái)看下一個(gè)slide。

就是一個(gè)總結(jié),，整個(gè)統(tǒng)計(jì)學(xué)的兩大派,。當(dāng)然這兩代派都有各自的理論。

要記住的一點(diǎn)就是： frequentist里,，我們都是假設(shè)模型的參數(shù)就是固定的,。但在貝葉斯領(lǐng)域里，我們不做這樣的假設(shè),，而是去學(xué)習(xí)參數(shù)的分布,。

用一個(gè)簡(jiǎn)答的例子來(lái)再總結(jié)一下（因?yàn)檫@部分是重點(diǎn)）。比如你是班里的班長(zhǎng),，你有個(gè)問(wèn)題想知道答案,，你可以問(wèn)班里所有的同學(xué)，并且假設(shè)班里的每一位同學(xué)是整個(gè)參數(shù)空間里的一個(gè)模型參數(shù),。一種方案是,，問(wèn)一個(gè)學(xué)習(xí)最好的同學(xué)。另一種方案是,，問(wèn)所有的同學(xué),，然后把答案綜合起來(lái)，但綜合的時(shí)候,，會(huì)按照每個(gè)同學(xué)的成績(jī)好壞來(lái)做個(gè)權(quán)重,。第一種方案的思想類(lèi)似于ML,MAP,，第二種方案類(lèi)似于貝葉斯模型。

有個(gè)領(lǐng)域叫nonparametricBayesian,，簡(jiǎn)單科普一下：比如用k-means算法,，我們需要去假定K的值，但我們并不知道哪個(gè)K是最好的,，所以我們要不斷地嘗試一系列的K的值,。用nonparametric方法就是我們想讓模型從數(shù)據(jù)里自動(dòng)的去學(xué)習(xí)K的值。當(dāng)然,，這種算法的復(fù)雜度會(huì)很高,，所以在實(shí)際應(yīng)用里用的比較少。

接下來(lái)問(wèn)題就來(lái)了：既然貝葉斯模型這么牛,，為什么在實(shí)際應(yīng)用里并不普遍,？我覺(jué)得最大的原因是在于它的計(jì)算復(fù)雜度上。

如上所述,，我們需要去計(jì)算后驗(yàn)概率 p(\theta|D),，但一般情況下，后驗(yàn)概率的計(jì)算是不現(xiàn)實(shí)的,。看slide話就知道,，這里涉及到很復(fù)雜的積分，這個(gè)積分是在大部分情況下是不可能精確計(jì)算到的,。所以需要一些近似計(jì)算方法,。

所以整個(gè)貝葉斯領(lǐng)域的核心技術(shù)就是要近似地計(jì)算 p(\theta|D）。說(shuō)白了,，這里的核心問(wèn)題就是要近似這個(gè)復(fù)雜的積分（integral), 那接下來(lái)我講一種技術(shù)來(lái)去做近似,。
在這里介紹蒙特卡洛算法，這個(gè)也是今天的重點(diǎn),。其實(shí)很簡(jiǎn)單，比如我想計(jì)算一個(gè)公司所有員工的平均身高,，這個(gè)時(shí)候最簡(jiǎn)答粗暴的方法就是讓行政去一個(gè)一個(gè)去測(cè)量,，然后取平均值。但想計(jì)算所有中國(guó)人的平均身高,，怎么做,？

這個(gè)就不難么簡(jiǎn)單了，一個(gè)一個(gè)去測(cè)量,，顯然是不太現(xiàn)實(shí)的,。一種解決方法就是蒙特卡洛方法，也就是采樣,。我們可以隨機(jī)地采訪一些人,，然后用他們的身高來(lái)去估計(jì)全國(guó)人民的平均身高,。當(dāng)然，我們采訪的人越多,，準(zhǔn)確率會(huì)越高,。這是蒙特卡洛的核心思想，就是這么簡(jiǎn)單,。當(dāng)我們采訪完所有人的時(shí)候,，這個(gè)就是exact solution（精確值）了。所以蒙特卡洛方法隨著樣本數(shù)量的增加,，我們的估計(jì)也會(huì)變得越來(lái)越準(zhǔn)確,，這點(diǎn)很重要。

再舉一個(gè)例子,，比如計(jì)算一個(gè)圓的面積,，而且假設(shè)我們不知道PI。這個(gè)時(shí)候也可以用采樣的方法來(lái)做,，我們可以在一個(gè)正方形空間里隨機(jī)的做采樣,，比如落在紅色區(qū)域里的點(diǎn)的個(gè)數(shù)為 n1, 落在白色區(qū)域的個(gè)數(shù)為n2, 這個(gè)時(shí)候我們就知道紅色部分的面積就是 n1/(n1 n2)了。

那接下來(lái)的問(wèn)題是,，怎么近似連續(xù)性函數(shù),，就是我們剛才提到的積分的計(jì)算？

思想都一樣,，假設(shè)我們要計(jì)算 f(x)的期望值,，同時(shí)我們也有p(x)的分布，這個(gè)時(shí)候我們就可以不斷的從p(x)這個(gè)分布里做一些采樣,，比如 x1,x2,...xn, 然后用這些采樣的值去算f(x), 所以最后得到的結(jié)果就是 (f(x1) f(x2),, f(xn))/ n,。當(dāng)然，采樣的樣本越多,，估計(jì)也會(huì)越準(zhǔn)確,。所以對(duì)貝葉斯模型，我們需要計(jì)算后驗(yàn)概率分布p(\theta|D),，其實(shí)就是從這個(gè)概率分布中采樣,。

上面例子中提到的采樣都是獨(dú)立的。也就是每個(gè)樣本跟其他的樣本都是獨(dú)立的,，不影響彼此之間的采樣,。然而，在現(xiàn)實(shí)問(wèn)題上,，有些時(shí)候我們想加快有效樣本的采樣速度,。這個(gè)問(wèn)題討論的就是怎么去優(yōu)化采樣過(guò)程，也是機(jī)器學(xué)習(xí)里一個(gè)比較大的話題,。

重申一下,，用上面提到的采樣方式我們可以去近似地估計(jì)復(fù)雜的積分,，也可以估計(jì)圓的面積，也可以估計(jì)全國(guó)人口的平均身高,。但這個(gè)采樣方式是獨(dú)立的,，有些時(shí)候，我們希望用更少的樣本去更準(zhǔn)確的近似某一個(gè)目標(biāo),，所以就出現(xiàn)了sampling這種領(lǐng)域的研究,，就是在研究以什么樣的方式優(yōu)化整個(gè)采樣過(guò)程，使得過(guò)程更加高效,。

在這個(gè)slide里介紹了MCMC采樣方法,，全稱(chēng)為Markov chain Monte Carlo方法。在這種采樣方式下,，每個(gè)樣本之間都存在著一些聯(lián)系（并不是獨(dú)立）,，從而去優(yōu)化采樣過(guò)程。這個(gè)slide列了一些常見(jiàn)的方法,，如果之前對(duì)topic model比較熟悉,，那應(yīng)該也了解gibbs sampling這種方法，這也是非常經(jīng)典的方法,。

這種采樣的方式可以解決貝葉斯模型的推理,，那為什么貝葉斯模型還是沒(méi)能普遍用在應(yīng)用上呢？

因?yàn)檫@部分技術(shù)還不能處理大的數(shù)據(jù)量,。為了得到每一個(gè)樣本,，我們需要iterate整個(gè)訓(xùn)練集。如果訓(xùn)練集不大還好,，但樣本量很大的時(shí)候,，這就顯然不可能了。

這是為什么采樣的方式還未能普遍應(yīng)用在大數(shù)據(jù)環(huán)境下的原因,。所以現(xiàn)在貝葉斯領(lǐng)域關(guān)心的主要問(wèn)題是：怎么去優(yōu)化采樣方式,，讓它能在大數(shù)據(jù)環(huán)境下有效學(xué)習(xí)貝葉斯模型。

遇到這個(gè)問(wèn)題可能大家也會(huì)想到一些解決的方法,。如果對(duì)邏輯回歸模型熟悉,，大家應(yīng)該都了解梯度下降法。

簡(jiǎn)單回顧一下,，我們是怎么去解決邏輯回歸模型的,，這是LR的模型介紹,，很簡(jiǎn)單,，其實(shí)就是想讓大家重溫一下。

解邏輯回歸我們常用梯度下降法,，具體的梯度下降法,，我相信大家應(yīng)該不會(huì)陌生,，就是這樣的。

就是不斷的迭代,，每個(gè)迭代都需要去更新模型的參數(shù),，直到converge. 這是經(jīng)典的梯度下降法，任何書(shū)本上都會(huì)看得到,。在這里每一次的更新,，我們都用到了整個(gè)數(shù)據(jù)集合。

所以,，人們就提出了一種新的算法,，叫做隨機(jī)梯度下降法，或者是batch gradient descent.

只有一個(gè)地方的改變,，就是每一次不取所有的樣本集合了,，只需某一個(gè)部分，而這個(gè)某一個(gè)部分的樣本集會(huì)遠(yuǎn)遠(yuǎn)小于整個(gè)樣本集,。

所以這種方式就可以應(yīng)用在大數(shù)據(jù)上了,，因?yàn)槊恳淮蔚母虏辉谝蕾?lài)于N，而是依賴(lài)于比N小很多的m,，m << N,。

如果一個(gè)算法依賴(lài)于N，絕對(duì)是不能用在大數(shù)據(jù)環(huán)境下的,。

所以接下來(lái)的問(wèn)題是,，我們能不能把這種思想應(yīng)用在之前提到的采樣中（因?yàn)槲覀冎疤徇^(guò)，在MCMC采樣過(guò)程中都會(huì)用到所有的訓(xùn)練數(shù)據(jù)）,。

幸運(yùn)的是,，在上面提到的langevin dynamic（MCMC算法中的一種），和stochastic optimizaiton(比如隨機(jī)梯度下降法)可以結(jié)合在一起用,。

這樣,，我們就可以通過(guò)少量的訓(xùn)練集去做采樣，這個(gè)時(shí)候采樣的效率就不再依賴(lài)于N了,，而是依賴(lài)于m, m是遠(yuǎn)遠(yuǎn)小于N,。

這就是整個(gè)的idea, 其實(shí)在邏輯上很簡(jiǎn)單，就是想讓大家了解一下這個(gè)領(lǐng)域是怎么發(fā)展過(guò)來(lái)的,。每一次的發(fā)展都是有背后的需求的,。

這些我就不一一講了，有興趣可以看一下,。

這是今天的總結(jié),，重點(diǎn)就是 ML,MAP,貝葉斯思想以及這些理論是怎么演變過(guò)來(lái)的。

問(wèn)答Question

@解答RBM的問(wèn)題： RBM也涉及到一個(gè)積分問(wèn)題,，所以也需要用采樣的方式來(lái)做,。但在RBM我們用到的采樣方式略有不同,，我們只采樣幾次（或一次），叫作contrastivedivergence,。

@目前的應(yīng)用：現(xiàn)在我知道的具體的應(yīng)用大部分在推薦上,。比如我聽(tīng)說(shuō)微軟用了貝葉斯矩陣分解法（Bayesianmatrix factorization), 而且也用到(Bayesianlogit regression)，還有LDA這種模型,，當(dāng)然很多地方都在用,。這些都是貝葉斯模型的范疇，具體的解法都是基于采樣或者變分（這個(gè)今天我沒(méi)有提到）

@針對(duì)非平衡數(shù)據(jù)：這個(gè)不好說(shuō),，我覺(jué)得針對(duì)非平衡數(shù)據(jù)還是需要依賴(lài)于像bootstrap這種方法,。貝葉斯最大的優(yōu)點(diǎn)應(yīng)該還是在于樣本比較少的情況下。

@Alphago 應(yīng)該算是frequentist把,，用到了deep reinforcement learning算法,。在深度學(xué)習(xí)里，Bayesian neural network也會(huì)有所地位的,。

@MCMC 有一個(gè)BURN IN PERIOD 的過(guò)程,，請(qǐng)問(wèn)我們是經(jīng)過(guò)了這個(gè)過(guò)程使分布達(dá)到收斂后才進(jìn)行采樣嘛？
是的,，之后采樣就可以,。之前的樣本就可以丟棄了

問(wèn)：還有大數(shù)據(jù)領(lǐng)域是不是還是frequentist普遍，因?yàn)榇髽颖驹诖髷?shù)定理的影響下,，先驗(yàn)概率還是趨近于定值,？

@frequenst普遍。是的,，因?yàn)楸旧碡惾~斯模型計(jì)算量很大,，即使用先進(jìn)的方法也是很耗計(jì)算的，但我還是比較看好這方面的應(yīng)用,。 Frequenstvs Bayesian的應(yīng)用上,，也可以參考 AMA的一些討論

貝葉斯上好像沒(méi)有什么特別好的書(shū)。我建議看網(wǎng)上的一些tutorial, 有一個(gè)比較經(jīng)典的入門(mén)資料應(yīng)該是一個(gè)Brown university的Erik Sudderth教授的博士論文,。

請(qǐng)問(wèn)機(jī)器學(xué)習(xí)方法,，特別是bayesian的方法，現(xiàn)金融領(lǐng)域有哪些應(yīng)用呢,，謝謝,。

我覺(jué)得這方面的應(yīng)用會(huì)比較有前景。因?yàn)榻鹑陬I(lǐng)域樣本量不多,，貝葉斯模型會(huì)有一席之地,。

langevin dynamic stochastic optimizaiton，請(qǐng)問(wèn)這個(gè)優(yōu)化方式是否適用于分布式集群嘛？如目前spark上的LDA就是類(lèi)似的實(shí)現(xiàn)嘛,？

可以做成分布式的，針對(duì)LDA也可以做成分布式,。請(qǐng)看一下 Sungjin Ahn的一篇論文 distributed MCMC,這是我的一位合作者,。

@核函數(shù)如何選擇是說(shuō)先驗(yàn)概率嗎？這些函數(shù)的選擇基本上是考慮計(jì)算的復(fù)雜度,。貝葉斯領(lǐng)域有個(gè)叫做conjugateprior, 這個(gè)性質(zhì)可以讓計(jì)算變得簡(jiǎn)單很多,。

入門(mén)建議：我當(dāng)時(shí)入門(mén)的時(shí)候就是看LDA模型的，然后看網(wǎng)上video lecture.net上的tutorial視頻,。

機(jī)器學(xué)習(xí)入門(mén)：可以關(guān)注小象機(jī)器學(xué)習(xí)訓(xùn)練營(yíng),，我也會(huì)在這里講一些
http://v./s/2fxp1a5k?eqrcode=1&from=singlemessage&isappinstalled=0

平時(shí)研究用GPU: 會(huì)用到，我們?cè)?jīng)用一個(gè)龐大的集群做了一個(gè)實(shí)驗(yàn),，就是針對(duì)facebook整個(gè)網(wǎng)絡(luò),，這部分work可以參考一下我最新一篇的文章，可以在我的主頁(yè)上找到,。

用戶(hù)畫(huà)像：這塊還是用基本的算法吧,，或者最簡(jiǎn)單的segmentation

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： CharlseShan > 《IT》

舉報(bào)/認(rèn)領(lǐng)