導(dǎo)讀:如果有一天,我們知道的統(tǒng)計(jì)規(guī)律和現(xiàn)實(shí)生活發(fā)生了沖突,,又或者前人的經(jīng)驗(yàn)不符合親身經(jīng)歷,,那么該怎么辦?面對(duì)經(jīng)驗(yàn)與現(xiàn)實(shí)的矛盾,,我們需要一種應(yīng)對(duì)方案,。 來(lái)源:大數(shù)據(jù)DT(ID:hzdashuju)假設(shè)你正在玩拋硬幣猜正反的游戲。游戲看上去很公平,,沒(méi)有人在干預(yù)硬幣結(jié)果,,硬幣看上去也像是普通的硬幣。對(duì)于即將開始的下一局,,請(qǐng)問(wèn)你該如何下注,?理論上講,硬幣在落地后得到正面和反面的概率是一樣的,,所以你可以隨便猜,,總會(huì)猜對(duì)一半。但那畢竟是理論,,你無(wú)法確保眼前的這枚硬幣也是如此,。更何況,你無(wú)法提前拋?zhàn)銐蚨啻芜@枚硬幣,,來(lái)驗(yàn)證你的假設(shè),。那該用怎樣的下注策略呢?答案是根據(jù)歷史信息來(lái)決定,。比方說(shuō),,已經(jīng)拋了10次硬幣,其中有8次正面朝上,。就是說(shuō)通過(guò)10次實(shí)踐,,硬幣正面朝上的概率是80%。雖然這個(gè)概率和它的理論值(50%)比可能有偏差,,但它仍然是下注的重要參考,。如果還有第11次拋硬幣,你就應(yīng)該去猜正面朝上,。更極端點(diǎn),,如果硬幣扔了一億次都是正面朝上,,那下一次反面朝上的概率是多少?我們能否堅(jiān)信它是一枚特殊硬幣呢,?不能,。雖然下一次硬幣反面朝上的概率無(wú)限接近于零,但它不等于零,。只要沒(méi)有對(duì)硬幣做出更進(jìn)一步的確認(rèn),,無(wú)論扔多少次,我們都無(wú)法排除反面朝上這個(gè)選項(xiàng),,只能無(wú)限降低對(duì)它的可能性的預(yù)期,。大部分人都是根據(jù)歷史經(jīng)驗(yàn)不斷修正自己的認(rèn)知,。畢竟我們不是先知,,不能提前知道所有事件發(fā)生的概率。這種思考方式具有現(xiàn)實(shí)意義,,它背后的數(shù)學(xué)原理是貝葉斯定理,。預(yù)測(cè)在生活中必不可少,比如決定是否購(gòu)買更多的股票,、預(yù)測(cè)某個(gè)球隊(duì)是否獲勝,、確定下個(gè)月是否外出旅游等。要做出準(zhǔn)確的預(yù)測(cè),,不僅需要得到某個(gè)事件發(fā)生概率的理論值,,還要結(jié)合實(shí)際經(jīng)驗(yàn)做出合理判斷。換句話說(shuō),,人對(duì)某一事件未來(lái)會(huì)發(fā)生的認(rèn)知,,大多取決于該事件或類似事件過(guò)去發(fā)生的頻率。這就是貝葉斯定理的數(shù)學(xué)模型,,它最早由數(shù)學(xué)家托馬斯·貝葉斯提出,。貝葉斯生活在18世紀(jì),他的本職工作是一位英格蘭長(zhǎng)老會(huì)的牧師,。1763年,,他發(fā)表了論文《論有關(guān)機(jī)遇問(wèn)題的求解》,提出了一種解決問(wèn)題的框架思路,,即通過(guò)不斷增加信息和經(jīng)驗(yàn),,逐步逼近真相或理解未知。這種思想奠定了貝葉斯理論的基礎(chǔ),。貝葉斯定理的過(guò)程可以歸納為:“過(guò)去經(jīng)驗(yàn)”加上“新的證據(jù)”得到“修正后的判斷”,。它提供了一種將新觀察到的證據(jù)和已有的經(jīng)驗(yàn)結(jié)合起來(lái)進(jìn)行推斷的客觀方法。假設(shè)有隨機(jī)事件A和B,,它們的條件概率關(guān)系可以用以下數(shù)學(xué)公式表達(dá):- 其中,,事件A是要考察的目標(biāo)事件,,P(A)是事件A的初始概率,稱為先驗(yàn)概率,,它是根據(jù)一些先前的觀測(cè)或者經(jīng)驗(yàn)得到的概率,。
- B是新出現(xiàn)的一個(gè)事件,它會(huì)影響事件A,。P(B)表示事件B發(fā)生的概率,。
- P(B|A)表示當(dāng)A發(fā)生時(shí)B的概率,它是一個(gè)條件概率,。
- P(A|B)表示當(dāng)B發(fā)生時(shí)A的概率(也是條件概率),,它是我們要計(jì)算的后驗(yàn)概率,指在得到一些觀測(cè)信息后某事件發(fā)生的概率,。
貝葉斯公式給出了通過(guò)先驗(yàn)概率和條件概率求出后驗(yàn)概率的方法,。舉個(gè)例子,我們假設(shè)A事件代表堵車,,B事件代表下雨,,并且已知以下數(shù)據(jù):如果上班堵車,,則這天是雨天的概率有30%,,即P(下雨|堵車)=0.3。 這個(gè)計(jì)算并不復(fù)雜,,但蘊(yùn)含著深刻的含義。有時(shí),,先驗(yàn)概率很容易得到,,但對(duì)于不同的條件概率,其計(jì)算難度差別很大,。比如醫(yī)生可以在心臟病人中統(tǒng)計(jì)男女占比,,但很少會(huì)在只知道對(duì)方性別的情況下診斷對(duì)方得心臟病的概率。另外,,根據(jù)貝葉斯公式,,先驗(yàn)概率一般是由以往的數(shù)據(jù)分析或統(tǒng)計(jì)得到的概率數(shù)據(jù)。后驗(yàn)概率是在某些條件下發(fā)生的概率,,是在得到信息之后再重新加以修正的概率,。也就是說(shuō),后驗(yàn)概率可以在先驗(yàn)概率的基礎(chǔ)上進(jìn)行修正并得到。基于貝葉斯的思考方式幾乎無(wú)時(shí)無(wú)刻不在發(fā)生,。人通常很少做出絕對(duì)的判斷,,但會(huì)做出相對(duì)可信的推斷,并根據(jù)新的證據(jù)不斷更新之前的結(jié)論,。比方說(shuō),,沒(méi)有一個(gè)程序員能保證自己寫出來(lái)的代碼沒(méi)有任何缺陷。但是我們可以對(duì)它進(jìn)行大量驗(yàn)證,,每通過(guò)一項(xiàng)測(cè)試,,我們就更有把握確保這段代碼的質(zhì)量。在貝葉斯派的世界觀中,,概率是被解釋為人們對(duì)一件事情發(fā)生的相信程度,,也就是信心。假設(shè)你不確定一件事情的發(fā)生概率,,但你知道一定存在這個(gè)概率值,,于是你開始不斷重復(fù)做試驗(yàn),并記錄下每次的結(jié)果,。剛開始時(shí),,得到的后驗(yàn)概率是不穩(wěn)定的。但隨著試驗(yàn)次數(shù)的增加,,觀測(cè)值的出現(xiàn)概率會(huì)越來(lái)越接近它的真實(shí)概率值。在這個(gè)過(guò)程中,,我們不是從隨機(jī)性里推斷出確定性,,而是保留了不確定性。這是貝葉斯派的思考方式,。不過(guò),,持有頻率派觀點(diǎn)的人對(duì)概率有另一種解釋。他們認(rèn)為概率是事件在長(zhǎng)時(shí)間內(nèi)發(fā)生的頻率,,也就是發(fā)生次數(shù),。比如,汽車事故發(fā)生的概率,,可以認(rèn)為是一段時(shí)間內(nèi)發(fā)生車輛事故的次數(shù),。不過(guò)人們發(fā)現(xiàn),這個(gè)定義不適用于一些特殊情況,,尤其是只會(huì)發(fā)生一次的事件,。試想一下,選舉時(shí)我們討論某個(gè)候選人的獲選概率,,但選舉本身在未來(lái)只會(huì)發(fā)生一次,,永遠(yuǎn)得不到多次選舉的數(shù)據(jù)。為了解決這個(gè)矛盾,,頻率派提出了“替代現(xiàn)實(shí)”的說(shuō)法,,套用今天物理學(xué)里的概念就是平行宇宙,,頻率派認(rèn)為概率是所有平行宇宙中發(fā)生的頻率。有時(shí),,把概率理解為信心或頻率并不影響結(jié)果,。比如一個(gè)人對(duì)汽車事故發(fā)生的信心就等同于他了解到的汽車事故的頻率。但有時(shí),,用貝葉斯派的觀點(diǎn)來(lái)解釋概率顯得更加自然,。比如大會(huì)選舉的例子,貝葉斯派不用考慮什么平行宇宙,,只要考慮對(duì)候選人的獲勝信心,,把它當(dāng)作選舉成功的概率,這種理解具有現(xiàn)實(shí)意義,。貝葉斯派認(rèn)為概率代表了個(gè)人觀點(diǎn),,每個(gè)人都能給出自己認(rèn)定的事件概率,它因人而異,,沒(méi)有唯一的標(biāo)準(zhǔn),。某人把概率0賦予某個(gè)事件,表明他完全確定此事不會(huì)發(fā)生,;如果概率是1,,則說(shuō)明他確信此事一定會(huì)發(fā)生。概率值在0和1之間,,表示他心目中此事發(fā)生的可能性,。這種觀點(diǎn)為人與人之間的認(rèn)知差異保留了余地。每個(gè)人擁有不同的信息,、認(rèn)知,、判斷,這些差異導(dǎo)致了不同的人對(duì)同一事件發(fā)生有著不同的信心,,這并不代表別人就是錯(cuò)的,。比如我在拋硬幣后偷看了結(jié)果,我就能確定某個(gè)結(jié)果出現(xiàn)的概率是1,。顯然,,我獲得的額外信息并不會(huì)改變硬幣本身的結(jié)果,但會(huì)使我和別人對(duì)結(jié)果賦予不同的概率值,。在貝葉斯派看來(lái),,對(duì)一個(gè)事件發(fā)生的信心等同于概率。這似乎是人們長(zhǎng)期以來(lái)和現(xiàn)實(shí)世界打交道的方式,。很多情況下,,人們只能了解部分真相,但可以通過(guò)不斷收集證據(jù)來(lái)修正自己的觀念。頻率派和貝葉斯派在考察不確定性時(shí)的出發(fā)點(diǎn)各不相同,。頻率派認(rèn)為事件本身具有某種客觀的隨機(jī)性,,而貝葉斯派認(rèn)為這不是事件的問(wèn)題,而是觀察者不知道事件的結(jié)果,。觀察者對(duì)事件了解得越多,,擁有的證據(jù)越多,他對(duì)事件的判斷就越準(zhǔn)確,。基于貝葉斯的推理與應(yīng)用為何這些年來(lái)廣為流傳,,為人津津樂(lè)道?答案是因?yàn)榇髷?shù)據(jù),。過(guò)去沒(méi)有大數(shù)據(jù),,所以先驗(yàn)概率很難獲得。這些年來(lái),,很多數(shù)據(jù)被人們積累下來(lái),,貝葉斯模型的運(yùn)用領(lǐng)域也越來(lái)越廣泛。比如在一些語(yǔ)言翻譯的網(wǎng)站,、醫(yī)療診斷的儀器中,,就會(huì)用到貝葉斯的統(tǒng)計(jì)方法。還有在電子郵件軟件中,,也集成了基于貝葉斯方法的垃圾郵件過(guò)濾功能,。貝葉斯定理告訴我們,即便獲得了新的證據(jù),,也不要完全放棄初始的信念,。新的證據(jù)會(huì)讓我們對(duì)某些結(jié)果更有信心,或幫助我們修正初始信念的錯(cuò)誤,。就是說(shuō),我們既要關(guān)注新的證據(jù),,又不能忽略初始信念,。新的證據(jù)很重要,因?yàn)槌跏夹拍羁赡苁清e(cuò)的,,這些證據(jù)可以用于做出修正,。但同時(shí),初始信念仍然是重要的基礎(chǔ),,不能只根據(jù)新證據(jù)就草率地做出判斷,。關(guān)于這一點(diǎn),讓我們來(lái)舉些例子,。假設(shè)中年婦女有1%的概率患有乳腺癌,。有一臺(tái)醫(yī)療設(shè)備能檢驗(yàn)女性胸部腫瘤。根據(jù)已有檢測(cè)數(shù)據(jù),這臺(tái)設(shè)備有80%的概率能正確診斷出乳腺癌,。但對(duì)于健康女性,,它也有10%的概率做出誤判。現(xiàn)在假設(shè)有一位婦女的檢查結(jié)果呈陽(yáng)性,,她被查出患有乳腺癌,,那么她真正得癌的概率是多少?大部分醫(yī)生認(rèn)為既然設(shè)備已經(jīng)檢查出了陽(yáng)性,,這位女性患有乳腺癌的概率就該很高,,他們給出的答案通常在75%左右。但實(shí)際上,,這個(gè)答案被高估了10倍,。貝葉斯定理告訴我們,1%的先驗(yàn)概率,,不會(huì)立刻變成75%的后驗(yàn)概率,,它只會(huì)增加到7.5%。很多醫(yī)生往往過(guò)于強(qiáng)調(diào)設(shè)備的準(zhǔn)確率,,認(rèn)為檢查結(jié)果呈陽(yáng)性,,這位婦女患乳腺癌的概率就應(yīng)該和設(shè)備的準(zhǔn)確率差不多,在80%左右,。但這種直覺判斷是錯(cuò)的,。我們必須把更多的注意力放在患乳腺癌的女性的初始比例(即先驗(yàn)概率)以及健康女性是假陽(yáng)性的概率上。因?yàn)榻】蹬缘恼急冗h(yuǎn)高于患乳腺癌的人,,所以她們被誤診為陽(yáng)性的可能性也更大,,這個(gè)數(shù)據(jù)不能輕易忽視。再比如,,假設(shè)一個(gè)盒子里放了很多球,,其中紅球占85%,綠球占15%,。有人從盒子中拿出一個(gè)球,,這個(gè)人有色弱,假設(shè)他分辨顏色的準(zhǔn)確率是80%,。如果這個(gè)人說(shuō)這是一個(gè)綠球,,那么這個(gè)球是綠色的概率是多少呢?讓我們來(lái)做一次計(jì)算:由于紅色的球被看成是綠色的概率是85%×20%,,綠色的球被看成是綠色的概率是15%×80%,,所以這個(gè)球是綠色的概率是0.15×0.8/(0.85×0.2 0.15×0.8)=41.38%。也就是說(shuō),,盡管這個(gè)人看到的是綠球,,而且他分辨顏色的準(zhǔn)確率達(dá)到80%,,因?yàn)榫G球本身的基數(shù)小,所以這個(gè)球是紅球的可能性更大,。通過(guò)上面兩個(gè)例子,,我們可以發(fā)現(xiàn),當(dāng)先驗(yàn)概率足夠強(qiáng)大時(shí),,即使出現(xiàn)新的證據(jù),,先驗(yàn)概率也會(huì)表現(xiàn)出驚人的影響力。這給我們的啟示是,,不能只把焦點(diǎn)放在最新獲得的信息上,,同時(shí)要關(guān)注全局,考慮先驗(yàn)概率這個(gè)重要前提,。貝葉斯定理研究的是條件概率,,也就是在特定條件下發(fā)生的概率問(wèn)題?;谶@一數(shù)學(xué)思想,,人們提出了一種叫作樸素貝葉斯的算法。樸素貝葉斯常用于解決分類問(wèn)題,,它的目的是把具有某些特征的樣本劃分到最可能屬于的類別中,。也就是說(shuō),樣本屬于哪個(gè)類別的概率最大,,就認(rèn)為它屬于哪個(gè)類別,。該算法已經(jīng)被用在郵件分類、文章分類,、情感分析等很多應(yīng)用場(chǎng)景,。以郵件分類為例,算法通過(guò)統(tǒng)計(jì)郵件內(nèi)容中單詞出現(xiàn)的頻率,,對(duì)郵件做出判斷,,比如發(fā)現(xiàn)了“掃碼”“匯款”等特定詞高頻出現(xiàn),那么就判斷這封郵件疑似垃圾郵件,。既然叫作樸素貝葉斯算法,,那它到底“樸素”在哪兒?使用樸素貝葉斯算法要滿足一個(gè)基本假設(shè):假定給定目標(biāo)值的各個(gè)特征之間是相互獨(dú)立的,,即條件獨(dú)立性。舉個(gè)例子,,“鸚鵡會(huì)飛”和“鸚鵡會(huì)學(xué)人說(shuō)話”這兩個(gè)短語(yǔ)是條件獨(dú)立的,,因?yàn)樗鼈冎g沒(méi)有必然聯(lián)系。而“鸚鵡會(huì)飛”和“鸚鵡是鳥”就不是條件獨(dú)立的,,它們之間具有關(guān)聯(lián):鸚鵡是鳥,,所以它能飛,;或者因?yàn)辂W鵡會(huì)飛,所以它才被叫作鳥,??傊@兩個(gè)短語(yǔ)彼此影響,,“鸚鵡會(huì)飛”影響了“鸚鵡是鳥”的結(jié)論,,“鸚鵡是鳥”又導(dǎo)致了“鸚鵡會(huì)飛”,它們不是條件獨(dú)立的,。樸素貝葉斯算法為何要設(shè)置條件獨(dú)立的前提呢,?這是因?yàn)椋绻總€(gè)特征不是相互獨(dú)立的,,在計(jì)算條件概率時(shí),,就必須把這些特征的所有排列組合都考慮一遍。這樣不僅計(jì)算量大,,還會(huì)產(chǎn)生指數(shù)級(jí)的參數(shù)數(shù)量,,實(shí)際執(zhí)行起來(lái)難度很大。下面我們以文本分類為例,,看看樸素貝葉斯算法的具體運(yùn)作過(guò)程,。首先,確定不同特征條件下各類別的出現(xiàn)概率,。比如要判斷一篇文章是經(jīng)濟(jì)類文章還是體育類文章,,可以把這個(gè)問(wèn)題轉(zhuǎn)化為:當(dāng)出現(xiàn)“銀行”“貸款”等特定詞語(yǔ)時(shí),這篇文章屬于經(jīng)濟(jì)類的概率更高,,還是屬于體育類的概率更高,?其次,省略計(jì)算全概率,。由于只是比較概率大小,,因此不必計(jì)算每個(gè)特征出現(xiàn)的全概率。根據(jù)貝葉斯公式,,全概率對(duì)所有類別都是同樣的分母,,比較時(shí)可以忽略。即,,對(duì)于任意一篇文章,,出現(xiàn)“銀行”的概率有多大,含有“貸款”的概率又是多少,,可以不必統(tǒng)計(jì),。最后,也是樸素貝葉斯算法最核心的思想:假設(shè)各個(gè)特征是條件獨(dú)立的,。這樣只要計(jì)算每個(gè)特征的條件概率,,然后相乘比較,,就能得出結(jié)論。就是說(shuō),,不用考慮文章中“銀行”“貸款”這些詞語(yǔ)之間是否有關(guān)聯(lián)(實(shí)際上它們很可能是有關(guān)聯(lián)的),,只要計(jì)算每個(gè)詞語(yǔ)的條件概率即可。在這個(gè)例子中,,假設(shè)待分類的文章中出現(xiàn)過(guò)“銀行”“貸款”這樣的詞語(yǔ),。而我們已經(jīng)有一些經(jīng)濟(jì)類和體育類的文章樣本,可以事先統(tǒng)計(jì)出不同文章出現(xiàn)不同詞匯的概率?,F(xiàn)在要判斷手上這篇文章到底是經(jīng)濟(jì)類文章還是體育類文章,,可以計(jì)算以下兩個(gè)“分?jǐn)?shù)”。分?jǐn)?shù)1= (一篇文章是經(jīng)濟(jì)類文章的概率)×(經(jīng)濟(jì)類文章出現(xiàn)“銀行”的概率)×(經(jīng)濟(jì)類文章出現(xiàn)“貸款”的概率)分?jǐn)?shù)2= (一篇文章是體育類文章的概率)×(體育類文章出現(xiàn)“銀行”的概率)×(體育類文章出現(xiàn)“貸款”的概率) 如果分?jǐn)?shù)1大于分?jǐn)?shù)2,,這篇文章就更有可能是經(jīng)濟(jì)類文章,,反之,則認(rèn)為它是體育類文章,。當(dāng)然,,運(yùn)用樸素貝葉斯算法還需要一些“技巧”。比如,,算法要避免出現(xiàn)某個(gè)概率是0的情況,。假設(shè)基于手上已有的學(xué)習(xí)樣本,經(jīng)濟(jì)類文章恰巧沒(méi)有出現(xiàn)過(guò)“銀行”這個(gè)詞,,這時(shí)得到的(經(jīng)濟(jì)類文章出現(xiàn)“銀行”的概率)就是0,,這就出了問(wèn)題,因?yàn)橹灰?的存在,,總得分就一定是0,,這會(huì)放大不常見單詞對(duì)結(jié)果的影響。因此,,有時(shí)會(huì)為每個(gè)詞的出現(xiàn)次數(shù)設(shè)定一個(gè)很小的初始值,,以防止那些不存在的樣本對(duì)總體概率造成影響。針對(duì)文本處理,,盡管不同單詞之間存在聯(lián)系,,每種語(yǔ)言也有它特定的語(yǔ)法規(guī)則,但樸素貝葉斯選擇忽略這些關(guān)聯(lián)性,。這個(gè)“樸素”的假設(shè)使得計(jì)算過(guò)程大幅簡(jiǎn)化,,而從實(shí)踐來(lái)看,結(jié)論通常不會(huì)有過(guò)大的偏差,。這就是樸素貝葉斯的“樸素”思想,,它人為給了一個(gè)非常強(qiáng)的前提假設(shè)。由于這一假設(shè),,模型包含的條件概率數(shù)量大幅減少,,樸素貝葉斯算法的預(yù)測(cè)過(guò)程也大為簡(jiǎn)化。當(dāng)然,,這么做也在一定程度上犧牲了分類準(zhǔn)確性,。貝葉斯定理雖然只是一個(gè)數(shù)學(xué)公式,但其內(nèi)涵已遠(yuǎn)遠(yuǎn)超出了公式范疇,。它告訴我們,,要從不同角度去思考已有的想法,以不同的方式來(lái)檢驗(yàn)它們,,通過(guò)實(shí)踐不斷調(diào)整對(duì)問(wèn)題的假設(shè)和看法,。貝葉斯定理提供了一種看待事物的全新視角。在一個(gè)不確定的環(huán)境下,,每條信息都會(huì)影響原來(lái)的概率假設(shè),,需要根據(jù)最新的信息更新和改進(jìn)決策,直到?jīng)Q策者從一切都不確定的狀態(tài)變成可以堅(jiān)定信心的狀態(tài),。人的認(rèn)知過(guò)程或許就是如此,。人類一直在探索和掌握新的知識(shí),在這個(gè)過(guò)程中,,一些知識(shí)被修正,,錯(cuò)誤的觀念被丟棄。“燃素”就是很好的例子,。這一概念最早出現(xiàn)在17世紀(jì),,當(dāng)時(shí)人們不了解空氣的組成,也沒(méi)有氧氣,、氮?dú)?、氧化作用等相關(guān)知識(shí)。為了解釋燃燒現(xiàn)象,,“燃素”的概念被提出,,人們認(rèn)為物體會(huì)燃燒是因?yàn)橛辛巳妓亍:髞?lái)經(jīng)過(guò)科學(xué)實(shí)驗(yàn),,人們才知道燃燒是一種化學(xué)反應(yīng),,自此“燃素”的概念才被徹底棄用。除了認(rèn)知更新,,貝葉斯定理也解釋了人們?yōu)槭裁春茈y接受與自身經(jīng)驗(yàn)相悖的信息或觀念,。因?yàn)橹挥袟l件概率足夠強(qiáng)大,才能改變先驗(yàn)概率原本的影響,。舉例來(lái)說(shuō),,以前大多數(shù)人相信“大地是平的”。公元前5世紀(jì)左右,,古希臘哲學(xué)家畢達(dá)哥拉斯提出“地球是球形”的猜想,,但當(dāng)時(shí)他沒(méi)有什么證據(jù),。后來(lái),,亞里士多德根據(jù)月食時(shí)地影的形狀,給出了第一個(gè)科學(xué)證據(jù),。直到16世紀(jì),,葡萄牙人麥哲倫實(shí)現(xiàn)了人類歷史上的首次環(huán)球航海,證明了“地球是圓的”,,人們這才開始普遍接受“地球”這個(gè)概念。在推理小說(shuō)中,,偵探推理的過(guò)程也蘊(yùn)含著貝葉斯定理的思想,。優(yōu)秀的偵探都會(huì)在心理先做出一個(gè)假設(shè),,比如預(yù)設(shè)某個(gè)人是罪犯的先驗(yàn)概率,然后根據(jù)不斷得到的線索和證據(jù)來(lái)更新后驗(yàn)概率,。得到的線索越多,,證據(jù)越充分,,對(duì)某人是罪犯的把握就越大。在福爾摩斯推理小說(shuō)中,,福爾摩斯本人就是一個(gè)非常擅長(zhǎng)貝葉斯推理的人。他第一眼見到華生時(shí),,就知道他來(lái)自阿富汗,。福爾摩斯的推理過(guò)程是這樣的:眼前這位先生,,具有醫(yī)務(wù)工作者的風(fēng)度,但是一副軍人氣概,。于是推測(cè)對(duì)方大概率是個(gè)軍醫(yī),。他臉色黝黑,,但是手腕的皮膚黑白分明,說(shuō)明原來(lái)的膚色并非黑色,所以他是剛從氣候炎熱的地帶回來(lái)的,。他面容憔悴,,這就說(shuō)明他是久病初愈而又歷盡了艱苦。他左臂受過(guò)傷,,動(dòng)作起來(lái)還有些僵硬不便,。試問(wèn),一個(gè)英國(guó)的軍醫(yī)在氣候炎熱的地方歷盡艱苦,,臂部還負(fù)過(guò)傷,,這能在什么地方呢?自然只有在阿富汗了,。這樣一系列的假設(shè),、推理,、驗(yàn)證,足見福爾摩斯的智慧,,也展現(xiàn)了貝葉斯推理的過(guò)程。無(wú)論是在數(shù)學(xué)還是在生活實(shí)踐中,貝葉斯定理都有著重要的指導(dǎo)意義,。究其原因,,是由于一件事情由“因”推導(dǎo)出“果”是容易的,但是要做逆運(yùn)算就很困難,。比如一個(gè)人向窗戶扔球,,球有很大可能性會(huì)打破窗戶。我們的思考和認(rèn)知都在“由因索果”這個(gè)方向上。但如果我們只知道結(jié)果,,即窗戶破了,想要推斷原因,,那就必須得到更多的信息,比如到底是哪個(gè)男孩扔球打破了窗戶,?窗戶是被球打破的嗎,?解決這個(gè)逆概率問(wèn)題要比正向推導(dǎo)困難得多,,但貝葉斯方法為我們提供了一種估算逆概率難題的實(shí)用方法,。總的來(lái)說(shuō),,我們可以從思維推導(dǎo)的正方向入手,,直接估算那些有把握的概率,然后利用貝葉斯公式,,得到逆方向上較難推導(dǎo)的條件概率。這是貝葉斯定理在統(tǒng)計(jì)學(xué)中的重要應(yīng)用,。關(guān)于作者:徐晟,,某商業(yè)銀行IT技術(shù)主管,,畢業(yè)于上海交通大學(xué),,從事IT技術(shù)領(lǐng)域工作十余年,,對(duì)科技發(fā)展,、人工智能有自己獨(dú)到的見解,專注于智能運(yùn)維(AIOps),、數(shù)據(jù)可視化、容量管理等方面工作,。本文摘編自《大話機(jī)器智能:一書看透AI的底層運(yùn)行邏輯》,經(jīng)出版方授權(quán)發(fā)布,。(ISBN:9787111696193)
|