1.簡介貝葉斯定理為我們提供了一種根據(jù)新證據(jù)更新信念的方法——當(dāng)然,,還要考慮到我們先前信念的強(qiáng)度,。運(yùn)用貝葉斯定理,你可以試圖回答這樣一個問題:根據(jù)新的證據(jù),,我的假設(shè)的可能性是多少,? 在本文中,我們將討論貝葉斯定理可以改善數(shù)據(jù)科學(xué)實(shí)踐的三種方法:
到文章最后,,我相信您將對貝葉斯定理有關(guān)的基本概念有一個深刻的理解,。 2.方法1:更新貝葉斯定理為檢驗(yàn)假設(shè)提供了一種結(jié)構(gòu),同時考慮了先驗(yàn)假設(shè)和新證據(jù)的強(qiáng)度,,這個過程稱為貝葉斯更新,。 貝葉斯定理:其中A代表假設(shè),B代表與假設(shè)相關(guān)的新證據(jù) 換句話說,這個公式是“在給定B的情況下,,A發(fā)生的概率等于給定A的情況下B發(fā)生的概率乘以A發(fā)生的概率除以B發(fā)生的概率,。” 讓我們再深入分析一下這個公式(注意其中含有隨機(jī)變量的定義內(nèi)容): “根據(jù)新證據(jù)作出假設(shè)的概率等于新證據(jù)成立的概率(假定假設(shè)成立)乘以觀察到新證據(jù)之前假設(shè)成立的概率,,除以新證據(jù)成立的概率,。” 這種表述可以進(jìn)一步縮短為: “后驗(yàn)概率等于似然(likelihood)乘以先驗(yàn)概率除以邊際似然(marginal likelihood),?!?/span> 不管貝葉斯定理現(xiàn)在聽起來是否直觀,我保證你會一直使用它的,。 真實(shí)世界示例 比方說,,你的朋友打電話來告訴你,她很抱歉,,她今晚不能來吃飯,。她最近收養(yǎng)了一只寵物考拉,它患上了感冒流鼻涕,。她真的需要呆在家里監(jiān)視考拉的癥狀情況,。 你的假設(shè)是,你的朋友不會無緣無故地拋棄你,。那么,,考慮到她新寵物的最新癥狀,你的假設(shè)成立的似然(likelihood)有多大,? 為了評估我們的朋友因?yàn)檎疹櫩祭辉诩页燥埖暮篁?yàn)概率,,我們需要考慮你的朋友需要和考拉呆在家里的概率,因?yàn)榧僭O(shè)你的朋友是一個正直的人,,不會無故放棄晚餐計(jì)劃。你可能會得出這樣的結(jié)論:一個通常負(fù)責(zé)的好朋友很可能會呆在家里照顧寵物,。 接下來,,我們將似然(likelihood)乘以先驗(yàn)概率。在你的朋友打電話之前,,你對她的晚餐計(jì)劃有多大的信心,?如果你認(rèn)為你的朋友堅(jiān)如磐石,通常不愿意在最后一刻改變計(jì)劃,,那么你的先驗(yàn)概率很大,,無論有什么新的證據(jù),你都不太可能改變這種觀點(diǎn),。另一方面,,如果你的朋友很脆弱,而你已經(jīng)想知道她是否會打電話取消,那么你的先驗(yàn)概率很小,,這也可能會讓她關(guān)于和考拉待在家里的說法受到質(zhì)疑,。 最后,我們將上述計(jì)算結(jié)果除以你的朋友和考拉呆在家里的邊際似然,。 貝葉斯推理是建立在這種靈活的,、常識性的方法基礎(chǔ)上的,這種方法根據(jù)我們先驗(yàn)知識的強(qiáng)度和新證據(jù)的概率來更新我們關(guān)于世界的模型,。事實(shí)上,,貝葉斯定理的最初應(yīng)用是評估上帝的存在。 當(dāng)涉及到生命和數(shù)據(jù)科學(xué)的關(guān)鍵問題時,,你不能抨擊貝葉斯定理是一種直觀的評估信念如何隨時間變化的方法,。 3.方法2:溝通正如貝葉斯定理可以幫助你理解和闡明面對新證據(jù)如何更新理論一樣,貝葉斯也可以讓你成為更強(qiáng)大的數(shù)據(jù)科學(xué)傳播者,。 數(shù)據(jù)科學(xué)從根本上講是關(guān)于應(yīng)用數(shù)據(jù)改進(jìn)決策的一門科學(xué),。 “只有兩件事決定你的生活結(jié)果:運(yùn)氣和你的決策質(zhì)量。你只能控制這兩件事中的一件,?!?/span> ——安妮·杜克,撲克游戲冠軍兼作家 提高決策質(zhì)量通常意味著說服決策者,。正如每個人的情況一樣,,您的組織中的決策者正在參與對話。 真實(shí)世界示例 我曾經(jīng)是一家熱氣球制造商的顧問,。我的任務(wù)是幫助建立一個數(shù)據(jù)庫,,以提高客戶對其供應(yīng)鏈、制造流程和銷售的端到端的理解,。 第一天,,工廠經(jīng)理帶我們參觀了工廠,他自豪地描述了一份新的供應(yīng)商合同,,該合同涉及更輕質(zhì),、更便宜的原材料。 但有一個問題,。當(dāng)我的團(tuán)隊(duì)聯(lián)系來自整個企業(yè)不同數(shù)據(jù)源的數(shù)據(jù)表時,,我們發(fā)現(xiàn)來自新供應(yīng)商的材料與廢料增加2.5%之間存在一定聯(lián)系。 工廠經(jīng)理有一個非常強(qiáng)烈的預(yù)感,,那就是新供應(yīng)商對他的業(yè)務(wù)來說很受益,。但是,我們卻提供了一些相反的證據(jù)——我們使用了貝葉斯定理,,因?yàn)槲覀兝斫膺@樣一個事實(shí),,即:先驗(yàn)知識越強(qiáng),需要改變它的證據(jù)就越多。 在向工廠經(jīng)理提出我們的調(diào)查結(jié)果之前,,我們需要收集一些額外的證據(jù)來證明不存在導(dǎo)致不同廢料水平的其他因素(如磨損的機(jī)器,、新員工、環(huán)境條件等),。 最后,,我們向經(jīng)理提供了更多證據(jù),并幫助他重新談判供應(yīng)商合同,。 4.方法3:分類貝葉斯定理可以應(yīng)用于文本分析的場景,,這是一種稱為樸素貝葉斯的技術(shù),因?yàn)樗鼧闼氐丶僭O(shè)數(shù)據(jù)集中每個輸入變量(在本例中為每個單詞)是獨(dú)立的,。 真實(shí)世界示例 假設(shè)你發(fā)現(xiàn)了一堆你祖父母寫的信,。他們之間有著一段“動蕩不安”的關(guān)系,并且有足夠的戲劇性浪漫故事——并不局限于真人秀節(jié)目中的年輕人間發(fā)生的那種,。 您需要構(gòu)建一個情感分類器來確定大部分內(nèi)容是正面的還是負(fù)面的,。這其中的一種方法是利用樸素貝葉斯定理。 像樸素貝葉斯這樣的生成式分類器將構(gòu)建一個類別(在本例中為正面的或者是負(fù)面的)模型,;然后,,根據(jù)此類別生成一些輸入數(shù)據(jù)。給出一個觀察結(jié)果(來自字母測試語料庫的一個新句子),,它返回最有可能產(chǎn)生觀察結(jié)果的類別,。這與學(xué)習(xí)輸入特征預(yù)測能力的判別式模型分類器(如邏輯回歸)形成對比。 樸素貝葉斯(Naive Bayes)是建立在單詞袋技術(shù)基礎(chǔ)上的,。其基本思想是,,將文檔轉(zhuǎn)換為直方圖,以便統(tǒng)計(jì)每個單詞的使用次數(shù),。 您可以使用我們在第#1部分中研究過的稍微修改過的貝葉斯推斷公式來計(jì)算每個觀測值的最可能類別,。其實(shí),上面簡單修改的是樸素貝葉斯的樸素部分:即假設(shè)每個單詞的概率在給定的類別中是獨(dú)立的,,于是我們可以將它們相乘,,以生成句子隨類別一起“落下”的概率。 |
|
來自: 新用戶49272060 > 《待分類》