在各種算法相關(guān)的paper中,,經(jīng)??吹街笖?shù)分布族這個概念,。博主作為一個好奇心很強喜歡打破砂鍋問到底的人,,看到一個東西老在眼前晃來晃去卻又似懂非懂,心里非常難受,,于是想好好了解一下這個指數(shù)分布族到底是個什么鬼,。。,。 1.指數(shù)分布族的概念指數(shù)分布族是指可以表示為指數(shù)形式的概率分布。wiki上的定義如下: 其中,,為自然參數(shù)(nature parameter),,是充分統(tǒng)計量(sufficient statistic)。當(dāng)參數(shù)A,,h,,T都固定以后,就定義了一個以為參數(shù)的函數(shù)族,。 2.其他常見分布于指數(shù)分布族的關(guān)系2.1 伯努利分布伯努利分布是對0,,1分布的問題進行建模。對于,,其概率密度函數(shù)如下: 將其華為指數(shù)分布族的形式: 將上面轉(zhuǎn)化以后的表達式與指數(shù)分布族對比,,可以看出: 由此可見,伯努利分布也是指數(shù)分布族的一種,。細心的小伙伴發(fā)現(xiàn)了,,的形式與logistic函數(shù)的形式一致。(logistic函數(shù)的詳解請參考 http://blog.csdn.net/bitcarmanlee/article/details/51154481),。這是因為 logistic模型對問題的前置概率估計其實就是伯努利分布,。(貌似沒有特別理解,以后再來慢慢琢磨) 2.2高斯分布(正態(tài)分布)關(guān)于高斯分布的來龍去脈,,足足可以寫厚厚一本書。后面有時間回來詳細整理高斯分布的相關(guān)資料,。 將其與指數(shù)分布族對比,可知: 伯努利分布與高斯分布是兩個典型的指數(shù)分布族 3.廣義線性模型(Generalized Linear Model GLM)通過上面兩個例子我們可以看出,,在伯努利的指數(shù)分布族形式中,, 與伯努利分布中的參數(shù)是一個logistic函數(shù)。而在高斯分布的指數(shù)分布族形式中,,是與相等的一個 表達式 (前提是我們假設(shè)了),。通過以上的例子,以不同的映射函數(shù)與其它概率分布函數(shù)中的參數(shù)發(fā)生聯(lián)系,,從而得到不同的模型,,廣義線性模型正是將指數(shù)分布族中的所有成員(每個成員正好有一個這樣的聯(lián)系)都作為線性模型的擴展,通過各種非線性的連接函數(shù)將線性函數(shù)映射到其他空間,,從而大大擴大了線性模型可解決的問題,。 下面我們看 GLM 的形式化定義,,GLM 有三個假設(shè): (1) 給定樣本與參數(shù),樣本分類 服從指數(shù)分布族中的某個分布,; 根據(jù)伯努利分布推導(dǎo)logistic模型的過程如下: 總之,,廣義線性模型通過擬合響應(yīng)變量的條件均值的一個函數(shù)(不是響應(yīng)變量的條件均值),,并假設(shè)響應(yīng)變量服從指數(shù)分布族中的某個分布(不限于正態(tài)分布),從而極大地擴展了標(biāo)準(zhǔn)線性模型,。模型參數(shù)估計的推導(dǎo)依據(jù)是極大似然估計,,而非最小二乘法。 本博文主要參考了以下內(nèi)容,,感謝大牛們的無私分享: |
|