學(xué)習(xí)數(shù)學(xué) - Bati's eHome of Tech - 博客園

machol 2010-10-27

展開全文

感覺數(shù)學(xué)似乎總是不夠的,。這些日子為了解決research中的一些問題，又在圖書館捧起了數(shù)學(xué)的教科書,。

從大學(xué)到現(xiàn)在,，課堂上學(xué)的和自學(xué)的數(shù)學(xué)其實不算少了，可是在研究的過程中總是發(fā)現(xiàn)需要補充新的數(shù)學(xué)知識,。Learning和Vision都是很多種數(shù)學(xué)的交匯場,。看著不同的理論體系的交匯,，對于一個researcher來說,，往往是非常exciting的enjoyable的事情。不過,，這也代表著要充分了解這個領(lǐng)域并且取得有意義的進展是很艱苦的,。

記得在兩年前的一次blog里面，提到過和learning有關(guān)的數(shù)學(xué),。今天看來,，我對于數(shù)學(xué)在這個領(lǐng)域的作用有了新的思考。

對于Learning的研究,，

Linear Algebra (線性代數(shù)) 和 Statistics (統(tǒng)計學(xué)) 是最重要和不可缺少的,。這代表了Machine Learning中最主流的兩大類方法的基礎(chǔ)。一種是以研究函數(shù)和變換為重點的代數(shù)方法,，比如Dimension reduction,，feature extraction，Kernel等,，一種是以研究統(tǒng)計模型和樣本分布為重點的統(tǒng)計方法,，比如Graphical model, Information theoretical models等。它們側(cè)重雖有不同，但是常常是共同使用的,，對于代數(shù)方法,，往往需要統(tǒng)計上的解釋，對于統(tǒng)計模型,，其具體計算則需要代數(shù)的幫助,。

以代數(shù)和統(tǒng)計為出發(fā)點，繼續(xù)往深處走,，我們會發(fā)現(xiàn)需要更多的數(shù)學(xué),。

Calculus (微積分)，只是數(shù)學(xué)分析體系的基礎(chǔ),。其基礎(chǔ)性作用不言而喻,。Learning研究的大部分問題是在連續(xù)的度量空間進行的，無論代數(shù)還是統(tǒng)計,，在研究優(yōu)化問題的時候,，對一個映射的微分或者梯度的分析總是不可避免。而在統(tǒng)計學(xué)中,，Marginalization和積分更是密不可分——不過,，以解析形式把積分導(dǎo)出來的情況則不多見。

Partial Differential Equation （偏微分方程),，這主要用于描述動態(tài)過程,，或者仿動態(tài)過程。這個學(xué)科在Vision中用得比Learning多,，主要用于描述連續(xù)場的運動或者擴散過程,。比如Level set, Optical flow都是這方面的典型例子。

Functional Analysis (泛函分析),， 通俗地,，可以理解為微積分從有限維空間到無限維空間的拓展——當(dāng)然了，它實際上遠不止于此,。在這個地方,，函數(shù)以及其所作用的對象之間存在的對偶關(guān)系扮演了非常重要的角色。Learning發(fā)展至今,，也在向無限維延伸——從研究有限維向量的問題到以無限維的函數(shù)為研究對象,。Kernel Learning 和 Gaussian Process 是其中典型的例子——其中的核心概念都是Kernel。很多做Learning的人把Kernel簡單理解為Kernel trick的運用,，這就把kernel的意義嚴重弱化了,。在泛函里面，Kernel (Inner Product) 是建立整個博大的代數(shù)體系的根本,，從metric, transform到spectrum都根源于此,。

Measure Theory (測度理論)，這是和實分析關(guān)系非常密切的學(xué)科。但是測度理論并不限于此,。從某種意義上說,，Real Analysis可以從Lebesgue Measure（勒貝格測度）推演，不過其實還有很多別的測度體系——概率本身就是一種測度,。測度理論對于Learning的意義是根本的，現(xiàn)代統(tǒng)計學(xué)整個就是建立在測度理論的基礎(chǔ)之上——雖然初級的概率論教科書一般不這樣引入,。在看一些統(tǒng)計方面的文章的時候,，你可能會發(fā)現(xiàn)，它們會把統(tǒng)計的公式改用測度來表達,，這樣做有兩個好處：所有的推導(dǎo)和結(jié)論不用分別給連續(xù)分布和離散分布各自寫一遍了,，這兩種東西都可以用同一的測度形式表達：連續(xù)分布的積分基于Lebesgue測度，離散分布的求和基于計數(shù)測度,，而且還能推廣到那種既不連續(xù)又不離散的分布中去（這種東西不是數(shù)學(xué)家的游戲,，而是已經(jīng)在實用的東西，在Dirchlet Process或者Pitman-Yor Process里面會經(jīng)?？吹?,。而且，即使是連續(xù)積分,，如果不是在歐氏空間進行,，而是在更一般的拓撲空間（比如微分流形或者變換群），那么傳統(tǒng)的黎曼積分（就是大學(xué)一年級在微積分課學(xué)的那種）就不work了,，你可能需要它們的一些推廣,，比如Haar Measure或者Lebesgue-Stieltjes積分。

Topology（拓撲學(xué)),，這是學(xué)術(shù)中很基礎(chǔ)的學(xué)科,。它一般不直接提供方法，但是它的很多概念和定理是其它數(shù)學(xué)分支的基石,?？春芏鄤e的數(shù)學(xué)的時候，你會經(jīng)常接觸這樣一些概念：Open set / Closed set,，set basis,，Hausdauf, continuous function，metric space, Cauchy sequence, neighborhood, compactness, connectivity,。很多這些也許在大學(xué)一年級就學(xué)習(xí)過一些,，當(dāng)時是基于極限的概念獲得的。如果,，看過拓撲學(xué)之后,，對這些概念的認識會有根本性的拓展。比如，連續(xù)函數(shù),，當(dāng)時是由epison法定義的,，就是無論取多小的正數(shù)epsilon，都存在xxx,，使得xxx,。這是需要一種metric去度量距離的，在general topology里面,，對于連續(xù)函數(shù)的定義連坐標(biāo)和距離都不需要——如果一個映射使得開集的原像是開集,，它就是連續(xù)的——至于開集是基于集合論定義的，不是通常的開區(qū)間的意思,。這只是最簡單的例子,。當(dāng)然，我們研究learning也許不需要深究這些數(shù)學(xué)概念背后的公理體系,，但是,，打破原來定義的概念的局限在很多問題上是必須的——尤其是當(dāng)你研究的東西它不是在歐氏空間里面的時候——正交矩陣，變換群,，流形,，概率分布的空間，都屬于此,。

Differential Manifold (微分流形),， 通俗地說它研究的是平滑的曲面。一個直接的印象是它是不是可以用來fitting一個surface什么的——當(dāng)然這算是一種應(yīng)用,，但是這是非常初步的,。本質(zhì)上說，微分流形研究的是平滑的拓撲結(jié)構(gòu),。一個空間構(gòu)成微分流形的基本要素是局部平滑：從拓撲學(xué)來理解,，就是它的任意局部都同胚于歐氏空間，從解析的角度來看,，就是相容的局部坐標(biāo)系統(tǒng),。當(dāng)然，在全局上,，它不要求和歐氏空間同胚,。它除了可以用于刻畫集合上的平滑曲面外，更重要的意義在于,，它可以用于研究很多重要的集合,。一個n-維線性空間的全部k-維子空間(k < n)就構(gòu)成了一個微分流形——著名的Grassman Manifold。所有的標(biāo)準(zhǔn)正交陣也構(gòu)成一個流形,。一個變換群作用于一個空間形成的軌跡(Orbit) 也是通常會形成流形,。在流形上,，各種的分析方法，比如映射,，微分,，積分都被移植過來了。前一兩年在Learning里面火了好長時間的Manifold Learning其實只是研究了這個分支的其中一個概念的應(yīng)用: embedding,。其實,，它還有很多可以發(fā)掘的空間。

Lie Group Theory (李群論),，一般意義的群論在Learning中被運用的不是很多,，群論在Learning中用得較多的是它的一個重要方向Lie group。定義在平滑流行上的群,，并且其群運算是平滑的話，那么這就叫李群,。因為Learning和編碼不同,，更多關(guān)注的是連續(xù)空間，因為Lie group在各種群中對于Learning特別重要,。各種子空間,，線性變換，非奇異矩陣都基于通常意義的矩陣乘法構(gòu)成李群,。在李群中的映射,，變換，度量,，劃分等等都對于Learning中代數(shù)方法的研究有重要指導(dǎo)意義,。

Graph Theory（圖論)，圖,，由于它在表述各種關(guān)系的強大能力以及優(yōu)雅的理論,，高效的算法，越來越受到Learning領(lǐng)域的歡迎,。經(jīng)典圖論,，在Learning中的一個最重要應(yīng)用就是graphical models了，它被成功運用于分析統(tǒng)計網(wǎng)絡(luò)的結(jié)構(gòu)和規(guī)劃統(tǒng)計推斷的流程,。Graphical model所取得的成功,，圖論可謂功不可沒。在Vision里面,，maxflow (graphcut)算法在圖像分割,，Stereo還有各種能量優(yōu)化中也廣受應(yīng)用。另外一個重要的圖論分支就是Algebraic graph theory (代數(shù)圖論),，主要運用于圖的譜分析,，著名的應(yīng)用包括Normalized Cut和Spectral Clustering,。近年來在semi-supervised learning中受到特別關(guān)注。