拓?fù)鋵W(xué)——探尋大數(shù)據(jù)的內(nèi)在模式

劍拔楚天闊 2015-06-30

展開全文

點(diǎn)擊上方“大數(shù)據(jù)文摘”可以訂閱哦,！

大數(shù)據(jù)文摘作品,，歡迎個(gè)人轉(zhuǎn)發(fā)朋友圈；其他機(jī)構(gòu),、自媒體轉(zhuǎn)載,，務(wù)必后臺留言，申請授權(quán),。

作者：Kevin Knudson 編譯：數(shù)碼叮叮

校對：于麗君,，康欣編輯：Ivy

如果我們不能明白如何分析它，這些數(shù)據(jù)有什么好,？

大數(shù)據(jù)正被媒體,、工業(yè)和政府所矚目。公司和實(shí)驗(yàn)室不停地產(chǎn)生大量的數(shù)據(jù),，從氣象資料到攜帶電話的使用到醫(yī)療記錄,，與每件事相關(guān)。而每一套數(shù)據(jù)又和成百個(gè)變量相關(guān)。

這些數(shù)據(jù)量之大,、規(guī)模之復(fù)雜,，用傳統(tǒng)的方式來尋找數(shù)據(jù)之間的模式已不能有太多進(jìn)展。數(shù)據(jù)分析常常被捧為靈丹妙藥,，它無疑具有潛力可被大量應(yīng)用于解決曾經(jīng)很棘手的問題,。但是，我們必須明白我們在找什么,。

回歸直線顯示一組人的身高和體重之間的關(guān)系

統(tǒng)計(jì)學(xué)101課程里,，總有一兩個(gè)講座是關(guān)于線形回歸——尋找一組散落在平面里的點(diǎn)狀數(shù)據(jù)之間的最佳直線。這樣的圖形經(jīng)常在一些關(guān)于氣候變化的文章里出現(xiàn),，譬如,，當(dāng)氣溫和其它天氣數(shù)據(jù)相對時(shí)間作圖的時(shí)候，或者在經(jīng)濟(jì)預(yù)測里以就業(yè)或GDP歷史數(shù)據(jù)來推測未來,。

可是,，萬一這些點(diǎn)狀數(shù)據(jù)不是沿著直線排列，而是形成諸如圓形之類的分布呢,？

一組圓環(huán)上的點(diǎn)集（左）和最佳適匹配直線（右）

顯然,，回歸在這種時(shí)候沒有用。但這一點(diǎn),，只有當(dāng)我們可以看到那些點(diǎn)形成了圓形時(shí)才知道。

現(xiàn)在想象一下,，一組點(diǎn)分布在一個(gè)更高維空間里的圓,。在三維空間，我們也許能看到圓環(huán),，但如果我們有更多的變量,，正如經(jīng)常在檢查大型數(shù)據(jù)集時(shí)發(fā)生的一樣，我們就有麻煩了,。我們怎么能檢測出圓,？或者，更進(jìn)一步：我們怎么能告訴計(jì)算機(jī)找出這個(gè)圓,？

這些是伴隨著大數(shù)據(jù)的增長被提出的問題 ,，代數(shù)拓?fù)淠芴峁┠承┐鸢浮?/span>

球體和立方體在我看來是一樣

如何從空間理解大數(shù)據(jù)

拓?fù)溆袝r(shí)被稱為“橡膠板幾何”。對于拓?fù)鋵W(xué)家來說,，球體和立方體是相同的東西,。試想一下，由柔性材料制成的立方體,，插入吸管并吹氣,，這個(gè)立方體后會(huì)被吹成一個(gè)球體。像這樣的操作被稱為“變形”（deformation），如果兩個(gè)物體之間一個(gè)可變形為另一個(gè),，則它們被認(rèn)為是相同的,。

拓?fù)鋵W(xué)家們通過分配被稱為“不變量”（invariant）的代數(shù)對象來學(xué)習(xí)空間。這些不變量可能如整數(shù)一般簡單,，但通常是更復(fù)雜的代數(shù)結(jié)構(gòu),。對數(shù)據(jù)分析而言，選擇的不變量是“持續(xù)同調(diào)”（persistent homology）［小編注：在不同到空間分辨率下計(jì)算空間到拓?fù)涮卣鞯囊环N方法,?！罢{(diào)”讀作4聲tiáo］。

普通同調(diào)測量空間中不能被填充的“洞”的數(shù)目,。讓我們再來思考一個(gè)球體,。如果我們在球面上繪制環(huán)路，它形成一個(gè)表面上的二維圓盤,；也就是說,，我們可以在球體上填滿任何圓環(huán)，因此不存在二維的“洞”,。與此相對,，球體本身的表面形成了一個(gè)不能填充的三維“洞”。

一個(gè)球體表面的閉環(huán),；它連成一個(gè)圓盤,，因此不加入第一階Betti數(shù)

使用普通同調(diào)來做數(shù)據(jù)分析的問題是，若計(jì)算一組離散數(shù)據(jù)點(diǎn)的同調(diào)性,，我們會(huì)失望——沒有洞,，只有不連續(xù)點(diǎn)的集合。第零階Betti數(shù)會(huì)計(jì)算有多少個(gè)點(diǎn),，但是,，因?yàn)檫@樣的數(shù)據(jù)集里沒有環(huán)形或球體，高階Betti數(shù)將全部為0,。這正是持續(xù)同調(diào)進(jìn)入故事的地方,。

我們需要把離散點(diǎn)的集合連接在一起。試想,，放一個(gè)半徑為r的小球來包圍我們數(shù)據(jù)集里的每一點(diǎn),。如果r非常小，那么沒有球會(huì)相交,，該集合里球的Betti數(shù)是和離散集里的Betti數(shù)一樣,。

包圍數(shù)據(jù)點(diǎn)的半徑增大的小球

但是，如果我們允許半徑r增長,，那么這些球?qū)㈤_始接觸,，我們可能會(huì)得到非平凡的更大的Betti數(shù)。在動(dòng)畫中，我們看到一旦r到達(dá)一定的閾值,，環(huán)繞頂部三個(gè)點(diǎn)的小球相交成對,，并包含連接三個(gè)點(diǎn)的三角形。此外,，我們不能填充三角形,，因?yàn)橛幸粋€(gè)小的空白在中間。這意味著在這一階段的一階Betti數(shù)為1,。但是,，當(dāng)r變得更大一點(diǎn)，所有三個(gè)球一旦相交后我們可以填充三角形,，一階Betti數(shù)下降到第0,。

和以上數(shù)據(jù)相關(guān)的條形碼。在頂端的零階Betti數(shù)從4降到0,，在底部的第一階Betti數(shù)顯示了兩個(gè)短暫的一維同調(diào)的出現(xiàn),。

持續(xù)同調(diào)在半徑增長時(shí)跟蹤這些數(shù)字，這些數(shù)字相對參數(shù)r的圖形被稱為“條形碼”,。長條形顯示數(shù)據(jù)里的特征可能很顯著（它們持續(xù)存在,，該術(shù)語由此而來）。短條形通常產(chǎn)生于數(shù)據(jù)中的噪聲,，因此可以被忽略不計(jì)（或不能被忽略,，此時(shí)數(shù)據(jù)的上下文很重要）。

因此,，我們所做的是將一個(gè)離散點(diǎn)集轉(zhuǎn)為更加復(fù)雜空間的序列（每個(gè)空間對應(yīng)一個(gè)r）,，以期比采用簡單的線性回歸更好地對數(shù)據(jù)進(jìn)行建模。

當(dāng)小球半徑增大時(shí),，一個(gè)圓圈在空間里持續(xù)存在

上面動(dòng)畫里，顯示了如何能以這種方式建模一個(gè)圓上的幾個(gè)點(diǎn),。我們已經(jīng)抑制了點(diǎn)集周圍的小球,，當(dāng)兩點(diǎn)的相關(guān)球重疊時(shí)，連接兩點(diǎn),；當(dāng)三個(gè)點(diǎn)的相關(guān)球重疊時(shí),，形成三角形；依此類推,。一個(gè)圓圈持續(xù)相當(dāng)長的時(shí)間,，導(dǎo)致我們猜測我們的數(shù)據(jù)位于一個(gè)圓圈附近。

拓?fù)鋽?shù)據(jù)分析帶來一個(gè)新的數(shù)字圖像壓縮方法

理論之上的應(yīng)用

斯坦福大學(xué)的Gunnar Carlsso是拓?fù)鋽?shù)據(jù)分析的先驅(qū)之一,。他的小組的第一個(gè)成功研究之一,，是發(fā)現(xiàn)了自然圖像的空間拓?fù)洹＿@組數(shù)據(jù)含有從黑白數(shù)碼照片里采樣的幾百億個(gè)3×3像素的小塊。每個(gè)像素由一個(gè)0到255的灰度值的數(shù)值描述,，每個(gè)3×3小塊對應(yīng)一個(gè)9維空間中的點(diǎn),，每個(gè)坐標(biāo)被賦予其相關(guān)像素的灰度值。在過濾掉常量小塊和進(jìn)行歸一化處理后,，這個(gè)空間就在一個(gè)7維球體內(nèi),。乍一看，數(shù)據(jù)集似乎填充了球體,；但是,，將注意力限制在點(diǎn)更緊密聚集的區(qū)域，結(jié)構(gòu)就自然呈現(xiàn)出來,。

一個(gè)Klein瓶像一個(gè)Mobius帶：它沒有邊界

鑒于這一成功,，Carlsson和他的一些同事成立了AYASDI，一個(gè)擁有著不斷增長的銀行,、金融,、政府等行業(yè)客戶花名冊的公司。他們使用這些以及其它技術(shù)來分析糖尿病,、乳腺癌和心肺疾病數(shù)據(jù),。結(jié)果令人鼓舞——有著高存活率的、用傳統(tǒng)的統(tǒng)計(jì)方法不可見的某些患者亞組,，也許可通過這些技術(shù)被發(fā)現(xiàn),。

但是，這些方法真正的成功前景,，在于定制針對個(gè)人的治療和解決方案方面的可能性,。大型數(shù)據(jù)集的分析使我們看到，例如,，一度被認(rèn)為是80％有效的藥物,，事實(shí)上是對80％可通過某個(gè)標(biāo)記識別的患者有100%的療效。拓?fù)鋽?shù)據(jù)分析,，提供了另一種工具來推進(jìn)這樣的分析,，通常是識別之前被隱藏的特征。

素材來源：http:///topology-looks-for-the-patterns-inside-big-data-39554

大數(shù)據(jù)文摘編譯者簡介

數(shù)碼叮叮

本科畢業(yè)于重慶大學(xué)自動(dòng)化系儀表專業(yè)，在日本名城大學(xué)獲得土木工程學(xué)碩士、博士學(xué)位,。有中科院,、及日本、加拿大工程咨詢公司工作經(jīng)驗(yàn)。現(xiàn)在加拿大溫哥華做數(shù)據(jù)驅(qū)動(dòng)水資源管理、規(guī)劃模型建立及相關(guān)開發(fā)工作。對大數(shù)據(jù)技術(shù)及應(yīng)用很感興趣,，工作之余也喜愛攝影,、徒步、滑雪,，歡迎同行,、同好、非同行及非同好交流,。世界這么大,，我想多學(xué)學(xué)。：）

于麗君

本科碩士畢業(yè)于清華大學(xué)數(shù)學(xué)系,，碩士研究課題為圖像修補(bǔ)問題建模,，目前為美國Case Western Reserve University應(yīng)用數(shù)學(xué)在讀博士，研究方向?yàn)樨惾~斯方法反問題建模,，博士研究課題為利用MEG（腦磁成像技術(shù)）時(shí)序信號對大腦活動(dòng)進(jìn)行定位,，對數(shù)學(xué)建模、機(jī)器學(xué)習(xí),、人工智能以及圖像處理等方面有廣泛興趣,，希望結(jié)識更多相關(guān)領(lǐng)域的朋友互相交流進(jìn)步。

康小欣

博士,，多年從事圖像及數(shù)據(jù)處理和分析,、計(jì)算機(jī)視覺、模式識別,、機(jī)器學(xué)習(xí),、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域的技術(shù)研究和創(chuàng)新應(yīng)用，現(xiàn)為西門子中國研究院高級研究員,。希望借此平臺,，與大數(shù)據(jù)分析愛好者以及專家學(xué)者交流、合作,。

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：劍拔楚天闊 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)