大數(shù)據(jù)文摘作品,,歡迎個(gè)人轉(zhuǎn)發(fā)朋友圈;其他機(jī)構(gòu),、自媒體轉(zhuǎn)載,,務(wù)必后臺留言,申請授權(quán),。 作者:Kevin Knudson 編譯:數(shù)碼叮叮 校對:于麗君,,康欣 編輯:Ivy
大數(shù)據(jù)正被媒體,、工業(yè)和政府所矚目。公司和實(shí)驗(yàn)室不停地產(chǎn)生大量的數(shù)據(jù),,從氣象資料到攜帶電話的使用到醫(yī)療記錄,,與每件事相關(guān)。而每一套數(shù)據(jù)又和成百個(gè)變量相關(guān)。 這些數(shù)據(jù)量之大,、規(guī)模之復(fù)雜,,用傳統(tǒng)的方式來尋找數(shù)據(jù)之間的模式已不能有太多進(jìn)展。數(shù)據(jù)分析常常被捧為靈丹妙藥,,它無疑具有潛力可被大量應(yīng)用于解決曾經(jīng)很棘手的問題,。但是,我們必須明白我們在找什么,。 回歸直線顯示一組人的身高和體重之間的關(guān)系 統(tǒng)計(jì)學(xué)101課程里,,總有一兩個(gè)講座是關(guān)于線形回歸——尋找一組散落在平面里的點(diǎn)狀數(shù)據(jù)之間的最佳直線。這樣的圖形經(jīng)常在一些關(guān)于氣候變化的文章里出現(xiàn),,譬如,,當(dāng)氣溫和其它天氣數(shù)據(jù)相對時(shí)間作圖的時(shí)候,或者在經(jīng)濟(jì)預(yù)測里以就業(yè)或GDP歷史數(shù)據(jù)來推測未來,。 可是,,萬一這些點(diǎn)狀數(shù)據(jù)不是沿著直線排列,而是形成諸如圓形之類的分布呢,? 一組圓環(huán)上的點(diǎn)集(左)和最佳適匹配直線(右) 顯然,,回歸在這種時(shí)候沒有用。但這一點(diǎn),,只有當(dāng)我們可以看到那些點(diǎn)形成了圓形時(shí)才知道。 現(xiàn)在想象一下,,一組點(diǎn)分布在一個(gè)更高維空間里的圓,。在三維空間,我們也許能看到圓環(huán),,但如果我們有更多的變量,,正如經(jīng)常在檢查大型數(shù)據(jù)集時(shí)發(fā)生的一樣,我們就有麻煩了,。我們怎么能檢測出圓,?或者,更進(jìn)一步:我們怎么能告訴計(jì)算機(jī)找出這個(gè)圓,? 這些是伴隨著大數(shù)據(jù)的增長被提出的問題 ,,代數(shù)拓?fù)淠芴峁┠承┐鸢浮?/span>
拓?fù)溆袝r(shí)被稱為“橡膠板幾何”。對于拓?fù)鋵W(xué)家來說,,球體和立方體是相同的東西,。 試想一下,由柔性材料制成的立方體,,插入吸管并吹氣,,這個(gè)立方體后會(huì)被吹成一個(gè)球體。像這樣的操作被稱為“變形”(deformation),如果兩個(gè)物體之間一個(gè)可變形為另一個(gè),,則它們被認(rèn)為是相同的,。 拓?fù)鋵W(xué)家們通過分配被稱為“不變量”(invariant)的代數(shù)對象來學(xué)習(xí)空間。這些不變量可能如整數(shù)一般簡單,,但通常是更復(fù)雜的代數(shù)結(jié)構(gòu),。對數(shù)據(jù)分析而言,選擇的不變量是“持續(xù)同調(diào)”(persistent homology)[小編注:在不同到空間分辨率下計(jì)算空間到拓?fù)涮卣鞯囊环N方法,?!罢{(diào)”讀作4聲tiáo]。 普通同調(diào)測量空間中不能被填充的“洞”的數(shù)目,。讓我們再來思考一個(gè)球體,。如果我們在球面上繪制環(huán)路,它形成一個(gè)表面上的二維圓盤,;也就是說,,我們可以在球體上填滿任何圓環(huán),因此不存在二維的“洞”,。與此相對,,球體本身的表面形成了一個(gè)不能填充的三維“洞”。
使用普通同調(diào)來做數(shù)據(jù)分析的問題是,若計(jì)算一組離散數(shù)據(jù)點(diǎn)的同調(diào)性,,我們會(huì)失望——沒有洞,,只有不連續(xù)點(diǎn)的集合。第零階Betti數(shù)會(huì)計(jì)算有多少個(gè)點(diǎn),,但是,,因?yàn)檫@樣的數(shù)據(jù)集里沒有環(huán)形或球體,高階Betti數(shù)將全部為0,。這正是持續(xù)同調(diào)進(jìn)入故事的地方,。 我們需要把離散點(diǎn)的集合連接在一起。試想,,放一個(gè)半徑為r的小球來包圍我們數(shù)據(jù)集里的每一點(diǎn),。如果r非常小,那么沒有球會(huì)相交,,該集合里球的Betti數(shù)是和離散集里的Betti數(shù)一樣,。 包圍數(shù)據(jù)點(diǎn)的半徑增大的小球 但是,如果我們允許半徑r增長,,那么這些球?qū)㈤_始接觸,,我們可能會(huì)得到非平凡的更大的Betti數(shù)。在動(dòng)畫中,我們看到一旦r到達(dá)一定的閾值,,環(huán)繞頂部三個(gè)點(diǎn)的小球相交成對,,并包含連接三個(gè)點(diǎn)的三角形。此外,,我們不能填充三角形,,因?yàn)橛幸粋€(gè)小的空白在中間。這意味著在這一階段的一階Betti數(shù)為1,。但是,,當(dāng)r變得更大一點(diǎn),所有三個(gè)球一旦相交后我們可以填充三角形,,一階Betti數(shù)下降到第0,。
持續(xù)同調(diào)在半徑增長時(shí)跟蹤這些數(shù)字,這些數(shù)字相對參數(shù)r的圖形被稱為“條形碼”,。長條形顯示數(shù)據(jù)里的特征可能很顯著(它們持續(xù)存在,,該術(shù)語由此而來)。短條形通常產(chǎn)生于數(shù)據(jù)中的噪聲,,因此可以被忽略不計(jì)(或不能被忽略,,此時(shí)數(shù)據(jù)的上下文很重要)。 因此,,我們所做的是將一個(gè)離散點(diǎn)集轉(zhuǎn)為更加復(fù)雜空間的序列(每個(gè)空間對應(yīng)一個(gè)r),,以期比采用簡單的線性回歸更好地對數(shù)據(jù)進(jìn)行建模。
上面動(dòng)畫里,顯示了如何能以這種方式建模一個(gè)圓上的幾個(gè)點(diǎn),。我們已經(jīng)抑制了點(diǎn)集周圍的小球,,當(dāng)兩點(diǎn)的相關(guān)球重疊時(shí),連接兩點(diǎn),;當(dāng)三個(gè)點(diǎn)的相關(guān)球重疊時(shí),,形成三角形;依此類推,。一個(gè)圓圈持續(xù)相當(dāng)長的時(shí)間,,導(dǎo)致我們猜測我們的數(shù)據(jù)位于一個(gè)圓圈附近。
斯坦福大學(xué)的Gunnar Carlsso是拓?fù)鋽?shù)據(jù)分析的先驅(qū)之一,。他的小組的第一個(gè)成功研究之一,,是發(fā)現(xiàn)了自然圖像的空間拓?fù)洹_@組數(shù)據(jù)含有從黑白數(shù)碼照片里采樣的幾百億個(gè)3×3像素的小塊。每個(gè)像素由一個(gè)0到255的灰度值的數(shù)值描述,,每個(gè)3×3小塊對應(yīng)一個(gè)9維空間中的點(diǎn),,每個(gè)坐標(biāo)被賦予其相關(guān)像素的灰度值。在過濾掉常量小塊和進(jìn)行歸一化處理后,,這個(gè)空間就在一個(gè)7維球體內(nèi),。乍一看,數(shù)據(jù)集似乎填充了球體,;但是,,將注意力限制在點(diǎn)更緊密聚集的區(qū)域,結(jié)構(gòu)就自然呈現(xiàn)出來,。 一個(gè)Klein瓶像一個(gè)Mobius帶:它沒有邊界 鑒于這一成功,,Carlsson和他的一些同事成立了AYASDI,一個(gè)擁有著不斷增長的銀行,、金融,、政府等行業(yè)客戶花名冊的公司。他們使用這些以及其它技術(shù)來分析糖尿病,、乳腺癌和心肺疾病數(shù)據(jù),。結(jié)果令人鼓舞——有著高存活率的、用傳統(tǒng)的統(tǒng)計(jì)方法不可見的某些患者亞組,,也許可通過這些技術(shù)被發(fā)現(xiàn),。 但是,這些方法真正的成功前景,,在于定制針對個(gè)人的治療和解決方案方面的可能性,。大型數(shù)據(jù)集的分析使我們看到,例如,,一度被認(rèn)為是80%有效的藥物,,事實(shí)上是對80%可通過某個(gè)標(biāo)記識別的患者有100%的療效 。拓?fù)鋽?shù)據(jù)分析,,提供了另一種工具來推進(jìn)這樣的分析,,通常是識別之前被隱藏的特征。 素材來源:http:///topology-looks-for-the-patterns-inside-big-data-39554
|
|