久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

拓?fù)鋵W(xué)——探尋大數(shù)據(jù)的內(nèi)在模式

 劍拔楚天闊 2015-06-30
點(diǎn)擊上方“大數(shù)據(jù)文摘”可以訂閱哦,!

大數(shù)據(jù)文摘作品,,歡迎個(gè)人轉(zhuǎn)發(fā)朋友圈;其他機(jī)構(gòu),、自媒體轉(zhuǎn)載,,務(wù)必后臺留言,申請授權(quán),。


作者:Kevin Knudson 編譯:數(shù)碼叮叮

校對:于麗君,,康欣 編輯:Ivy



如果我們不能明白如何分析它,這些數(shù)據(jù)有什么好,?


大數(shù)據(jù)正被媒體,、工業(yè)和政府所矚目。公司和實(shí)驗(yàn)室不停地產(chǎn)生大量的數(shù)據(jù),,從氣象資料到攜帶電話的使用到醫(yī)療記錄,,與每件事相關(guān)。而每一套數(shù)據(jù)又和成百個(gè)變量相關(guān)。


這些數(shù)據(jù)量之大,、規(guī)模之復(fù)雜,,用傳統(tǒng)的方式來尋找數(shù)據(jù)之間的模式已不能有太多進(jìn)展。數(shù)據(jù)分析常常被捧為靈丹妙藥,,它無疑具有潛力可被大量應(yīng)用于解決曾經(jīng)很棘手的問題,。但是,我們必須明白我們在找什么,。


回歸直線顯示一組人的身高和體重之間的關(guān)系


統(tǒng)計(jì)學(xué)101課程里,,總有一兩個(gè)講座是關(guān)于線形回歸——尋找一組散落在平面里的點(diǎn)狀數(shù)據(jù)之間的最佳直線。這樣的圖形經(jīng)常在一些關(guān)于氣候變化的文章里出現(xiàn),,譬如,,當(dāng)氣溫和其它天氣數(shù)據(jù)相對時(shí)間作圖的時(shí)候,或者在經(jīng)濟(jì)預(yù)測里以就業(yè)或GDP歷史數(shù)據(jù)來推測未來,。


可是,,萬一這些點(diǎn)狀數(shù)據(jù)不是沿著直線排列,而是形成諸如圓形之類的分布呢,?


一組圓環(huán)上的點(diǎn)集(左)和最佳適匹配直線(右)


顯然,,回歸在這種時(shí)候沒有用。但這一點(diǎn),,只有當(dāng)我們可以看到那些點(diǎn)形成了圓形時(shí)才知道。

現(xiàn)在想象一下,,一組點(diǎn)分布在一個(gè)更高維空間里的圓,。在三維空間,我們也許能看到圓環(huán),,但如果我們有更多的變量,,正如經(jīng)常在檢查大型數(shù)據(jù)集時(shí)發(fā)生的一樣,我們就有麻煩了,。我們怎么能檢測出圓,?或者,更進(jìn)一步:我們怎么能告訴計(jì)算機(jī)找出這個(gè)圓,?

這些是伴隨著大數(shù)據(jù)的增長被提出的問題 ,,代數(shù)拓?fù)淠芴峁┠承┐鸢浮?/span>


球體和立方體在我看來是一樣

1
如何從空間理解大數(shù)據(jù)

拓?fù)溆袝r(shí)被稱為“橡膠板幾何”。對于拓?fù)鋵W(xué)家來說,,球體和立方體是相同的東西,。 試想一下,由柔性材料制成的立方體,,插入吸管并吹氣,,這個(gè)立方體后會(huì)被吹成一個(gè)球體。像這樣的操作被稱為“變形”(deformation),如果兩個(gè)物體之間一個(gè)可變形為另一個(gè),,則它們被認(rèn)為是相同的,。

拓?fù)鋵W(xué)家們通過分配被稱為“不變量”(invariant)的代數(shù)對象來學(xué)習(xí)空間。這些不變量可能如整數(shù)一般簡單,,但通常是更復(fù)雜的代數(shù)結(jié)構(gòu),。對數(shù)據(jù)分析而言,選擇的不變量是“持續(xù)同調(diào)”(persistent homology)[小編注:在不同到空間分辨率下計(jì)算空間到拓?fù)涮卣鞯囊环N方法,?!罢{(diào)”讀作4聲tiáo]。

普通同調(diào)測量空間中不能被填充的“洞”的數(shù)目,。讓我們再來思考一個(gè)球體,。如果我們在球面上繪制環(huán)路,它形成一個(gè)表面上的二維圓盤,;也就是說,,我們可以在球體上填滿任何圓環(huán),因此不存在二維的“洞”,。與此相對,,球體本身的表面形成了一個(gè)不能填充的三維“洞”。


一個(gè)球體表面的閉環(huán),;它連成一個(gè)圓盤,,因此不加入第一階Betti數(shù)

使用普通同調(diào)來做數(shù)據(jù)分析的問題是,若計(jì)算一組離散數(shù)據(jù)點(diǎn)的同調(diào)性,,我們會(huì)失望——沒有洞,,只有不連續(xù)點(diǎn)的集合。第零階Betti數(shù)會(huì)計(jì)算有多少個(gè)點(diǎn),,但是,,因?yàn)檫@樣的數(shù)據(jù)集里沒有環(huán)形或球體,高階Betti數(shù)將全部為0,。這正是持續(xù)同調(diào)進(jìn)入故事的地方,。

我們需要把離散點(diǎn)的集合連接在一起。試想,,放一個(gè)半徑為r的小球來包圍我們數(shù)據(jù)集里的每一點(diǎn),。如果r非常小,那么沒有球會(huì)相交,,該集合里球的Betti數(shù)是和離散集里的Betti數(shù)一樣,。


包圍數(shù)據(jù)點(diǎn)的半徑增大的小球


但是,如果我們允許半徑r增長,,那么這些球?qū)㈤_始接觸,,我們可能會(huì)得到非平凡的更大的Betti數(shù)。在動(dòng)畫中,我們看到一旦r到達(dá)一定的閾值,,環(huán)繞頂部三個(gè)點(diǎn)的小球相交成對,,并包含連接三個(gè)點(diǎn)的三角形。此外,,我們不能填充三角形,,因?yàn)橛幸粋€(gè)小的空白在中間。這意味著在這一階段的一階Betti數(shù)為1,。但是,,當(dāng)r變得更大一點(diǎn),所有三個(gè)球一旦相交后我們可以填充三角形,,一階Betti數(shù)下降到第0,。


和以上數(shù)據(jù)相關(guān)的條形碼。在頂端的零階Betti數(shù)從4降到0,,在底部的第一階Betti數(shù)顯示了兩個(gè)短暫的一維同調(diào)的出現(xiàn),。

持續(xù)同調(diào)在半徑增長時(shí)跟蹤這些數(shù)字,這些數(shù)字相對參數(shù)r的圖形被稱為“條形碼”,。長條形顯示數(shù)據(jù)里的特征可能很顯著(它們持續(xù)存在,,該術(shù)語由此而來)。短條形通常產(chǎn)生于數(shù)據(jù)中的噪聲,,因此可以被忽略不計(jì)(或不能被忽略,,此時(shí)數(shù)據(jù)的上下文很重要)。


因此,,我們所做的是將一個(gè)離散點(diǎn)集轉(zhuǎn)為更加復(fù)雜空間的序列(每個(gè)空間對應(yīng)一個(gè)r),,以期比采用簡單的線性回歸更好地對數(shù)據(jù)進(jìn)行建模。


當(dāng)小球半徑增大時(shí),,一個(gè)圓圈在空間里持續(xù)存在

上面動(dòng)畫里,顯示了如何能以這種方式建模一個(gè)圓上的幾個(gè)點(diǎn),。我們已經(jīng)抑制了點(diǎn)集周圍的小球,,當(dāng)兩點(diǎn)的相關(guān)球重疊時(shí),連接兩點(diǎn),;當(dāng)三個(gè)點(diǎn)的相關(guān)球重疊時(shí),,形成三角形;依此類推,。一個(gè)圓圈持續(xù)相當(dāng)長的時(shí)間,,導(dǎo)致我們猜測我們的數(shù)據(jù)位于一個(gè)圓圈附近。


拓?fù)鋽?shù)據(jù)分析帶來一個(gè)新的數(shù)字圖像壓縮方法

2
理論之上的應(yīng)用

斯坦福大學(xué)的Gunnar Carlsso是拓?fù)鋽?shù)據(jù)分析的先驅(qū)之一,。他的小組的第一個(gè)成功研究之一,,是發(fā)現(xiàn)了自然圖像的空間拓?fù)洹_@組數(shù)據(jù)含有從黑白數(shù)碼照片里采樣的幾百億個(gè)3×3像素的小塊。每個(gè)像素由一個(gè)0到255的灰度值的數(shù)值描述,,每個(gè)3×3小塊對應(yīng)一個(gè)9維空間中的點(diǎn),,每個(gè)坐標(biāo)被賦予其相關(guān)像素的灰度值。在過濾掉常量小塊和進(jìn)行歸一化處理后,,這個(gè)空間就在一個(gè)7維球體內(nèi),。乍一看,數(shù)據(jù)集似乎填充了球體,;但是,,將注意力限制在點(diǎn)更緊密聚集的區(qū)域,結(jié)構(gòu)就自然呈現(xiàn)出來,。



一個(gè)Klein瓶像一個(gè)Mobius帶:它沒有邊界


鑒于這一成功,,Carlsson和他的一些同事成立了AYASDI,一個(gè)擁有著不斷增長的銀行,、金融,、政府等行業(yè)客戶花名冊的公司。他們使用這些以及其它技術(shù)來分析糖尿病,、乳腺癌和心肺疾病數(shù)據(jù),。結(jié)果令人鼓舞——有著高存活率的、用傳統(tǒng)的統(tǒng)計(jì)方法不可見的某些患者亞組,,也許可通過這些技術(shù)被發(fā)現(xiàn),。


但是,這些方法真正的成功前景,,在于定制針對個(gè)人的治療和解決方案方面的可能性,。大型數(shù)據(jù)集的分析使我們看到,例如,,一度被認(rèn)為是80%有效的藥物,,事實(shí)上是對80%可通過某個(gè)標(biāo)記識別的患者有100%的療效 。拓?fù)鋽?shù)據(jù)分析,,提供了另一種工具來推進(jìn)這樣的分析,,通常是識別之前被隱藏的特征。

素材來源:http:///topology-looks-for-the-patterns-inside-big-data-39554


大數(shù)據(jù)文摘編譯者簡介


數(shù)碼叮叮
本科畢業(yè)于重慶大學(xué)自動(dòng)化系儀表專業(yè),在日本名城大學(xué)獲得土木工程學(xué)碩士、博士學(xué)位,。有中科院,、及日本、加拿大工程咨詢公司工作經(jīng)驗(yàn)。現(xiàn)在加拿大溫哥華做數(shù)據(jù)驅(qū)動(dòng)水資源管理、規(guī)劃模型建立及相關(guān)開發(fā)工作。對大數(shù)據(jù)技術(shù)及應(yīng)用很感興趣,,工作之余也喜愛攝影,、徒步、滑雪,,歡迎同行,、同好、非同行及非同好交流,。世界這么大,,我想多學(xué)學(xué)。:)

于麗君
本科碩士畢業(yè)于清華大學(xué)數(shù)學(xué)系,,碩士研究課題為圖像修補(bǔ)問題建模,,目前為美國Case Western Reserve University應(yīng)用數(shù)學(xué)在讀博士,研究方向?yàn)樨惾~斯方法反問題建模,,博士研究課題為利用MEG(腦磁成像技術(shù))時(shí)序信號對大腦活動(dòng)進(jìn)行定位,,對數(shù)學(xué)建模、機(jī)器學(xué)習(xí),、人工智能以及圖像處理等方面有廣泛興趣,,希望結(jié)識更多相關(guān)領(lǐng)域的朋友互相交流進(jìn)步。
博士,,多年從事圖像及數(shù)據(jù)處理和分析,、計(jì)算機(jī)視覺、模式識別,、機(jī)器學(xué)習(xí),、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域的技術(shù)研究和創(chuàng)新應(yīng)用,現(xiàn)為西門子中國研究院高級研究員,。希望借此平臺,,與大數(shù)據(jù)分析愛好者以及專家學(xué)者交流、合作,。


 

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多