關(guān)于大數(shù)據(jù),有這樣一段話: “Big data is like teenage sex,everyone talks about it,nobody really knows how to do it,everyone thinks everyone else is doing it,so everyone claims they are doing it.” 看到這句話,,大伙對(duì)于大數(shù)據(jù)是啥有了基本的概念嗎?目前,,很多人對(duì)于大數(shù)據(jù)的理解依然停留在:海量的數(shù)據(jù),超大規(guī)模,,數(shù)據(jù)量到達(dá)了PB級(jí)別,,甚至有EB、ZB級(jí)別上的數(shù)據(jù),。通過對(duì)這些數(shù)據(jù)進(jìn)行深入分析,,就能得出非常有價(jià)值的結(jié)論,指引企業(yè)做出最佳決策,。 大數(shù)據(jù)就是那種很多人都聽說過或者閱讀過此類的文章,,但是對(duì)于具體是什么事物不了解。 其實(shí),,現(xiàn)在的大數(shù)據(jù)指的并不僅僅是海量數(shù)據(jù),,更準(zhǔn)確而言是對(duì)大數(shù)據(jù)分析的方法。傳統(tǒng)的數(shù)據(jù)分析,,是通過提出假設(shè)然后獲得相應(yīng)數(shù)據(jù),,最后通過數(shù)據(jù)分析來驗(yàn)證假設(shè)。而大數(shù)據(jù)不是這樣的,,大數(shù)據(jù)是從收集的海量數(shù)據(jù)中,,通過算法將這些來自不同渠道、格式的數(shù)據(jù)進(jìn)行直接分析,,從中尋找到數(shù)據(jù)之間的相關(guān)性,。簡單而言,大數(shù)據(jù)更偏重于發(fā)現(xiàn),,以及猜測(cè)/印證的循環(huán)逼近過程,。 而大數(shù)據(jù)的價(jià)值體現(xiàn)在對(duì)它的分析利用上,。一直以來,大數(shù)據(jù)的瓶頸并不是數(shù)據(jù)規(guī)模巨大導(dǎo)致的存儲(chǔ),、運(yùn)算等問題,,而是在前端數(shù)據(jù)的收集途徑,以及對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,,進(jìn)而引導(dǎo)后期的商業(yè)決策中的模型和算法問題。 各個(gè)行業(yè)都在產(chǎn)生數(shù)據(jù),,現(xiàn)代社會(huì)的數(shù)據(jù)量正持續(xù)地以前所未有的速度增加著,。這些不同類型的數(shù)據(jù)和數(shù)據(jù)型,極其復(fù)雜,,包括結(jié)構(gòu)化,、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。企業(yè)需要整合并分析來自復(fù)雜的傳統(tǒng)和非傳統(tǒng)信息源的數(shù)據(jù),,包括企業(yè)內(nèi)部和外部的數(shù)據(jù),。隨著傳感器、智能設(shè)備和社會(huì)協(xié)同技術(shù)的爆炸性增長,,數(shù)據(jù)的類型變得難以計(jì)數(shù),,包括文本、微博,、傳感器數(shù)據(jù),、音頻、視頻等,。 而現(xiàn)在大熱的數(shù)據(jù)分析師正在做的是這樣的工作:收集信息,,將信息結(jié)構(gòu)化數(shù)據(jù)化,最后才是我們能看到的大數(shù)據(jù)帶來的神奇力量,。但問題是其中對(duì)數(shù)據(jù)進(jìn)行處理工作量太大了,。根據(jù)訪談和專家測(cè)算,數(shù)據(jù)分析師的50%~80% 的時(shí)間都花在了處理數(shù)據(jù)上,。 在智能手環(huán)公司Jawbone 負(fù)責(zé)數(shù)據(jù)工作的Monica Rogati 說: 處理數(shù)據(jù)是整項(xiàng)工作中巨大的部分,。但有時(shí)我們感到沮喪,因?yàn)楹孟癫煌5靥幚頂?shù)據(jù)就是我們做的所有事情,。 這聽起來有點(diǎn)像冰山理論,,即我們能看到的大數(shù)據(jù)只是冰山露出來的一個(gè)小角,而我們看不到的地方,,如大數(shù)據(jù)的前期工作,,就是海水下是更巨大的部分。 但咨詢公司麥肯錫曾在2011 的報(bào)告中指出: “數(shù)據(jù),,已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來,?!?/p> 是的,存在問題的地方也潛藏著機(jī)會(huì),。原始數(shù)據(jù)的格式和來源不可計(jì)數(shù),,舉一個(gè)例子,假如一家食品行業(yè)的企業(yè)需要進(jìn)行大數(shù)據(jù)的收集和分析,,它能收集的數(shù)據(jù)包括產(chǎn)量,、出貨的位置信息、天氣報(bào)告,、零售商每日銷售量,、社交媒體評(píng)論等。而根據(jù)這些信息,,企業(yè)能夠洞察出市場的風(fēng)向和需求的變化,,進(jìn)而制定相應(yīng)的產(chǎn)品計(jì)劃。 的確,,獲得的信息越多越有利于企業(yè)做出明智的決策,。但這個(gè)決策是建立在不同的數(shù)據(jù)集之上的,這些來自各種傳感器,、文檔,、網(wǎng)頁、數(shù)據(jù)庫的的數(shù)據(jù),,全部都是不同的格式,,它們必須要被轉(zhuǎn)換為統(tǒng)一的格式,這樣軟件才能理解它們,,進(jìn)行分析,。 將各類數(shù)據(jù)進(jìn)行格式統(tǒng)一是一個(gè)嚴(yán)峻的挑戰(zhàn),因?yàn)閿?shù)據(jù)和人類語言一樣都具有模糊性,,有些數(shù)據(jù)人類知道是什么意思,,但電腦卻不能識(shí)別,因此我們需要人工來一次又一次地重復(fù)這個(gè)工作,。 現(xiàn)在已經(jīng)有不少的初創(chuàng)公司試圖開發(fā)相關(guān)的技術(shù)來減輕這項(xiàng)工作,在中國也有,。大數(shù)據(jù)魔鏡,一家在蘇州的初創(chuàng)公司,,它開發(fā)的軟件能識(shí)別不同的數(shù)據(jù)來源,,將它們整合,并將結(jié)果用視覺方式呈現(xiàn),,如圖表,、圖形或數(shù)據(jù)地圖,。再如 Paxata,一家加州的初創(chuàng)公司,,專注于數(shù)據(jù)的自動(dòng)化——發(fā)現(xiàn),、清理、調(diào)配數(shù)據(jù),,通過Paxata 處理過的數(shù)據(jù)能被送入各種分析或可視化軟件工具,。 大數(shù)據(jù)目前的情況和計(jì)算機(jī)發(fā)展的軌跡有點(diǎn)相似。一種先進(jìn)的技術(shù),,最初往往只被幾名精英掌握,,但隨著時(shí)間流逝,通過不斷地技術(shù)創(chuàng)新和投資,,這項(xiàng)技術(shù),或者說工具,,會(huì)變得越來越好,。特別是當(dāng)其融入到商業(yè)領(lǐng)域中后,這項(xiàng)工具就能得到廣泛應(yīng)用,,成為社會(huì)中的主流,。 所以我們現(xiàn)在是歷史的見證者,看著大數(shù)據(jù)如何一步步完善,,我們都需要掌握或選擇一個(gè)最佳的分析方法,,以更好地挖掘出大數(shù)據(jù)的價(jià)值。 除非注明,,本站文章均為原創(chuàng)或編譯,,轉(zhuǎn)載請(qǐng)注明: 文章來自大數(shù)據(jù)魔鏡 |
|