久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

大數(shù)據(jù)時代

 淮安俞小杰 2015-10-02

大數(shù)據(jù)時代/(英)維克托·邁爾-舍恩伯格,,(英)肯尼思·庫克耶著,;盛楊燕,周濤譯,,浙江人民出版社,,2013/1

世界的本質(zhì)就是數(shù)據(jù),大數(shù)據(jù)將開啟一次重大的時代轉(zhuǎn)型,;大數(shù)據(jù)發(fā)展的核心動力來源于人類測量,、記錄和分析世界的渴望;從因果關(guān)系到相關(guān)關(guān)系的思維變革才是大數(shù)據(jù)的關(guān)鍵,,建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測才是大數(shù)據(jù)的核心,。

【擁抱“大數(shù)據(jù)時代”】寬帶資本董事長 田溯寧

隨著智能手機(jī)以及“可佩帶”計算設(shè)備的出現(xiàn),我們的行為,、位置,、甚至身體生理數(shù)據(jù)等每一點(diǎn)變化都成為了可被記錄和分析的數(shù)據(jù),。發(fā)掘數(shù)據(jù)價值、征服數(shù)據(jù)海洋的“動力”就是云計算,。

互聯(lián)網(wǎng)時代,,尤其是社交網(wǎng)絡(luò)、電子商務(wù)與移動通信把人類社會帶入了一個以“PB”(1024TB)為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)信息的新時代,。在云計算出現(xiàn)之前,,傳統(tǒng)的計算機(jī)是無法處理如此量大、并且不規(guī)則的“非結(jié)構(gòu)數(shù)據(jù)”的,。以云計算為基礎(chǔ)的信息存儲,、分享和挖掘手段,可以便宜,、有效地將這些大量、高速,、多變化的終端數(shù)據(jù)存儲下來,,并隨時進(jìn)行分析與計算。大數(shù)據(jù)與云計算是一個問題的兩面:一個是問題,,一個是解決問題的方法,。通過云計算對大數(shù)據(jù)進(jìn)行分析、預(yù)測,,會使得決策更為精準(zhǔn),,釋放出更多數(shù)據(jù)的隱藏價值。數(shù)據(jù),,這個21世紀(jì)人類探索的新邊疆,,正在被云計算發(fā)現(xiàn)、征服,。

“不再追求精確度,,不再追求因果關(guān)系,而是承認(rèn)混雜性,,探索相關(guān)關(guān)系”,,“思維轉(zhuǎn)變過來,數(shù)據(jù)就能夠被巧妙地用來激發(fā)新產(chǎn)品和新型服務(wù)”,。

【實(shí)實(shí)在在大數(shù)據(jù)】知名IT評論人 謝文

在人類歷史長河中,,即使是在現(xiàn)代社會日新月異的發(fā)展中,人們還主要是依賴抽樣數(shù)據(jù),、局部數(shù)據(jù)和片面數(shù)據(jù),,甚至是無法獲得實(shí)證數(shù)據(jù)的時候純粹依賴經(jīng)驗(yàn)、理論,、假設(shè)和價值觀去發(fā)現(xiàn)未知領(lǐng)域的規(guī)律,。因此,,人們對世界的認(rèn)識往往是表面的、膚淺的,、簡單的,、扭曲的或者是無知的。維克托指出,,大數(shù)據(jù)時代來臨使人類第一次有機(jī)會和條件,,在非常多的領(lǐng)域和非常深入的層次獲得和使用全面數(shù)據(jù)、完整數(shù)據(jù)和系統(tǒng)數(shù)據(jù),,深入探索現(xiàn)實(shí)世界的規(guī)律,,獲取過去不可能獲取的知識,得到過去無法企及的商機(jī),。

【在路上,,晃晃悠悠】電子科技大學(xué)教授,互聯(lián)網(wǎng)科學(xué)中心主任 周濤

書中一個重要觀點(diǎn):大數(shù)據(jù)時代,,要允許一點(diǎn)點(diǎn)的錯誤和不完美,,因?yàn)樾士赡芨又匾∽髡邟伋隽舜髷?shù)據(jù)時代處理理念上的三大轉(zhuǎn)變:要全體不要抽樣,,要效率不要絕對精確,,要相關(guān)不要因果。

【引言】一場生活,、工作與思維的大變革

1大數(shù)據(jù),,變革公共衛(wèi)生

當(dāng)今社會所獨(dú)有的一種新型能力:以一種前所未有的方式,通過對海量數(shù)據(jù)進(jìn)行分析,,獲得有巨大價值的產(chǎn)品和服務(wù),,或深刻的洞見?;谶@樣的技術(shù)理念和數(shù)據(jù)儲備,,下一次流感來襲的時候,世界將會擁有一種更好的預(yù)測工具,,以預(yù)防流感的傳播,。

2大數(shù)據(jù),變革商業(yè)

3大數(shù)據(jù),,變革思維

如今,,數(shù)據(jù)已經(jīng)成為了一種商業(yè)資本,一項(xiàng)重要的經(jīng)濟(jì)投入,,可以創(chuàng)造新的經(jīng)濟(jì)利益,。事實(shí)上,一旦思維轉(zhuǎn)變過來,,數(shù)據(jù)就能被巧妙地用來激發(fā)新產(chǎn)品和新型服務(wù),。數(shù)據(jù)的奧妙只為謙遜,、愿意聆聽且掌握了聆聽手段的人所知。

信息總量的變化還導(dǎo)致了信息形態(tài)的變化——量變引發(fā)了質(zhì)變,。最先經(jīng)歷信息爆炸的學(xué)科,,如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個概念,。如今,,這個概念幾乎應(yīng)用到了所有人類致力于發(fā)展的領(lǐng)域中。大數(shù)據(jù)是人們獲得新的認(rèn)知,、創(chuàng)造新的價值的源泉,;大數(shù)據(jù)還是改變市場、組織機(jī)構(gòu),,以及政府與公民關(guān)系的方法,。

★這僅僅只是一個開始,大數(shù)據(jù)時代對我們的生活,,以及與世界交流的方式都提出了挑戰(zhàn),。最驚人的是,社會需要放棄它對因果關(guān)系的渴求,,而僅需關(guān)注相關(guān)關(guān)系。也就是說只需要知道是什么,,而不需要知道為什么,。這就推翻了自古以來的慣例,而我們做決定和理解現(xiàn)實(shí)的最基本方式也將受到挑戰(zhàn),。

4大數(shù)據(jù),,開啟重大的時代轉(zhuǎn)型

技術(shù)成熟度曲線又叫技術(shù)循環(huán)曲線,或者直接叫做炒作周期,,是指新技術(shù),、新概念在媒體上曝光度隨時間的變化曲線。

PB,,拍字節(jié),,等于250次方字節(jié)。EB,,艾字節(jié),,等于260次方字節(jié),相當(dāng)于10GB,。ZB,,澤字節(jié),等于270次方字節(jié),,相當(dāng)于1024艾字節(jié),。

有趣的是,,在2007年,所有數(shù)據(jù)中只有7%是存儲在報紙,、書籍,、圖片等媒介上的模擬數(shù)據(jù),其余全部是數(shù)字?jǐn)?shù)據(jù),。

按照希爾伯特的說法,,數(shù)字?jǐn)?shù)據(jù)的數(shù)量每三年多就會翻一倍。相反,,模擬數(shù)據(jù)的數(shù)量則基本上沒有增加,。到2013年,世界上存儲的數(shù)據(jù)預(yù)計能達(dá)到約1.2澤字節(jié),,其中非數(shù)字?jǐn)?shù)據(jù)只占不到2%,。

人類存儲信息量的增長速度比世界經(jīng)濟(jì)的增長速度快4倍,而計算機(jī)數(shù)據(jù)處理能力的增長速度則比世界經(jīng)濟(jì)的增長速度快9倍,。難怪人們會抱怨信息過量,,因?yàn)槊總€人都受到了這種極速發(fā)展的沖擊。

★亞歷山大圖書館藏書豐富,,有據(jù)可考的超過50,,000卷(紙草卷),包括《荷馬史詩》,、《幾何原本》等,。它建成之時正是中國戰(zhàn)國時代的末期,此時百家爭鳴,。較有影響的十大家(儒,、道、墨,、法,、名、陰陽,、縱橫,、雜、農(nóng),、小說)多有著述,,且己出現(xiàn)如《詩經(jīng)》、《楚辭》,、《離騷》等文學(xué)作品,。雖沒有像亞歷山大圖書館一樣的集中式藏書中心,但也占據(jù)了世界知識量的相當(dāng)份額。

想象一下,,現(xiàn)在我們能每秒鐘播放24幅不同形態(tài)的馬的圖片,,這就是一種由量變導(dǎo)致的質(zhì)變:一部電影與一幅靜態(tài)的畫有本質(zhì)上的區(qū)別!大數(shù)據(jù)也一樣,,量變導(dǎo)致質(zhì)變,。物理學(xué)和生物學(xué)都告訴我們,當(dāng)我們改變規(guī)模時,,事物的狀態(tài)有時也會發(fā)生改變,。

以納米技術(shù)為例:納米技術(shù)專注于把東西變上而不是變大。其原理就是當(dāng)事物到達(dá)分子的級別時,,它的物理性質(zhì)就會發(fā)生改變,。一旦你知道這些新的性質(zhì),你就可以用同樣的原料來做以前無法做的事情,。銅本來是用來導(dǎo)電的物質(zhì),,但它一旦到達(dá)納米級別就不能在磁場中導(dǎo)電了。銀離子肯有抗菌性,,但當(dāng)它以分子形式存在的時候,,這種性質(zhì)會消失。一旦到達(dá)納米級別,,金屬可以變得柔軟,,陶土可以具有彈性。同樣,,當(dāng)我們增加所利用的數(shù)據(jù)量時,,我們就可以做很多在小數(shù)據(jù)量的基礎(chǔ)上無法完成的事情。

5預(yù)測,,大數(shù)據(jù)的核心

它是把數(shù)學(xué)算法運(yùn)用到海量的數(shù)據(jù)上來預(yù)測事情發(fā)生的可能性。

就像互聯(lián)網(wǎng)通過給計算機(jī)添加通信功能而改變了世界,,大數(shù)據(jù)也將改變我們生活中最重要的方面,,因?yàn)樗鼮槲覀兊纳顒?chuàng)造了前所未有的可量化的維度。

6大數(shù)據(jù),、大挑戰(zhàn)

大數(shù)據(jù)的精髓在于我們分析信息時的三個轉(zhuǎn)變,,這些轉(zhuǎn)變將改變我們理解和組建社會的方法。

○在大數(shù)據(jù)時代,,我們可以分析更多的數(shù)據(jù),,有時候甚至可以處理和某個特別現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再依賴于隨機(jī)采樣,。采樣分析是信息缺乏時代和信息流通受限制的模擬數(shù)據(jù)時代的產(chǎn)物,。但高性能數(shù)字技術(shù)的流行,使我們能使用一切數(shù)據(jù),也就為我們帶來了更高的精確性,,讓我們看到了一些以前無法發(fā)現(xiàn)的細(xì)節(jié)——大數(shù)據(jù)讓我們更清楚地看到了樣本無法揭示的細(xì)節(jié)信息,。

○研究數(shù)據(jù)如此之多,以至于我們不再熱衷追求精確度,。直到今天,,我們的數(shù)字技術(shù)依然建立在精準(zhǔn)的基礎(chǔ)上。我們假設(shè)只要電子數(shù)據(jù)表格把數(shù)據(jù)排序,,數(shù)據(jù)庫引擎就可以找出和我們檢索的內(nèi)容完全一致的檢索記錄,。

這種思維方式適用于掌握“小數(shù)據(jù)量”的情況,因?yàn)樾枰治龅臄?shù)據(jù)很少,,所以我們必須盡可能精準(zhǔn)地量化我們的記錄,。如一個小商店打烊盤帳,有時候是以“分”為單位(每分都要數(shù)清楚),,但我們不可能用“分”這們單位去精確度量國民生產(chǎn)總值,。隨著規(guī)模的擴(kuò)大,對精確度的癡迷將減弱,。

達(dá)到精確需要有專業(yè)的數(shù)據(jù)庫,。針對小數(shù)據(jù)量和特定事情,追求精確性依然是可行的,。即當(dāng)我們擁有海量即時數(shù)據(jù)時,,絕對的精準(zhǔn)不再是我們追求的主要目標(biāo)。

大數(shù)據(jù)紛繁多樣,,優(yōu)劣摻雜,,分布在全球多個服務(wù)器上。擁有了大數(shù)據(jù),,我們不再需要對一個現(xiàn)象刨根究底,,只要掌握大體的發(fā)展方向即可。當(dāng)然,,我們也不是完全放棄了精確度,,只是不再沉迷于此。適當(dāng)忽略微觀層面上的精確度會讓我們在宏觀層面擁有更好的洞察力,。

○轉(zhuǎn)變因前兩個轉(zhuǎn)變而促成,,即我們不再熱衷于尋找因果關(guān)系。

尋找因果關(guān)系是人類長久以來的習(xí)慣,。即使確定因果關(guān)系很困難而且用途不大,,人類還是習(xí)慣性地尋找緣由。相反,,在大數(shù)據(jù)時代,,我們無須再緊盯事物之間的因果關(guān)系,而應(yīng)該尋找事物之間的相關(guān)關(guān)系,這會給我們提供非常新穎且有價值的觀點(diǎn),。相關(guān)關(guān)系也許不能準(zhǔn)確地告知我們某件事情為何會發(fā)生,,但是它會提醒我們這件事情正在發(fā)生。在許多情況下,,這種提醒的幫助已經(jīng)足夠大了,。

如果百萬條電子醫(yī)療記錄顯示橙汁和阿司匹林的特定組合要以治療癌癥,那么找出具體的藥理機(jī)制就沒有這種治療方法本身來得重要,。大數(shù)據(jù)告訴我們“是什么”而不是“為什么”,。在大數(shù)據(jù)時代,我們不必知道現(xiàn)象背后的原因,,我們只要讓數(shù)據(jù)自己發(fā)聲,。這樣,我們會注意到很多以前從來沒有意識到的聯(lián)系的存在,。

在一個可能性和相關(guān)性占主導(dǎo)地位的世界里,,專業(yè)性變得不那么重要了。行業(yè)專家不會消失,,但是他們必須與數(shù)據(jù)表達(dá)的信息進(jìn)行博弈,。星探們在統(tǒng)計學(xué)家面前相形見絀——直覺的判斷被迫讓位于精準(zhǔn)的數(shù)據(jù)分析。這將迫使人們調(diào)整在管理,、決策,、人力資源和教育方面的傳統(tǒng)理念。

“馬其諾防線”現(xiàn)在用來意指看似表面堅固,,實(shí)際毫無價值的東西,。

人們自愿在網(wǎng)絡(luò)上分享信息,而這種分享的能力成為了網(wǎng)絡(luò)服務(wù)的一個中心特征,,而不再是一個需要規(guī)避的薄弱點(diǎn)了,。

第一部分:大數(shù)據(jù)時代的思維變革

一、更多不是隨機(jī)樣本,,而是全體數(shù)據(jù)

讓數(shù)據(jù)“發(fā)聲”

大數(shù)據(jù)與三個重大的思維轉(zhuǎn)變有關(guān):

1要分析與某事物相關(guān)的所有數(shù)據(jù),,而不是依靠分析少量的數(shù)據(jù)樣本:過去,因?yàn)橛涗?、儲存和分析?shù)據(jù)的工具不夠好,,我們只能收集少量數(shù)據(jù)進(jìn)行分析,,這讓我們一度很苦惱,。為了讓分析變得簡單,我們會把數(shù)據(jù)量縮減到最少,。這是一種無意識的自?。何覀儼雅c數(shù)據(jù)交流的困難看成是自然的,而沒有意識到這只是當(dāng)時技術(shù)條件下的一種人為的限制。

○小數(shù)據(jù)時代的隨機(jī)采樣,,最少的數(shù)據(jù)獲得最多的信息

○全數(shù)據(jù)模式,,樣本=總體

在信息處理能力受限的時代,世界需要數(shù)據(jù)分析,,卻缺少用來分析所收集數(shù)據(jù)的工具,,因此隨機(jī)采樣應(yīng)運(yùn)而生,它也可以被視為那個時代的產(chǎn)物,。如今,,計算和制表不再像過去一樣困難。感應(yīng)器,、手機(jī)導(dǎo)航,、網(wǎng)站點(diǎn)擊和Twitter被動地收集了大量數(shù)據(jù),而計算機(jī)可以輕易地對這些數(shù)據(jù)進(jìn)行處理,。

采樣的目的就是用最少的數(shù)據(jù)得到最多的信息,。當(dāng)我們可以獲得海量數(shù)據(jù)的時候,它就沒什么意義了,。

樣本=總體是指我們對數(shù)據(jù)進(jìn)行深度探討,,而采樣幾乎無法達(dá)到這樣的效果。

大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,,而采用所有數(shù)據(jù)的方法,。

社會科學(xué)是被“樣本=總體”撼動得最厲害的學(xué)科。隨著大數(shù)據(jù)分析取代了樣本分析,,社會科學(xué)不再單純依賴于實(shí)證數(shù)據(jù),。這門學(xué)科過去曾非常依賴樣本分析、研究和調(diào)查問卷,。當(dāng)記錄下來的是人們的平常狀態(tài),,也就是不用擔(dān)心在做研究和調(diào)查問卷時存在的偏見了。(這種偏見既包括研究者設(shè)計實(shí)驗(yàn)問卷時的偏差,,也包括被試人員由于了解自己作為被試的角色而產(chǎn)生的不同于日常的心理和行為,。)現(xiàn)在我們不再依賴抽樣調(diào)查了。

二,、更雜不是精確性,,而是混雜性

執(zhí)迷于精確性是信息缺乏時代和模擬時代的產(chǎn)物。只有5%的數(shù)據(jù)是結(jié)構(gòu)化且能適用于傳統(tǒng)數(shù)據(jù)庫的,。如果不接受混亂,,剩下的95%的非結(jié)構(gòu)化數(shù)據(jù)都無法被利用,只有接受不精確性,,我們才能打開一扇從未涉足的世界的窗戶,。

1允許不精確

對“小數(shù)據(jù)”而言,,最基本、最重要的要求就是減少錯誤,,保證質(zhì)量,。因?yàn)槭占男畔⒘勘容^少,所以我們必須確保記錄下來的數(shù)據(jù)盡量精確,。所以在采樣的時候,,對精確度的要求就更高更苛刻了。因?yàn)槭占畔⒌挠邢抟馕吨?xì)微的錯誤會被放大,,甚至有可能影響整個結(jié)果的準(zhǔn)確性,。

我們研究一個現(xiàn)象,是因?yàn)槲覀兿嘈盼覀兡軌蚶斫馑?。后來,,測量方法逐漸被運(yùn)用到科學(xué)觀察、解釋方法中,,體現(xiàn)為一種進(jìn)行量化研究,、記錄、并呈現(xiàn)可重復(fù)結(jié)果的能力,。偉大的物理學(xué)家開爾文男爵說過:“測量就是認(rèn)知,。”

然而,,在不斷涌現(xiàn)的新情況里,,允許不精確的出現(xiàn)已經(jīng)成為一個新的亮點(diǎn),而非缺點(diǎn),。因?yàn)榉潘闪巳蒎e的標(biāo)準(zhǔn),,人們掌握的數(shù)據(jù)也多了起來,還可以利用這些數(shù)據(jù)做更多的事情,。這樣就不是大量數(shù)據(jù)優(yōu)于少量數(shù)據(jù)那么簡單了,,而是大量數(shù)據(jù)創(chuàng)造了更好的結(jié)果。

同時,,我們需要與各種各樣的混亂做斗爭,。混亂,,簡單地說就是隨著數(shù)據(jù)的增加,,錯誤率也會相應(yīng)增加。在整合來源不同的各類信息的時候,,因?yàn)樗鼈兺ǔ2煌耆恢?,所以也會加大混亂程度。如,,服務(wù)器處理投訴時的數(shù)據(jù)與用語音識別系統(tǒng)識別某個呼叫中心接到的投訴會產(chǎn)生一個不太準(zhǔn)確的結(jié)果,,但也有助于我們把握整個事情的大致情況的。

混亂還可以指格式的不一致性,,因?yàn)橐_(dá)到格式一致,,就需要在進(jìn)行數(shù)據(jù)處理之前仔細(xì)地清洗數(shù)據(jù),而這在大數(shù)據(jù)背景下很難做到,。

很多情況下,,與致力于避免錯誤相比,對錯誤的包容會帶給我們更多好處,。為了擴(kuò)大規(guī)模,,我們接受適量錯誤的存在。有時得到2+2等于3.9的結(jié)果,,也很不錯了,。為了了解大致的發(fā)展趨勢,我們愿意對精確性做出一些讓步,。

“大數(shù)據(jù)”通常用概率說話,,而不是板著“確鑿無疑”的面孔。整個社會要習(xí)慣這種思維需要很長的時間,。但當(dāng)我們試圖擴(kuò)大數(shù)據(jù)規(guī)模時,,要學(xué)會擁抱混亂。

 

第二部分 大數(shù)據(jù)時代的商業(yè)變革

04數(shù)據(jù)化:一切皆可“量化”

大數(shù)據(jù)發(fā)展的核心動力來源于在類測量,、記錄和分析世界的渴望,。信息技術(shù)變革隨處可見,但是如今的信息技術(shù)變革的重點(diǎn)在“T”(技術(shù))上,,而不是在“I”(信息)上?,F(xiàn)在,我們是時候把聚美燈打向“I”,,開始關(guān)注信息本身了,。

數(shù)據(jù)化,不是數(shù)字化:“數(shù)據(jù)”(data)這個詞在拉丁文里是“已知”的意思,,也可以理解為“事實(shí)”,。這是歐幾里得的一部經(jīng)典著作的標(biāo)題,這本書用已知的或者可由已知推導(dǎo)的知識來解釋幾何學(xué),。如今,,數(shù)據(jù)代表著對某件事物的描述,數(shù)據(jù)可以記錄,、分析和重組它,。“數(shù)據(jù)化”,,這是指一種把現(xiàn)象轉(zhuǎn)變化可制表分析的量化形式的過程,。為了得到可量化的信息,,我們要知道如何計量;為了數(shù)據(jù)化量化了的信息,,我們要知道怎么記錄計量的結(jié)果,。這需要我們擁有正確的工具。計量和記錄的需求也是數(shù)據(jù)化的前提,,而我們在數(shù)字化時代來臨的幾個世紀(jì)前就已經(jīng)奠定好了數(shù)據(jù)化的基礎(chǔ),。

量化一切,數(shù)據(jù)化的核心:記錄信息的能力是原始社會和先進(jìn)社會的分界線之一,。計量和記錄一起促成了數(shù)據(jù)的誕生,,它們是數(shù)據(jù)化最早的根基。

算術(shù)賦予了數(shù)據(jù)新的意義,,因?yàn)樗F(xiàn)在不但可以被記錄還可以被分析和再利用,。

最終讓阿拉伯?dāng)?shù)字廣為采用的是復(fù)式記帳法的出現(xiàn),它也是數(shù)據(jù)化的一種工具,。如今,,復(fù)式記帳法通常被看成是會計業(yè)金融業(yè)不斷發(fā)展的成果。事實(shí)上,,在數(shù)據(jù)利用的推進(jìn)過程中,,它也是一個里程碑似的存在。它的出現(xiàn)實(shí)現(xiàn)了相關(guān)帳戶信息的“分門別類”記錄,。它建立在一系列記錄數(shù)據(jù)的規(guī)則之上,,也是最早的信息記錄標(biāo)準(zhǔn)化的例子,使會計們能夠讀懂彼此的帳本,。

伴隨著數(shù)據(jù)記錄的發(fā)展,,人類探索世界的想法一直在膨脹,我們渴望能更精準(zhǔn)地記錄時間,、距離,、地點(diǎn)、體積和重量,,等等,。到了19世紀(jì),隨著科學(xué)家們發(fā)明了新工具來測量和記錄電流,、氣壓,、溫度、聲頻之類的自然科學(xué)現(xiàn)象,,科學(xué)已經(jīng)離不開定量化了,。那是一個一切事物都需要被測量、劃分和記錄的時代,,人們理解自然的熱情甚至高漲到通過分析測量人的顱骨來試圖分析人的心智能力,。好在,,對顱相學(xué)這類偽科學(xué)的熱情最終淡去了,但是人類對于量化一切的熱情卻始終沒有減退,。

數(shù)據(jù)化的實(shí)現(xiàn)有一點(diǎn)必不可少,,那就是要從潛在的數(shù)據(jù)是挖掘出巨大的價值,然后揭示出新的深刻洞見,。

計算機(jī)的出現(xiàn)帶來了數(shù)字測量和存儲設(shè)備,這樣就大大提高了數(shù)據(jù)化的效率,。計算機(jī)也使得數(shù)學(xué)分析挖掘出數(shù)據(jù)更大的價值變成了可能,。簡而言之,數(shù)字化帶來了數(shù)據(jù)化,,但是數(shù)字化無法取代數(shù)據(jù)化,。數(shù)字化是把模擬數(shù)據(jù)變成計算機(jī)可讀的數(shù)據(jù),和數(shù)據(jù)化有本質(zhì)上的不同,。

當(dāng)文字變成數(shù)據(jù):2004年,,谷歌試圖把所有版權(quán)條例允許的書本內(nèi)容進(jìn)行數(shù)字化,發(fā)明了一個能自動翻頁的掃描儀,。剛開始,,谷歌所做的是數(shù)字化文本,每一頁都被掃描然后存入谷歌服務(wù)器的一個高分辯率數(shù)字圖像文件中,。書本上的內(nèi)容變成了網(wǎng)絡(luò)上的數(shù)字文本,,所以任何地方的任何人都可以方便地進(jìn)行查詢了。然而,,這還是需要用戶要么知道自己要找的內(nèi)容在哪本書上,,要么必須在浩瀚的內(nèi)容中尋覓自己需要的片段。因?yàn)檫@些數(shù)字文本沒有被數(shù)據(jù)化,,所以它們不能通過搜索詞被查找到,,也不能被分析。谷歌所擁有的只是一些圖像,,這些圖像只有依靠人的閱讀才能轉(zhuǎn)化為有用的信息,。

谷歌知道,這些信息只有被數(shù)據(jù)化,,它的巨大潛在價值才會被釋放出來,。因此谷歌使用了能識別數(shù)字圖像的光學(xué)字符識別軟件來識別文本的字、詞,、句和段落,,如此一來,書頁的數(shù)字化圖像就轉(zhuǎn)化成了數(shù)據(jù)化文本,。

如今,,不僅人類可以使用這些文本信息,,計算機(jī)也可以處理和分析這些文本數(shù)據(jù)了。通過檢索和查詢,,我們可以對它進(jìn)行無窮無盡的文本分析,;也可以揭示一個詞以及詞組第一次出現(xiàn)的時間及其成為流行詞的時間,據(jù)此發(fā)出幾百年來人類思維發(fā)展和思維傳播的軌跡,。

谷歌的數(shù)字圖書館:輸入網(wǎng)址:http://books.google.com/ngrams,,打開Google Ngram Viewer,它利用谷歌所擁有的所的圖書作為數(shù)據(jù)資源,,為你提供單詞和短語歷年使用次數(shù)的展示圖表,。眨眼之間,我們就能發(fā)現(xiàn)“causality”(因果關(guān)系)這個詞在1900年之前的使用頻率比“correlation”(相關(guān)關(guān)系)高,;而在1900年之后,,情況就與之前相反了。對于作者存在爭議的書籍,,我們自己也可以進(jìn)行作品風(fēng)格鑒定,。數(shù)據(jù)化的實(shí)現(xiàn)讓抄襲學(xué)術(shù)作品的行為越來越無處藏身,因此,,很多歐洲政客的抄襲行為被曝光,,最終不得不引咎辭職。

15世紀(jì)中葉,,人類發(fā)明了印刷機(jī),,在這之后大約出版了1.3億冊圖書。到2010年為止,,也就是谷歌的數(shù)字化圖書計劃實(shí)行7年之后,,大約有2000萬圖書被掃描成了數(shù)字圖書,這幾乎相當(dāng)于人類所有書寫文明的15%,。這誘發(fā)了一個新的學(xué)術(shù)方向——文化組學(xué),。“文化組學(xué)”是一個計算機(jī)專業(yè)詞匯,指的就是通過文本的定量分析來揭示人類行為和文化發(fā)展的趨勢,。

當(dāng)文字變成數(shù)據(jù),,它就大顯神通了——人可以用之閱讀,機(jī)器也可用之分析,。

至少現(xiàn)在,,亞馬遜深諳數(shù)字化內(nèi)容的意義,而谷歌觸及了數(shù)據(jù)化內(nèi)容的價值,。

有了大數(shù)據(jù)的幫助,,我們不會再將世界看作是一連串我們認(rèn)為或是自然或是社會現(xiàn)象的事件,我們會意識到本質(zhì)上世界是由信息構(gòu)成的。將世界看作信息,,看作可以理解的數(shù)據(jù)的海洋,,為我們提供了一個從未有過的審視現(xiàn)實(shí)的視角。它是一種可以滲透到所有生活領(lǐng)域的世界觀,。

05價值:“取之不盡,,用之不竭”的數(shù)據(jù)創(chuàng)新

驗(yàn)證碼,全稱為“全自動區(qū)分計算機(jī)和人類的圖靈測試”,。

大部分?jǐn)?shù)據(jù)的直接價值對收集者而言是顯而易見的,。事實(shí)上,數(shù)據(jù)通常都是為了某個特定的目的而被收集——商店為了會計核算而收集銷售數(shù)據(jù),,網(wǎng)站記錄每一個用戶點(diǎn)擊(即使是鼠標(biāo)光標(biāo)的移動)來分析和優(yōu)化其呈現(xiàn)給訪客的內(nèi)容,。數(shù)據(jù)的基本用途為信息的收集和處理提供了依據(jù)。

亞馬遜同時記錄下了客戶購買的書籍和他們?yōu)g覽過的頁面,,便可以利用這些數(shù)據(jù)來為客戶提供個性化的建議,。

不同于物質(zhì)性的東西,,數(shù)據(jù)的價值不會隨著它的使用而減少,,而是可以不斷地被處理。這就是經(jīng)濟(jì)學(xué)家所謂的“非競爭性”的好處:個人使用不妨礙他人的使用,,而且信息不會像其它物質(zhì)產(chǎn)品一樣隨著使用而有所耗損,。數(shù)據(jù)的價值并不僅限于特定的用途,它可以為了同一目的而被多次使用,,也可以用于其他目的,。要了解大數(shù)據(jù)時代究竟有多少信息對我們有價值,后面這一點(diǎn)尤其重要,。

數(shù)據(jù)的“潛在價值”:物理學(xué)家解釋能量的方法可以幫助我們理解數(shù)據(jù),。他們認(rèn)為物體擁有“儲存著的”或“潛在的”能量,只是處于休眠狀態(tài),。數(shù)據(jù)亦然,。在大數(shù)據(jù)時代,我們終于有了這種思維,、創(chuàng)造力和工具,,來釋放數(shù)據(jù)的隱藏價值。

數(shù)據(jù)的潛在價值有三種最為常見的釋放方式:基本再利用,、數(shù)據(jù)集整合和尋找“一份錢兩份貨”,。而數(shù)據(jù)的折舊值、數(shù)據(jù)廢氣和開放數(shù)據(jù)則是更為獨(dú)特的方式,。

數(shù)據(jù)創(chuàng)新1:數(shù)據(jù)的再利用

典型例子是搜索關(guān)鍵詞——讓客戶采集搜索流量來揭示消費(fèi)者的喜好,,進(jìn)而了解其它欲了解的趨勢、狀況等情況。

如果使用正確,,即使是最平凡的信息也可以具有特殊的價值,。如移動運(yùn)營商,他們記錄了人們的手機(jī)在何時何地連接基站的信息,,包括信號強(qiáng)度,。運(yùn)營商可用這些數(shù)據(jù)來微調(diào)其網(wǎng)絡(luò)的性能,決定在哪里需要添加或者升級基礎(chǔ)設(shè)施,。但這些數(shù)據(jù)還有很多其他潛在的用途,,比如手機(jī)制造商可以用它來了解影響信號強(qiáng)度的因素,以改善手機(jī)的接收質(zhì)量,。

數(shù)據(jù)創(chuàng)新2:重組數(shù)據(jù)

隨著大數(shù)據(jù)的出現(xiàn),,數(shù)據(jù)的總和比部分更有價值。當(dāng)我們將多個數(shù)據(jù)集的總和重組在一起時,,重組總和本身的價值也比單個總和更大,。

數(shù)據(jù)創(chuàng)新3:可擴(kuò)展數(shù)據(jù)

零售商店安裝攝像頭,原用來防盜,,但也能跟蹤在商店里購物的客戶流和他們停留的位置,。這些信息可為零售商在設(shè)計店面的最佳布局并判斷營銷活動的有效性提供幫助。這就是“一份錢兩份貨”——如果以某種方式收集的單一數(shù)據(jù)集有多種不同的用途,,它就具有雙重功能,。

數(shù)據(jù)創(chuàng)新4:數(shù)據(jù)的折舊值

數(shù)據(jù)創(chuàng)新5:數(shù)據(jù)廢氣

數(shù)據(jù)再利用的方式可以很巧妙、很隱蔽,。網(wǎng)絡(luò)公司可以捕捉到用戶在其網(wǎng)絡(luò)上做的所有事情,,然后將每個離散交互當(dāng)作一個“信號”,作為網(wǎng)站個性化,、提高服務(wù)或創(chuàng)建全新數(shù)字化產(chǎn)品的反饋,。

一個用來描述人們在網(wǎng)上留下的數(shù)字軌跡的藝術(shù)詞匯出現(xiàn)了,這就是“數(shù)據(jù)廢氣”,。它是用戶在線交互的副產(chǎn)品,,包括瀏覽了哪些頁面、停留了多久,、鼠標(biāo)光標(biāo)停留的位置,、輸入了什么信息等。許多公司因此對系統(tǒng)進(jìn)行了設(shè)計,,使自己能夠得到數(shù)據(jù)廢氣并循環(huán)利用,,以改善現(xiàn)有的服務(wù)或開發(fā)新服務(wù)。谷歌不斷地“從數(shù)據(jù)中學(xué)習(xí)”的這個原則應(yīng)用到許多服務(wù)中,。用戶執(zhí)行的每一個動作都被認(rèn)為是一個“信號”,,谷歌對其進(jìn)行分析并反饋給系統(tǒng),。

【巴諾與NOOK快照】

電子書閱讀器捕捉了大量關(guān)于文學(xué)喜好和閱讀人群的數(shù)據(jù):讀者閱讀一頁或一節(jié)需要多長時間,讀者是略讀還是直接放棄閱讀,,讀者是否畫線強(qiáng)調(diào)或者在空白處做了筆記,,這些他們都會記錄下來。這就將閱讀這種長期被視為個人行為的動作轉(zhuǎn)換成了一種共同經(jīng)驗(yàn),。一旦聚集起來,,數(shù)據(jù)廢氣可以用理化的方式向出版商和作者展示一些他們可能永遠(yuǎn)都不會知道的信息,如讀者的好惡和閱讀模式,。這是十分具有商業(yè)價值的,。電子圖書出版公司可以將這些信息賣給出版商,從而幫助改進(jìn)書籍的內(nèi)容和結(jié)構(gòu),。例如,,巴諾通過分析NOOK電子閱讀器的數(shù)據(jù)了解到,人們往往會棄讀長篇的非小說類書籍,。公司從中受到啟發(fā),,從而推出“NOOK快照”,加入了一系列健康和時事等專題的短篇作品,。

數(shù)據(jù)創(chuàng)新6:開放數(shù)據(jù)

奧巴馬:“面對懷疑,,公開優(yōu)先?!?/span>

最近有一個想法得到公認(rèn),,即提取政府?dāng)?shù)據(jù)價值最好的辦法是允許私營部門和社會大眾訪問,。這其實(shí)是基于一個原則:國家收集數(shù)據(jù)時代表的是其公民,,因此它也理應(yīng)提供一個讓公民查看的入口,當(dāng)然可能危害到國家安全或他人隱私權(quán)的情況除外,。

這種想法讓“開放政府?dāng)?shù)據(jù)”的倡議響徹全球,。開放數(shù)據(jù)的倡導(dǎo)者主張,政府只是他們所收集信息的托管人,,私營部門和社會對數(shù)據(jù)的利用會比政府更具有創(chuàng)新性,。他們呼吁建立專門的官方機(jī)構(gòu)來公布民用和商業(yè)數(shù)據(jù);而且數(shù)據(jù)必須以標(biāo)準(zhǔn)的可機(jī)讀形式展現(xiàn),,以方便人們處理,。否則,信息公開只會是徒有虛名,。

世界銀行公開了數(shù)百個之前被限制的關(guān)于經(jīng)濟(jì)和社會指標(biāo)方面的數(shù)據(jù)集,。

06角色定位:數(shù)據(jù)、技術(shù)與思維的三足鼎立

大數(shù)據(jù)價值鏈的3大構(gòu)成:根據(jù)所提供價值的不同來源,,分別出現(xiàn)了三種大數(shù)據(jù)公司,。這三種來源是指,數(shù)據(jù)本身、技能與思維,。

第一種是基于數(shù)據(jù)本身的公司:這些公司擁有大量數(shù)據(jù)或者至少可以收集到大量數(shù)據(jù),,卻不一定有從數(shù)據(jù)中提取價值或者用數(shù)據(jù)催生創(chuàng)新思維的技能。如Twitter,。

第二種是基于技能的公司,。通常是咨詢公司、技術(shù)供應(yīng)商或者分析公司,。它們掌握了專業(yè)技能但并不一定擁有數(shù)據(jù)或提出數(shù)據(jù)創(chuàng)新性用途的才能,。

第三種是基于思維的公司。Jetpac通過用戶分享到網(wǎng)上的旅行照片來為人們推薦下次旅行的目的地,。對于某些公司來說,,數(shù)據(jù)和技能并不是成功的關(guān)鍵。讓這些公司脫穎而出的是其創(chuàng)始人和員工的創(chuàng)新思維,,他們有怎樣挖掘數(shù)據(jù)的新價值的獨(dú)特想法,。

近年來,一種新的職業(yè)出現(xiàn)了,,那就是“數(shù)據(jù)科學(xué)家”,。數(shù)據(jù)科學(xué)家是統(tǒng)計學(xué)家、軟件程序員,、圖形設(shè)計與作家的結(jié)合體,。與通過顯微鏡發(fā)現(xiàn)事物不同,數(shù)據(jù)科學(xué)家通過探尋數(shù)據(jù)庫來得到新的發(fā)現(xiàn),。全球知名咨詢管理公司麥肯錫,,就曾極端地預(yù)測數(shù)據(jù)科學(xué)家是當(dāng)今和未來稀缺的資源。

谷歌的首席經(jīng)濟(jì)學(xué)家哈爾·范里安認(rèn)為統(tǒng)計學(xué)家是世界上最棒的職業(yè),。他的這種說法非常著名,。“如果你想成功,,你不應(yīng)該成為一個普通的,、可被隨意替代的人,你應(yīng)該成為稀缺的,、不可替代的那類人,,”他還說,“數(shù)據(jù)非常之多而且具有戰(zhàn)略重要性,,但是真正缺少的是從數(shù)據(jù)中提取價值的能力,。這也是為什么統(tǒng)計學(xué)家、數(shù)據(jù)庫管理者和掌握機(jī)器理論的人是真正了不起的人,?!?/span>

數(shù)據(jù)才是最核心的部分,。要知道原因,就必須考慮到大數(shù)據(jù)價值鏈的各個部分,,以及它們會如何發(fā)展變化,。

所謂大數(shù)據(jù)思維,是指一種意識,,認(rèn)為公開的數(shù)據(jù)一旦處理得當(dāng)就能為千百萬人急需解決的問題提供答案,。

 

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多