本文首發(fā)于微信公眾號(hào) 極簡(jiǎn)經(jīng)濟(jì)學(xué) ,歡迎關(guān)注 “小試牛刀”的大數(shù)據(jù) 2009年甲型H1N1病毒在幾周之內(nèi)迅速傳播,,由于沒有新型流感病毒的疫苗,,公共衛(wèi)生專家只能減慢病毒的傳播速度,但這一努力卻被嚴(yán)重滯后的信息系統(tǒng)拖累,。美國要求醫(yī)生在發(fā)現(xiàn)新型流感病例時(shí)告知疾病控制與預(yù)防中心,。但人們可能患病多日才去醫(yī)院,信息傳回疾控中心也需時(shí)間,,這導(dǎo)致通報(bào)新流感病例有一兩周的延遲,。 就在千鈞一發(fā)實(shí)際,“外行”谷歌挺身而出。谷歌員工猜測(cè)網(wǎng)民輸入特定的檢索詞是為了在網(wǎng)絡(luò)上得到關(guān)于流感的信息,,他們?cè)O(shè)立的系統(tǒng)關(guān)注特定檢索詞條的使用頻率與流感在時(shí)間和空間傳播之間的聯(lián)系,。谷歌保存網(wǎng)民多年來所有的搜索記錄和每天新增的搜索指令,谷歌共處理4.5億個(gè)不同的數(shù)學(xué)模型,,以測(cè)試這些檢索詞條的“可信度”,。谷歌將得出的預(yù)測(cè)與美國疾控中心記錄的2007年和2008年實(shí)際流感病例進(jìn)行對(duì)比后發(fā)現(xiàn)了45條檢索詞條的組合,一旦將它們用于一個(gè)數(shù)學(xué)模型,,他們的預(yù)測(cè)與官方數(shù)據(jù)的相關(guān)性高達(dá)97%,。谷歌成為一個(gè)更有效、更及時(shí)的指標(biāo),,公共衛(wèi)生機(jī)構(gòu)的官員獲得了非常有價(jià)值的數(shù)據(jù)信息,。 令人驚嘆的不僅是谷歌預(yù)測(cè)的準(zhǔn)確性和速度,更是谷歌預(yù)測(cè)的方式,,它不是分發(fā)口腔試紙和聯(lián)系醫(yī)生,,而是海量網(wǎng)民的檢索詞與流感之間的“相關(guān)性”。谷歌顛覆了我們傳統(tǒng)認(rèn)知世界的方式,,它通過對(duì)海量數(shù)據(jù)進(jìn)行分析,,獲得了深刻的洞見。 小數(shù)據(jù)與統(tǒng)計(jì)學(xué) 古代美索不達(dá)米亞平原的記賬人員為了有效記錄信息發(fā)明了書寫,。公元前8000年,,蘇美爾商人用黏土珠記錄出售的商品。自圣經(jīng)時(shí)代開始,,政府通過人口普查建立大型國民數(shù)據(jù)庫。古埃及和古羅馬的奧古斯都,、凱撒都進(jìn)行過人口普查,,1086年的《末日審判書》對(duì)當(dāng)時(shí)英國的人口、土地和財(cái)產(chǎn)做了一個(gè)前所未有的全面記載,。雖然人口普查花費(fèi)了大量時(shí)間和金錢,,但數(shù)據(jù)的準(zhǔn)確性性仍難以保證,“人口普查”這個(gè)詞來源于拉丁語的“censere”,,意思就是推測(cè),、估算。 1662年英國人約翰·格朗特在《關(guān)于死亡率的自然觀察和政治觀察》中利用教區(qū)死亡記錄數(shù)據(jù)來估計(jì)倫敦的人口,,每年倫敦大約有13000葬禮,,每十一個(gè)家庭平均每年3人死亡,家庭平均8個(gè)人,,因此當(dāng)時(shí)倫敦的人口數(shù)量約為384000,。格朗特利用少量有用的樣本信息來獲取人口的整體情況,開啟了統(tǒng)計(jì)學(xué)之門,。 當(dāng)眾多的數(shù)據(jù)遇上有限的處理能力,,用較少的數(shù)據(jù)證實(shí)較為重大的發(fā)現(xiàn)成為人們認(rèn)識(shí)世界的“次優(yōu)選擇”,,也成為統(tǒng)計(jì)學(xué)的使命,隨機(jī)抽樣和精確性成了實(shí)現(xiàn)這一使命的基石,。 隨機(jī)抽樣 人們非常想利用所有數(shù)據(jù)分析問題,,但當(dāng)數(shù)量無比龐大時(shí),“以小見大”是現(xiàn)實(shí)選擇,。那么,,如何選擇“小”呢?有人提出通過有目的地選擇最具代表的樣本來“擇小”,,1934年波蘭統(tǒng)計(jì)學(xué)家耶日·奈曼指出這會(huì)導(dǎo)致更多更大的漏洞,。統(tǒng)計(jì)學(xué)家研究證明抽樣分析的精確性隨著抽樣隨機(jī)性的增加而大幅提高,與增加樣本數(shù)量關(guān)系不大,。這意味著我們可以通過隨機(jī)抽樣用較少的代價(jià)做出高精準(zhǔn)度的推斷,。19世紀(jì)以來隨機(jī)抽樣從人口普查推廣至商品質(zhì)量監(jiān)督、客戶調(diào)查及選民滿意度調(diào)查等諸多領(lǐng)域,,成為現(xiàn)代測(cè)量領(lǐng)域的主心骨,。 誤差 當(dāng)測(cè)量事物能力受限時(shí),人們會(huì)關(guān)注最重要的數(shù)據(jù)以獲取最精確的結(jié)果,。減少錯(cuò)誤,,保證質(zhì)量是“小數(shù)據(jù)”條件下搜集數(shù)據(jù)最基本、最重要的要求,。對(duì)精確度的高要求始于13世紀(jì)中期的歐洲,,天文學(xué)家對(duì)時(shí)間、空間的研究采取了比以往更為精確的量化方式,,后來測(cè)量方法逐漸被運(yùn)用到科學(xué)觀察與解釋方法中,。19世紀(jì)法國開發(fā)了一套能準(zhǔn)確計(jì)量時(shí)間、空間單位的系統(tǒng),,這套系統(tǒng)奠定了后來國際公認(rèn)的測(cè)量條約的基礎(chǔ),。雖然量子力學(xué)永遠(yuǎn)粉碎了“測(cè)量臻于至善”的幻夢(mèng),但物理學(xué)以外的測(cè)量工程師和科學(xué)家仍沉湎于完美測(cè)量,,商界則更加崇尚這種思想,。 大數(shù)據(jù)何以從理想變?yōu)楝F(xiàn)實(shí) 數(shù)據(jù)(data)在拉丁文里的意思是“已知”,數(shù)據(jù)是對(duì)事物的描述,。記錄數(shù)據(jù)能力的增強(qiáng)既是人類文明進(jìn)步的結(jié)果,,也是人類文明的推進(jìn)器。 公元前3000年美索不達(dá)米亞平人書寫的發(fā)展催生了記錄生產(chǎn)和交易的精確方法,,人類計(jì)量的范圍也慢慢從長度,、重量擴(kuò)展至面積、體積和時(shí)間。但早期的計(jì)量方法不適合計(jì)算,,沒有以10為底記數(shù)制的羅馬數(shù)字系統(tǒng)難以進(jìn)行乘除計(jì)算,。 公元1世紀(jì)印度發(fā)明了自己的數(shù)字系統(tǒng),后經(jīng)由阿拉伯人改進(jìn),,形成了阿拉伯?dāng)?shù)字的前身,。公元1000年教皇西爾維斯特二世倡導(dǎo)使用阿拉伯?dāng)?shù)字,12世紀(jì)阿拉伯?dāng)?shù)字傳播到整個(gè)歐洲,,復(fù)式記賬法的出現(xiàn)和推廣讓阿拉伯?dāng)?shù)字在16世紀(jì)晚期被廣泛采用,。 隨著數(shù)據(jù)記錄的發(fā)展,人類渴望能更精準(zhǔn)地記錄時(shí)間,、距離,、地點(diǎn)、體積和重量等,,19世紀(jì)科學(xué)家們發(fā)明了測(cè)量和記錄電流,、氣壓、溫度,、聲頻等自然科學(xué)現(xiàn)象的新工具,。 新工具和開放的思維促進(jìn)了測(cè)量事物和記錄數(shù)據(jù)的繁榮,但是在模擬時(shí)代離現(xiàn)代數(shù)據(jù)化還有不小的差距,。隨著人類文明的飛速發(fā)展,,信息爆炸日趨膨脹,不管是信息總量還是信息增長速度都呈現(xiàn)加速增長的態(tài)勢(shì),。與此同時(shí),,以計(jì)算機(jī)、感應(yīng)器,、各種數(shù)據(jù)采集終端,、互聯(lián)網(wǎng)乃至移動(dòng)互聯(lián)網(wǎng)的出現(xiàn)和發(fā)展使得大數(shù)據(jù)的記錄和處理成為可能。信息爆炸和數(shù)據(jù)處理能力的迅速發(fā)展,,大數(shù)據(jù)幾乎涉及到人類生活的每個(gè)領(lǐng)域,。 大數(shù)據(jù)下思維方式的轉(zhuǎn)變 從隨機(jī)樣本,,到全體數(shù)據(jù) 大數(shù)據(jù)不用隨機(jī)抽樣而采用所有數(shù)據(jù)來認(rèn)知世界,。如果要評(píng)價(jià)一首歌是否好聽,隨機(jī)抽樣會(huì)“隨機(jī)”抽取若干段以做出判斷,,這種方法的優(yōu)點(diǎn)在于成本低,、可行性強(qiáng),但隨機(jī)抽樣會(huì)失去很多細(xì)節(jié)信息,、甚至?xí)z漏關(guān)鍵性信息,,無法形成對(duì)這首歌的“整體性”判斷。若進(jìn)行大數(shù)據(jù)分析,我們聽完這首歌再做判斷,,可以在更寬廣的范圍進(jìn)行“比較,,這樣的結(jié)論不僅可信度更高,而且還會(huì)得出一些有價(jià)值的新結(jié)論,。谷歌流感趨勢(shì)預(yù)測(cè)不是依賴于分析隨機(jī)樣本,,而是分析了整個(gè)美國幾十億條檢索記錄,這可以提高微觀層面分析的準(zhǔn)確性,,甚至能推測(cè)出某個(gè)特定城市的流感狀況,。只有掌握所有數(shù)據(jù),通過將正常交易與異常情況進(jìn)行比較才可以識(shí)別信用卡詐騙,。 從精確性,,到混雜性 傳統(tǒng)分析師一生都在研究如何防止和避免出現(xiàn)錯(cuò)誤,所以他們很難容忍錯(cuò)誤數(shù)據(jù),。采集樣本時(shí),,統(tǒng)計(jì)學(xué)家會(huì)用各種策略減少錯(cuò)誤發(fā)生的概率。公布結(jié)果之前,,他們會(huì)測(cè)試樣本是否存在潛在的系統(tǒng)性偏差,。 大數(shù)據(jù)時(shí)代我們需要重新審視精確性。假設(shè)要測(cè)量一個(gè)葡萄園的溫度,,但整個(gè)葡萄園只有一個(gè)溫度計(jì),,那必須確保這個(gè)溫度計(jì)精確而且能一直工作。如果每100棵葡萄樹就有一個(gè)溫度計(jì),,有些數(shù)據(jù)可能會(huì)錯(cuò),,也可能更加混亂。如果每分鐘測(cè)量一下溫度,,測(cè)量結(jié)果按照時(shí)間排列,。如果每分鐘測(cè)量十次甚至百次,不僅讀數(shù)可能出錯(cuò),,連時(shí)間先后都可能搞混掉,。 在第一種情形中,為獲得更廣泛的數(shù)據(jù)犧牲了精確性,,但看到了如若不然無法被關(guān)注到的諸多細(xì)節(jié),。在第二種情形中,為高頻率放棄了精確性,,結(jié)果觀察到了可能被錯(cuò)過的變化,。 寬容混雜和不精確意味著我們可以獲得更多的數(shù)據(jù),這可以讓我們用“數(shù)量優(yōu)勢(shì)”來替代“智力優(yōu)勢(shì)”以更好地認(rèn)識(shí)世界,。2000年微軟研究中心的米歇爾·班科和埃里克·布里爾一直在尋求改進(jìn)word程序中語法檢查的方法,。但他們不能確定是努力改進(jìn)現(xiàn)有算法,、研發(fā)新方法,還是添加更加細(xì)膩精致的特點(diǎn)更有效,。在實(shí)施這些措施之前,,他們決定往現(xiàn)有算法中添加更多數(shù)據(jù)。他們發(fā)現(xiàn)當(dāng)數(shù)據(jù)為500萬時(shí),,有一種簡(jiǎn)單的算法表現(xiàn)很差,,當(dāng)數(shù)據(jù)達(dá)10億時(shí)表現(xiàn)最好,準(zhǔn)確率從75%增至95%以上,。少量數(shù)據(jù)運(yùn)行得最好的算法,,加入更多數(shù)據(jù)時(shí),準(zhǔn)確率只從86%增至94%,。 依賴于混雜性而產(chǎn)生的“標(biāo)簽”讓我們可以更有效地對(duì)海量信息進(jìn)行檢索,。分類和索引是人們?cè)凇靶?shù)據(jù)”時(shí)代存儲(chǔ)和檢索數(shù)據(jù)的有效手段,但如果我們想為擁有數(shù)十億張照片的社交網(wǎng)站建立索引就顯得毫無意義,。那么,,我們?nèi)绾卧诤A啃畔⒅羞M(jìn)行檢索?當(dāng)上傳照片時(shí),,人們用自己的方式創(chuàng)造和使用標(biāo)簽,,這些標(biāo)簽沒有標(biāo)準(zhǔn)和預(yù)先設(shè)定的分類。任何人都可以輸入新的標(biāo)簽,,標(biāo)簽成為網(wǎng)絡(luò)資源的分類標(biāo)準(zhǔn),。標(biāo)簽被廣泛地應(yīng)用于facebook、博客等社交網(wǎng)絡(luò)上,。因?yàn)樗鼈兊拇嬖?,文本資源和圖片、視頻和音樂等非文本類資源更容易在互聯(lián)網(wǎng)上被檢索到,。 從因果關(guān)系,,到相關(guān)關(guān)系 2002年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾·卡尼曼指出人有快思維和慢思維兩種思維模式。平時(shí)生活的惰性,,當(dāng)看到兩件事情接連發(fā)生,,人們更偏愛以因果關(guān)系來看待一切的快思維模式,我們甚至?xí)芟氤鲆蚬P(guān)系,。父母經(jīng)常告訴孩子天冷時(shí)不戴帽子和手套就會(huì)感冒,,事實(shí)上,感冒和穿戴之間沒有直接聯(lián)系,。 相關(guān)關(guān)系是比因果關(guān)系更“弱”的關(guān)系,,因果關(guān)系一定是相關(guān)關(guān)系,,但相關(guān)關(guān)系不一定是因果關(guān)系,。沃爾瑪研究交易記錄發(fā)現(xiàn),,當(dāng)季節(jié)性颶風(fēng)來臨時(shí),颶風(fēng)用品銷量會(huì)增加,,同時(shí)蛋撻銷量也會(huì)增加,。我們可以說,颶風(fēng)來臨與颶風(fēng)用品銷量增加之間是因果關(guān)系,,但颶風(fēng)來臨與蛋撻銷量增加之間不是因果關(guān)系,,而是相關(guān)關(guān)系。 雖然相關(guān)關(guān)系貌似沒有因果關(guān)系更有說服力,,但相關(guān)關(guān)系卻給我們開啟了另一扇了解世界之門,。相關(guān)關(guān)系不關(guān)注“X是Y的原因”,關(guān)注“X和Y一起發(fā)生”,。相關(guān)分析不能準(zhǔn)確告知我們某件事情為何發(fā)生,,但它提醒我們這件事情正在發(fā)生。沃爾瑪不知道颶風(fēng)來臨時(shí)蛋撻銷量增加增加的原因,,但當(dāng)颶風(fēng)來臨時(shí)將蛋撻和颶風(fēng)用品放在一起,,沃爾瑪就可以獲得更多的利潤,這就足夠了,。 計(jì)算能力不足導(dǎo)致小數(shù)據(jù)時(shí)代的大部分相關(guān)分析僅限于尋求線性關(guān)系,,實(shí)際上有很多變量之間的關(guān)系是非線性關(guān)系。比如,,一開始消費(fèi)支出隨著收入的增加而增加,,當(dāng)收入達(dá)到一定水平之后,消費(fèi)支出并沒有隨著收入增加而增加反而保持不變,,當(dāng)收入高于某個(gè)水平之后,,消費(fèi)支出隨著收入的增加呈現(xiàn)加速增加的趨勢(shì)。 諸多飛速發(fā)展的新技術(shù)和新軟件從多方面提高了相關(guān)關(guān)系分析工具發(fā)現(xiàn)非因果關(guān)系的能力,。大數(shù)據(jù)時(shí)代不斷涌現(xiàn)的工具和思路為我們提供了一系列新的視野和有用的預(yù)測(cè),,我們看到了很多以前不曾注意到的聯(lián)系,掌握了以前無法理解的復(fù)雜技術(shù)和社會(huì)動(dòng)態(tài),。 除此之外,, 相關(guān)關(guān)系分析有助于進(jìn)一步深化因果關(guān)系的探究。通過找出可能相關(guān)的事物,,我們可以進(jìn)一步的因果關(guān)系分析,,如果存在因果關(guān)系的話,我們?cè)龠M(jìn)一步找出原因,。這種便捷的機(jī)制通過嚴(yán)格的實(shí)驗(yàn)降低了因果分析的成本,。 神奇的算命術(shù) 美國折扣零售商塔吉特的分析團(tuán)隊(duì)查看了簽署嬰兒禮物登記簿的女性的消費(fèi)記錄,發(fā)現(xiàn)登記簿上的婦女會(huì)在懷孕大概第三個(gè)月的時(shí)候買很多無香乳液,,幾個(gè)月之后她們會(huì)買一些鎂,、鈣,、鋅等營養(yǎng)品。公司最終找出了大概20多種關(guān)聯(lián)物,,這些關(guān)聯(lián)物可以給顧客進(jìn)行“懷孕趨勢(shì)”評(píng)分,。這些相關(guān)關(guān)系使得零售商能夠比較準(zhǔn)確地預(yù)測(cè)預(yù)產(chǎn)期,這樣就能夠在孕期的每個(gè)階段給客戶寄送相應(yīng)的優(yōu)惠券,。 一天,,一個(gè)男人沖進(jìn)一家位于明尼阿波利斯市郊的塔吉特商店,要求經(jīng)理出來見他,。他氣憤地說:“我女兒還是高中生,,你們卻給她郵寄嬰兒服和嬰兒床的優(yōu)惠券,你們是在鼓勵(lì)她懷孕嗎,?”而當(dāng)幾天后,,經(jīng)理打電話向這個(gè)男人致歉時(shí),這個(gè)男人的語氣變得平和起來,。他說:“我跟我的女兒談過了,,她的預(yù)產(chǎn)期是8月份,是我完全沒有意識(shí)到這個(gè)事情的發(fā)生,,應(yīng)該說抱歉的人是我,。” 本文由維克托.邁爾-舍恩伯格,、肯尼思.庫克耶所著《大數(shù)據(jù)時(shí)代:生活,、工作和思維的大變革》整理編輯而來。 |
|