數(shù)據(jù)之舞:大數(shù)據(jù)與數(shù)據(jù)挖掘(文/David J. TenenBaum)泄密者愛德華·斯諾登(Edward Snowden)還在尋求容身之所的時(shí)候,,美國國家安全局(NSA)全方位收集電話和電子郵件記錄之事經(jīng)過他的披露,已經(jīng)引發(fā)了不安和憤怒,。 奧巴馬當(dāng)局聲稱,,監(jiān)聽數(shù)據(jù)帶來了安全,然而左翼和右翼都在譴責(zé)這種窺探行為是對(duì)隱私的侵犯,。 數(shù)據(jù)不是信息,,而是有待理解的原材料。但有一件事是確定無疑的:當(dāng)NSA為了從其海量數(shù)據(jù)中“挖掘”出信息,,耗資數(shù)十億改善新手段時(shí),,它正受益于陡然降落的計(jì)算機(jī)存儲(chǔ)和處理價(jià)格。
數(shù)據(jù)挖掘這一術(shù)語含義廣泛,指代一些通常由軟件實(shí)現(xiàn)的機(jī)制,,目的是從巨量數(shù)據(jù)中提取出信息,。數(shù)據(jù)挖掘往往又被稱作算法。 威斯康星探索學(xué)院主任大衛(wèi)·克拉考爾(David Krakauer)說,,數(shù)據(jù)量的增長——以及提取信息的能力的提高——也在影響著科學(xué),。“計(jì)算機(jī)的處理能力和存儲(chǔ)空間在呈指數(shù)增長,成本卻在指數(shù)級(jí)下降,。從這個(gè)意義上來講,,很多科學(xué)研究如今也遵循摩爾定律?!?/p> 在2005年,,一塊1TB的硬盤價(jià)格大約為1,000美元,“但是現(xiàn)在一枚不到100美元的U盤就有那么大的容量,?!毖芯恐悄苎莼目死紶栒f?,F(xiàn)下關(guān)于大數(shù)據(jù)和數(shù)據(jù)挖掘的討論“之所以發(fā)生是因?yàn)槲覀冋幱隗@天動(dòng)地的變革當(dāng)中,,而且我們正以前所未有的方式感知它?!笨死瓌跔栒f,。 隨著我們通過電話、信用卡,、電子商務(wù),、互聯(lián)網(wǎng)和電子郵件留下更多的生活痕跡,大數(shù)據(jù)不斷增長的商業(yè)影響也在如下時(shí)刻表現(xiàn)出來:
大數(shù)據(jù)在看著你嗎,?除了安全和商業(yè),,大數(shù)據(jù)和數(shù)據(jù)挖掘在科研領(lǐng)域也正在風(fēng)起云涌。越來越多的設(shè)備帶著更加精密的傳感器,,傳回愈發(fā)難以駕馭的數(shù)據(jù)流,,于是人們需要日益強(qiáng)大的分析能力。在氣象學(xué),、石油勘探和天文學(xué)等領(lǐng)域,,數(shù)據(jù)量的井噴式增長對(duì)更高層次的分析和洞察提供了支持,甚至提出了要求,。 這幅2005年6月至2007年12月海洋表面洋流的示意圖集成了帶有數(shù)值模型的衛(wèi)星數(shù)據(jù)。漩渦和窄洋流在海洋中傳送熱量和碳,。海洋環(huán)流和氣候評(píng)估項(xiàng)目提供了所有深度的洋流,,但這里僅僅使用了表層洋流。這些示意圖用來測量海洋在全球碳循環(huán)中的作用,,并監(jiān)測地球系統(tǒng)的不同部分內(nèi)部及之間的熱量,、水和化學(xué)交換。 在醫(yī)學(xué)領(lǐng)域,,2003年算是大數(shù)據(jù)涌現(xiàn)過程中的一個(gè)里程碑,。那一年第一例人類基因組完成了測序。那次突破性的進(jìn)展之后,,數(shù)以千計(jì)人類,、靈長類、老鼠和細(xì)菌的基因組擴(kuò)充著人們所掌握的數(shù)據(jù),。每個(gè)基因組上有幾十億個(gè)“字母”,,計(jì)算時(shí)出現(xiàn)紕漏的危險(xiǎn),催生了生物信息學(xué),。這一學(xué)科借助軟件,、硬件以及復(fù)雜算法之力,支撐著新的科學(xué)類型,。 另一例生物信息學(xué)的應(yīng)用來自美國國家癌癥研究所,。該所的蘇珊·霍爾貝克(Susan Holbeck)在60種細(xì)胞系上測試了5000對(duì)美國食品和藥品管理局批準(zhǔn)的抗癌藥品。經(jīng)過30萬次試驗(yàn)之后,,霍爾貝克說:“我們知道每種細(xì)胞系里面每一條基因的RNA表達(dá)水平,。我們掌握了序列數(shù)據(jù),、蛋白質(zhì)數(shù)據(jù),以及微觀RNA表達(dá)的數(shù)據(jù),。我們可以取用所有這些數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,,看一看為什么一種細(xì)胞系對(duì)混合藥劑有良好的反應(yīng),而另一種沒有,。我們可以抽取一對(duì)觀察結(jié)果,,開發(fā)出合適的靶向藥品,并在臨床測試,?!?/p> 互聯(lián)網(wǎng)上的火眼金睛當(dāng)醫(yī)學(xué)家忙于應(yīng)對(duì)癌癥、細(xì)菌和病毒之時(shí),,互聯(lián)網(wǎng)上的政治言論已呈燎原之勢,。整個(gè)推特圈上每天要出現(xiàn)超過5億條推文,其政治影響力與日俱增,,使廉潔政府團(tuán)體面臨著數(shù)據(jù)挖掘技術(shù)帶來的巨大挑戰(zhàn),。 印第安納大學(xué)Truthy(意:可信)項(xiàng)目的目標(biāo)是從這種每日的信息泛濫中發(fā)掘出深層意義,博士后研究員埃米利奧·費(fèi)拉拉(Emilio Ferrara)說,。“Truthy是一種能讓研究者研究推特上信息擴(kuò)散的工具,。通過識(shí)別關(guān)鍵詞以及追蹤在線用戶的活動(dòng),,我們研究正在進(jìn)行的討論?!?/p> Truthy是由印第安納研究者菲爾·孟澤(Fil Menczer)和亞力桑德羅·弗拉米尼(Alessandro Flammini)開發(fā)的,。每一天,該項(xiàng)目的計(jì)算機(jī)過濾多達(dá)5千萬條推文,,試圖找出其中蘊(yùn)含的模式,。 一個(gè)主要的興趣點(diǎn)是“水軍”,,費(fèi)拉拉說:協(xié)調(diào)一致的造勢運(yùn)動(dòng)本應(yīng)來自草根階層,但實(shí)際上是由“熱衷傳播虛假信息的個(gè)人和組織”發(fā)起的,。 2012年美國大選期間,,一系列推文聲稱共和黨總統(tǒng)候選人米特·羅姆尼(Mitt Romney)在臉譜網(wǎng)上獲得了可疑的大批粉絲?!罢{(diào)查者發(fā)現(xiàn)共和黨人和民主黨人皆與此事無關(guān),。”費(fèi)拉拉說,“幕后另有主使,。這是一次旨在令人們相信羅姆尼在買粉從而抹黑他的造勢運(yùn)動(dòng),。” 水軍的造勢運(yùn)動(dòng)通常很有特點(diǎn),,費(fèi)拉拉說,。“要想發(fā)起一場大規(guī)模的抹黑運(yùn)動(dòng),,你需要很多推特賬號(hào),,”包括由程序自動(dòng)運(yùn)行、反復(fù)發(fā)布選定信息的假賬號(hào),?!拔覀兺ㄟ^分析推文的特征,能夠辨別出這種自動(dòng)行為,?!?/p> 推文的數(shù)量年復(fù)一年地倍增,有什么能夠保證線上政治的透明呢,?“我們這個(gè)項(xiàng)目的目的是讓技術(shù)掌握一點(diǎn)這樣的信息,。”費(fèi)拉拉說,,“找到一切是不可能的,,但哪怕我們能夠發(fā)現(xiàn)一點(diǎn),也比沒有強(qiáng),?!?/p> 頭腦里的大數(shù)據(jù)人腦是終極的計(jì)算機(jī)器,也是終極的大數(shù)據(jù)困境,,因?yàn)樵讵?dú)立的神經(jīng)元之間有無數(shù)可能的連接,。人類連接組項(xiàng)目是一項(xiàng)雄心勃勃地試圖繪制出不同腦區(qū)之間相互作用的計(jì)劃。 除了連接組,,還有很多充滿數(shù)據(jù)的“組”:
連接組項(xiàng)目的目標(biāo)是“從1,200位神經(jīng)健康的人身上收集先進(jìn)的神經(jīng)影像數(shù)據(jù),,以及認(rèn)知,、行為和人口數(shù)據(jù)”,圣路易斯市華盛頓大學(xué)的連接組項(xiàng)目辦事處的信息學(xué)主任丹尼爾·馬庫斯(Daniel Marcus)說,。 項(xiàng)目使用三種磁共振造影觀察腦的結(jié)構(gòu),、功能和連接。根據(jù)馬庫斯的預(yù)期,,兩年之后數(shù)據(jù)收集工作完成之時(shí),,連接組研究人員將埋首于大約100萬G數(shù)據(jù),。 繪制腦區(qū)分布圖的“分區(qū)”是一項(xiàng)關(guān)鍵的任務(wù),,這些腦區(qū)最早于兩到三世紀(jì)之前通過對(duì)少量大腦染色被識(shí)別出來?!拔覀儗碛?,200個(gè)人的數(shù)據(jù),,”馬庫斯說,“因此我們可以觀察個(gè)人之間腦區(qū)分布的差別,,以及腦區(qū)之間是如何關(guān)聯(lián)的,。” 為了識(shí)別腦區(qū)之間的連接,,馬庫斯說,,“我們?cè)谑茉囌咝菹r(shí)獲取的掃描圖中,觀察腦中的自發(fā)活動(dòng)在不同區(qū)域之間有何關(guān)聯(lián),?!北热纾绻麉^(qū)域A和區(qū)域B自發(fā)地以每秒18個(gè)周期的頻率產(chǎn)生腦波,,“這就說明它們處于同一網(wǎng)絡(luò)中,。”馬庫斯說,。“我們將利用整個(gè)大腦中的這些關(guān)聯(lián)數(shù)據(jù)創(chuàng)建一個(gè)表現(xiàn)出腦中的每一個(gè)點(diǎn)如何與其他每一個(gè)點(diǎn)關(guān)聯(lián)的矩陣,?!保ㄟ@些點(diǎn)將比磁共振成像無法“看到”的細(xì)胞大得多。) 星系動(dòng)物園:把天空轉(zhuǎn)包給大眾星系動(dòng)物園項(xiàng)目打破了大數(shù)據(jù)的規(guī)矩:它沒有對(duì)數(shù)據(jù)進(jìn)行大規(guī)模的計(jì)算機(jī)數(shù)據(jù)挖掘,,而是把圖像交給活躍的志愿者,,由他們對(duì)星系做基礎(chǔ)性的分類。該項(xiàng)目2007年啟動(dòng)于英國牛津,,當(dāng)時(shí)天文學(xué)家凱文·沙文斯基(Kevin Schawinski)剛剛蹬著眼睛瞧完了斯隆數(shù)字巡天計(jì)劃拍攝的5萬張圖片,。 阿拉巴馬大學(xué)天文學(xué)教授、星系動(dòng)物園科學(xué)團(tuán)隊(duì)成員威廉·基爾(William Keel)說,,沙文斯基的導(dǎo)師建議他完成95萬張圖像,。“他的眼睛累得快要掉出眼窩了,,便去了一家酒館,。他在那里遇到了克里斯·林托特(Chris Lintott),。兩人以經(jīng)典的方式,在一張餐巾的背面畫出了星系動(dòng)物園的網(wǎng)絡(luò)結(jié)構(gòu),?!?/p> 星系是一個(gè)經(jīng)典的大數(shù)據(jù)問題:一臺(tái)最先進(jìn)的望遠(yuǎn)鏡掃描整個(gè)天空,可能會(huì)看到2000億個(gè)這樣的恒星世界,。然而,,“一系列與宇宙學(xué)和星系統(tǒng)計(jì)學(xué)相關(guān)的問題可以通過讓許多人做相當(dāng)簡單的分類工作得以解決?!被鶢栒f,,“五分鐘的輔導(dǎo)過后,分類便是一項(xiàng)瑣碎的工作,,直到今日也并不適合以算法實(shí)現(xiàn),。” 星系動(dòng)物園的啟動(dòng)相當(dāng)成功,,用戶流量讓一臺(tái)服務(wù)器癱瘓了,,基爾說。 斯隆巡天的全部95萬張圖片平均每張被看過60次之后,,動(dòng)物園的管理者們轉(zhuǎn)向了更大規(guī)模的巡天數(shù)據(jù),。科學(xué)受益匪淺,,基爾說,。“我的很多重要成果都來自人們發(fā)現(xiàn)的奇怪物體,,”包括背光星系,。 星系動(dòng)物園依賴統(tǒng)計(jì)學(xué)、眾多觀察者以及處理,、檢查數(shù)據(jù)的邏輯,。假如觀察某個(gè)特定星系的人增加時(shí),而認(rèn)為它是橢圓星系的人數(shù)比例保持不變,,這個(gè)星系就不必再被觀察了,。 然而,對(duì)一些稀有的物體,,基爾說,,“你可能需要40至50名觀察者,。” 大眾科學(xué)正在發(fā)展自己的法則,,基爾補(bǔ)充道,。志愿者們的工作“已經(jīng)對(duì)一個(gè)真實(shí)存在的重大問題做出了貢獻(xiàn),是現(xiàn)存的任何軟件都無法實(shí)現(xiàn)的,。鼠標(biāo)的點(diǎn)擊不該被浪費(fèi),。” 這種動(dòng)物園方法在zooniverse.org 網(wǎng)站上得到了復(fù)制和優(yōu)化,。這是一個(gè)運(yùn)行著大約20項(xiàng)目的機(jī)構(gòu),,這些項(xiàng)目的處理對(duì)象包括熱帶氣旋、火星表面和船只航行日志上的氣象數(shù)據(jù),。 最終,,軟件可能會(huì)取代志愿者,基爾說,。但是計(jì)算機(jī)和人類之間的界線是可互換的,。比如說超新星動(dòng)物園項(xiàng)目在軟件學(xué)會(huì)了任務(wù)之后就關(guān)閉了。 我們驚訝地得知志愿者們積累的龐大數(shù)據(jù)是計(jì)算機(jī)學(xué)習(xí)分類的理想材料,?!耙恍┬窍祫?dòng)物園用戶真的很反感這一點(diǎn)?!被鶢栒f,,“他們對(duì)于自己的點(diǎn)擊被用來訓(xùn)練軟件表達(dá)出明顯的怨恨。但是我們說,,不要浪費(fèi)點(diǎn)擊,。如果某人帶來了同樣有效的新算法,人們就不必做那些事情了,?!?/p> 學(xué)習(xí)的渴望人們長久以來改進(jìn)對(duì)圖像和語音的模式識(shí)別的努力已經(jīng)受益于更多的訓(xùn)練,威斯康星大學(xué)麥迪遜分校的克拉考爾說,。“它不僅僅是有所改善,,更是有了實(shí)際的效果,。5到10年之前,iPhone上的Siri是個(gè)想都不敢想的點(diǎn)子,,語音識(shí)別一塌糊涂?,F(xiàn)在我們擁有了這樣一批龐大的數(shù)據(jù)來訓(xùn)練算法,忽然之間它們就管用了,?!?/p> 等到處理能力一次相對(duì)較小的改變令結(jié)果出現(xiàn)突破性的進(jìn)展,,克拉考爾補(bǔ)充道,,大數(shù)據(jù)的應(yīng)用可能會(huì)經(jīng)歷一次“相變”。 “大數(shù)據(jù)”是一個(gè)相對(duì)的說法,,不是絕對(duì)的,,克拉考爾指出?!按髷?shù)據(jù)可以被視作一種比率—我們能計(jì)算的數(shù)據(jù)比上我們必須計(jì)算的數(shù)據(jù),。大數(shù)據(jù)一直存在。如果你想一下收集行星位置數(shù)據(jù)的丹麥天文學(xué)家第谷·布拉赫(Tycho Brahe,,1546 - 1601),,當(dāng)時(shí)還沒有解釋行星運(yùn)動(dòng)的開普勒理論,因此這個(gè)比率是歪曲的,。這是那個(gè)年代的大數(shù)據(jù),。” 大數(shù)據(jù)成為問題“是在技術(shù)允許我們收集和存儲(chǔ)的數(shù)據(jù)超過了我們對(duì)系統(tǒng)精推細(xì)研的能力之后,?!笨死紶栒f。 我們好奇,,當(dāng)軟件繼續(xù)在大到無法想象的數(shù)據(jù)庫上執(zhí)行復(fù)雜計(jì)算,,以此為基礎(chǔ)在科學(xué)、商業(yè)和安全領(lǐng)域制定決策,,我們是不是把過多的權(quán)力交給了機(jī)器,。在我們無法覷探之處,決策在沒人理解輸入與輸出,、數(shù)據(jù)與決策之間的關(guān)系的情況下被自動(dòng)做出,。“這正是我所從事的領(lǐng)域,,”克拉考爾回應(yīng)道,,“我的研究對(duì)象是宇宙中的智能演化,從大爆炸到大腦,。我毫不懷疑你說的,?!?/p> |
|