——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考 近年來,,大數(shù)據(jù)引起了產(chǎn)業(yè)界,、科技界和政府部門的高度關(guān)注。2012年3月22日,,奧巴馬宣布美國政府投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃(Big Data Research and Development Initiatives)”,。這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發(fā)展部署。美國政府認(rèn)為,,大數(shù)據(jù)是“未來的新石油”,,并將對大數(shù)據(jù)的研究上升為國家意志,這對未來的科技與經(jīng)濟(jì)發(fā)展必將帶來深遠(yuǎn)影響,。 1.何謂大數(shù)據(jù) 人,、機(jī)、物三元世界的高度融合引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長和數(shù)據(jù)模式的高度復(fù)雜化,,世界已進(jìn)入網(wǎng)絡(luò)化的大數(shù)據(jù)(Big Data)時代”,。以數(shù)據(jù)為中心的傳統(tǒng)學(xué)科(如基因組學(xué)、蛋白組學(xué),,天體物理學(xué)和腦科學(xué)等)的研究產(chǎn)生了越來越多的數(shù)據(jù),。例如,用電子顯微鏡重建大腦中的突觸網(wǎng)絡(luò),,1立方毫米大腦的圖像數(shù)據(jù)就超過1PB,。但近年來大數(shù)據(jù)的飆升主要還是來自日常生活,特別是互聯(lián)網(wǎng)公司的服務(wù),。據(jù)著名咨詢公司IDC的統(tǒng)計,,2011年全球被創(chuàng)建和復(fù)制的數(shù)據(jù)總量為1.8ZB(10的21次方),其中75%來自于個人(主要是圖片,、視頻和音樂),,遠(yuǎn)遠(yuǎn)超過人類有史以來所有印刷材料的數(shù)據(jù)總量(200PB)。Google公司通過大規(guī)模集群和MapReduce軟件,,每月處理的數(shù)據(jù)量超過400PB,;百度每天大約要處理幾十PB數(shù)據(jù),;Facebook注冊用戶超過10億,每月上傳的照片超過10億張,,每天生成300TB以上的日志數(shù)據(jù),;淘寶網(wǎng)會員超過3.7億,在線商品超過8.8億,,每天交易數(shù)千萬筆,,產(chǎn)生約20TB數(shù)據(jù)。傳感網(wǎng)和物聯(lián)網(wǎng)的蓬勃發(fā)展是大數(shù)據(jù)的又一推動力,,各個城市的視頻監(jiān)控每時每刻都在采集巨量的流媒體數(shù)據(jù)。工業(yè)設(shè)備的監(jiān)控也是大數(shù)據(jù)的重要來源,。例如,,勞斯萊斯公司對全世界數(shù)以萬計的飛機(jī)引擎進(jìn)行實(shí)時監(jiān)控,每年傳送PB數(shù)量級的數(shù)據(jù),。 一般意義上,,大數(shù)據(jù)是指無法在可容忍的時間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對其進(jìn)行感知、獲取,、管理,、處理和服務(wù)的數(shù)據(jù)集合。大數(shù)據(jù)的特點(diǎn)可以總結(jié)為4個V,,即Volume(體量浩大),、Variety(模態(tài)繁多)、Velocity(生成快速)和Value(價值巨大但密度很低),。首先,,數(shù)據(jù)集合的規(guī)模不斷擴(kuò)大,已從GB到TB再到PB級,,甚至開始以EB和ZB來計數(shù),。IDC的研究報告稱,未來10年全球大數(shù)據(jù)將增加50倍,,管理數(shù)據(jù)倉庫的服務(wù)器數(shù)量將增加10倍,。其次,大數(shù)據(jù)類型繁多,,包括結(jié)構(gòu)化數(shù)據(jù),、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。現(xiàn)代互聯(lián)網(wǎng)應(yīng)用呈現(xiàn)出非結(jié)構(gòu)化數(shù)據(jù)大幅增長的特點(diǎn),,至2012年末,,非結(jié)構(gòu)化數(shù)據(jù)占有比例將達(dá)到整個數(shù)據(jù)量的75%以上。同時,,山于數(shù)據(jù)顯性或隱性的網(wǎng)絡(luò)化存在,,使得數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)無所不在,。再次,大數(shù)據(jù)往往以數(shù)據(jù)流的形式動態(tài),、快速地產(chǎn)生,,具有很強(qiáng)的時效性,用戶只有把握好對數(shù)據(jù)流的掌控才能有效利用這些數(shù)據(jù),。另外,,數(shù)據(jù)自身的狀態(tài)與價值也往往隨時空變化而發(fā)生演變,數(shù)據(jù)的涌現(xiàn)特征明顯,。最后,,雖然數(shù)據(jù)的價值巨大,但是基于傳統(tǒng)思維與技術(shù),,人們在實(shí)際環(huán)境中往往面臨信息泛濫而知識匱乏的窘態(tài),,大數(shù)據(jù)的價值利用密度低。 2.人數(shù)據(jù)已引起高度關(guān)注 毫無疑問,,大數(shù)據(jù)隱含著巨大的社會,、經(jīng)濟(jì)、科研價值,,已引起了各行各業(yè)的高度重視,。如果能有效地組織和使用大數(shù)據(jù),將對社會經(jīng)濟(jì)和科學(xué)研究發(fā)展產(chǎn)生巨大的推動作用,,同時也孕育著前所末有的機(jī)遇,。著名的O'Reilly公司斷言:“數(shù)據(jù)是下一個‘Intel Inside’,末來屬于將數(shù)據(jù)轉(zhuǎn)換成產(chǎn)品的公司和人們,?!?/P> IBM、Oracle,、Microsoft,、Google、Amazon,、Facebook等跨國巨頭是發(fā)展大數(shù)據(jù)處理技術(shù)的主要推動者,。自2005年以來,IBM投資160億美元進(jìn)行了30次與大數(shù)據(jù)有關(guān)的收購,,促使其業(yè)績穩(wěn)定高速增長,。2012年,IBM股價突破200美元大關(guān),,3年之內(nèi)股價翻了3倍,。華爾街早就開始招聘精通數(shù)據(jù)分析的天文學(xué)家和理論數(shù)學(xué)家來設(shè)計金融產(chǎn)品。IBM現(xiàn)在是全球數(shù)學(xué)博士的最大雇主,,數(shù)學(xué)家正在將其數(shù)據(jù)分析的才能應(yīng)用于石油勘探,、醫(yī)療健康等各個領(lǐng)域,。eBay通過數(shù)據(jù)挖掘可精確計算出廣告中的每一個關(guān)鍵字為公司帶來的回報。通過對廣告投放的優(yōu)化,,2007年以來eBay產(chǎn)品銷售的廣告費(fèi)降低了99%,,而頂級賣家占總銷售額的百分比卻上升至32%。目前推動大數(shù)據(jù)研究的動力主要是企業(yè)經(jīng)濟(jì)效益,,巨大的經(jīng)濟(jì)利益驅(qū)使大企業(yè)不斷擴(kuò)大數(shù)據(jù)處理規(guī)模,。 近幾年,Nature和Science等國際頂級學(xué)術(shù)刊物相繼出版??瘉韺iT探討對大數(shù)據(jù)的研究,。2008年Nature出版專刊“Big Data”,,從互聯(lián)網(wǎng)技術(shù),、網(wǎng)絡(luò)經(jīng)濟(jì)學(xué)、超級計算,、環(huán)境科學(xué)、生物醫(yī)藥等多個方面介紹了海量數(shù)據(jù)帶來的挑戰(zhàn),。2011年Science推出關(guān)于數(shù)據(jù)處理的??癉ealing with data”,討論了數(shù)據(jù)洪流(Data Deluge)所帶來的挑戰(zhàn),,特別指出,,倘若能夠更有效地組織和使用這些數(shù)據(jù),人們將得到更多的機(jī)會發(fā)揮科學(xué)技術(shù)對社會發(fā)展的巨大推動作用,。2012年4月歐洲信息學(xué)與數(shù)學(xué)研究協(xié)會會刊ERCIM News出版??癇igData”,討論了大數(shù)據(jù)時代的數(shù)據(jù)管理,、數(shù)據(jù)密集型研究的創(chuàng)新技術(shù)等問題,,并介紹了歐洲科研機(jī)構(gòu)開展的研究活動和取得的創(chuàng)新性進(jìn)展。在這樣的大背景下,,2012年5月,,香山科學(xué)會議組織了以“大數(shù)據(jù)科學(xué)與工程——一門新興的交叉學(xué)科?”為主題的第424次學(xué)術(shù)討論會,來自國內(nèi)外35個單位橫跨IT,、經(jīng)濟(jì),、管理、社會,、生物等多個不同學(xué)科領(lǐng)域的43位專家代表參會,,并就大數(shù)據(jù)的理論與工程技術(shù)研究、應(yīng)用方向以及大數(shù)據(jù)研究的組織方式與資源支持形式等重要問題進(jìn)行了深入討論,。6月,,中國計算機(jī)學(xué)會青年計算機(jī)科技論壇(CCF YOCSEF)舉辦了“大數(shù)據(jù)時代,,智謀未來”學(xué)術(shù)報告會,就大數(shù)據(jù)時代的數(shù)據(jù)挖掘,、體系架構(gòu)理論,、大數(shù)據(jù)安全、大數(shù)據(jù)平臺開發(fā)與大數(shù)據(jù)現(xiàn)實(shí)案例進(jìn)行了全面的討論,??傮w而言,大數(shù)據(jù)技術(shù)及相應(yīng)的基礎(chǔ)研究已經(jīng)成為科技界的研究熱點(diǎn),,大數(shù)據(jù)科學(xué)作為一個橫跨信息科學(xué),、社會科學(xué)、網(wǎng)絡(luò)科學(xué),、系統(tǒng)科學(xué),、心理學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域的新興交叉學(xué)科方向正在逐步形成,。 大數(shù)據(jù)同時也引起了包括美國在內(nèi)的許多國家政府的極大關(guān)注,。如前所述,2012年3月,,美國公布了“大數(shù)據(jù)研發(fā)計劃”,。該計劃旨在提高和改進(jìn)人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識的能力,進(jìn)而加速美國在科學(xué)與工程領(lǐng)域發(fā)明的步伐,,增強(qiáng)國家安全,。根據(jù)該計劃,美國國家科學(xué)基金會(NSF),、國立衛(wèi)生研究院(NIH),、國防部(DOD)、能源部(DOE),、國防部高級研究計劃局(DARPA),、地質(zhì)勘探局(USGS)6個聯(lián)邦部門和機(jī)構(gòu)共同提高收集、儲存,、保留,、管理、分析和共享海量數(shù)據(jù)所需的核心技術(shù),,擴(kuò)大大數(shù)據(jù)技術(shù)開發(fā)和應(yīng)用所需人才的供給,。該計劃還強(qiáng)調(diào),大數(shù)據(jù)技術(shù)事關(guān)美國國家安全,、科學(xué)和研究的步伐,,將引發(fā)教育和學(xué)習(xí)的變革。歐盟方而也有類似的舉措,。過去幾年歐盟已對科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施投資1億多歐元,,并將數(shù)據(jù)信息化基礎(chǔ)設(shè)施作為Horizon2020計劃的優(yōu)先領(lǐng)域之一,。2012年1月截止的預(yù)算為5000萬歐元的FP7 Call 8專門征集針對大數(shù)據(jù)的研究項目,仍以基礎(chǔ)設(shè)施為先導(dǎo),??v觀國際形勢,對大數(shù)據(jù)的研究與應(yīng)用已引起各國政府的高度重視,,并已成為重要的戰(zhàn)略布局方向,。 3.大數(shù)據(jù)研究的重大意義 大數(shù)據(jù)是與自然資源、人力資源一樣重要的戰(zhàn)略資源,,是一個國家數(shù)字主權(quán)的體現(xiàn),。大數(shù)據(jù)時代,國家層面的競爭力將部分體現(xiàn)為一國擁有大數(shù)據(jù)的規(guī)模,、活性以及對數(shù)據(jù)的解釋,、運(yùn)用的能力。一個國家在網(wǎng)絡(luò)空間的數(shù)據(jù)主權(quán)將是繼海,、陸,、空、天之后另一個大國博弈的空間,。在大數(shù)據(jù)領(lǐng)域的落后,,意味著失守產(chǎn)業(yè)戰(zhàn)略制高點(diǎn),意味著數(shù)字主權(quán)無險可守,,意味著國家安全將出現(xiàn)漏洞。大數(shù)據(jù)將直接影響國家和社會穩(wěn)定,,是關(guān)系國家安全的戰(zhàn)略性問題,。因此,我國應(yīng)盡快研究并制定我們國家的大數(shù)據(jù)戰(zhàn)略,。 大數(shù)據(jù)是現(xiàn)有產(chǎn)業(yè)升級與新產(chǎn)業(yè)誕生的重要推動力量,。數(shù)據(jù)為王的大數(shù)據(jù)時代的到來,產(chǎn)業(yè)界需求與關(guān)注點(diǎn)發(fā)生了重大轉(zhuǎn)變:企業(yè)關(guān)注的重點(diǎn)轉(zhuǎn)向數(shù)據(jù),,計算機(jī)行業(yè)正在轉(zhuǎn)變?yōu)檎嬲男畔⑿袠I(yè),,從追求計算速度轉(zhuǎn)變?yōu)殛P(guān)注大數(shù)據(jù)處理能力,軟件也將從編程為主轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心,。大數(shù)據(jù)處理的興起也改變了云計算的發(fā)展方向,,使其進(jìn)入以分析即服務(wù)(AaaS)為主要標(biāo)志的Cloud 2.0時代。采用大數(shù)據(jù)處理方法,,生物制藥,、新材料研制生產(chǎn)的流程會發(fā)生革命性的變化,可以通過數(shù)據(jù)處理能力極高的計算機(jī)并行處理,,同時進(jìn)行大批量的仿真比較和篩選,,大大提高科研和生產(chǎn)效率,,甚至使整個行業(yè)邁入數(shù)字化與信息化的新階段。數(shù)據(jù)已成為與礦物和化學(xué)元索一樣的原始材料,,未來可能形成數(shù)據(jù)服務(wù),、數(shù)據(jù)探礦、數(shù)據(jù)化學(xué),、數(shù)據(jù)材料,、數(shù)據(jù)制藥等一系列戰(zhàn)略性的新興產(chǎn)業(yè)。 大數(shù)據(jù)還引起了科技界對科學(xué)研究方法論的重新審視,,正在引發(fā)科學(xué)研究思維與方法的一場革命,。最早的科學(xué)研究只有實(shí)驗科學(xué),隨后出現(xiàn)了以研究各種定律和定理為特征的理論科學(xué),。由于理論分析方法在許多問題上過于復(fù)雜,,難以解決實(shí)際問題,人們開始尋求模擬的方法,,導(dǎo)致計算科學(xué)的興起,。海量數(shù)據(jù)的出現(xiàn)催生了一種新的科研模式,即面對海量數(shù)據(jù),,科研人員只需從數(shù)據(jù)中直接查找或挖掘所需要的信息,、知識和智慧,甚至無需直接接觸需研究的對象,。2007年,,已故的圖靈獎得主吉姆?格雷(Jim Gray)在他最后一次演講中描繪了數(shù)據(jù)密集型科學(xué)研究的“第四范式”(TheFourth Paradigm),把數(shù)據(jù)密集型科學(xué)從計算科學(xué)中單獨(dú)區(qū)分開來,。格雷認(rèn)為,,要解決我們面臨的某些最棘手的全球性挑戰(zhàn),“第四范式”可能是唯一具有系統(tǒng)性的方法,。其實(shí),,“第四范式”不僅是科研方式的轉(zhuǎn)變,也是人們思維方式的大變化,。 4.對大數(shù)據(jù)研究的科學(xué)思考 4.1“數(shù)據(jù)科學(xué)”研究的對象是什么? 計算機(jī)科學(xué)是關(guān)于算法的科學(xué),,數(shù)據(jù)科學(xué)是關(guān)于數(shù)據(jù)的科學(xué)。從事數(shù)據(jù)科學(xué)研究的學(xué)者更關(guān)注數(shù)據(jù)的科學(xué)價值,,試圖把數(shù)據(jù)當(dāng)成一個“自然體(Data nature)”來研究,,提出所謂“數(shù)據(jù)界(Data universe)”的概念,頗有把計算機(jī)科學(xué)劃歸為自然科學(xué)的傾向,。但脫離各個領(lǐng)域的“物理世界”,,作為客觀事物間接存在形式的“數(shù)據(jù)界”究竟有什么共性問題還不清楚。物理世界在網(wǎng)絡(luò)空間中有其數(shù)據(jù)映像,目前一些學(xué)者認(rèn)為,,數(shù)據(jù)界的規(guī)律其本質(zhì)可能是物理世界的規(guī)律(還需要在物理世界中測試驗證),。除去各個領(lǐng)域的規(guī)律,作為映像的“數(shù)據(jù)界”還有其獨(dú)特的共同規(guī)律嗎?這是一個值得深思的問題,。 任何領(lǐng)域的研究,,若要成為一門科學(xué),一定是研究共性的問題,。針對非常狹窄領(lǐng)域的某個具體問題,,主要依靠該問題涉及的特殊條件和專門知識做數(shù)據(jù)挖掘,不大可能使大數(shù)據(jù)成為一門科學(xué),。數(shù)據(jù)研究能成為一門科學(xué)的前提是,,在一個領(lǐng)域發(fā)現(xiàn)的數(shù)據(jù)相互關(guān)系和規(guī)律具有可推廣到其他領(lǐng)域的普適性。抽象出一個領(lǐng)域的共性科學(xué)問題往往需要較長的時間,,提煉“數(shù)據(jù)界”的共性科學(xué)問題還需要一段時間的實(shí)踐積累,。至少未來5-10年內(nèi)計算機(jī)界的學(xué)者還需多花精力協(xié)助其他領(lǐng)域的學(xué)者解決大數(shù)據(jù)帶來的技術(shù)挑戰(zhàn)問題。通過分層次的不斷抽象,,大數(shù)據(jù)的共性科學(xué)問題才會逐步清晰明朗,。 當(dāng)前數(shù)據(jù)科學(xué)的目標(biāo)還不很明確,但與其他學(xué)科一樣,,科學(xué)研究的道路常常是先做“白盒研究”,,知識積累多了就有可能抽象出通用性較強(qiáng)的“黑盒模型”和普適規(guī)律。數(shù)據(jù)庫理論是一個很好的例子,。在經(jīng)歷了層次數(shù)據(jù)庫,、網(wǎng)狀數(shù)據(jù)庫多年實(shí)踐后,Codd發(fā)現(xiàn)了數(shù)據(jù)庫應(yīng)用的共性規(guī)律,,建立了有堅實(shí)理論基礎(chǔ)的關(guān)系模型,。在這之前人們也一直在問數(shù)據(jù)庫可不可能有共性的理論。現(xiàn)在大數(shù)據(jù)研究要做的事就是提出像關(guān)系數(shù)據(jù)庫這樣的理論來指導(dǎo)海量非結(jié)構(gòu)化數(shù)據(jù)的處理,。 信息技術(shù)的發(fā)展使我們逐步進(jìn)入“人-機(jī)-物”融合的三元世界,未來的世界可以做到“機(jī)中有人,,人中有機(jī),,物中有機(jī),機(jī)中有物”,。所謂“機(jī)”就是聯(lián)系人類社會(包括個人身體與大腦)與物理世界的網(wǎng)絡(luò)空間,,其最基本的構(gòu)成元索是不同于原子和神經(jīng)元的bit。物理空間和人類社會(包括人的大腦)都有共性的科學(xué)問題和規(guī)律,,與這兩者有密切聯(lián)系的網(wǎng)絡(luò)空間會不會有不同的共性科學(xué)問題?從“人-機(jī)-物”三元世界的角度來探討大數(shù)據(jù)科學(xué)的共性問題,,也許是一個可以嘗試的突破口。 4.2數(shù)據(jù)背后的共性問題——關(guān)系網(wǎng)絡(luò) 觀察各種復(fù)雜系統(tǒng)得到的大數(shù)據(jù),,直接反映的往往是一個個孤立的數(shù)據(jù)和分散的鏈接,,但這些反映相互關(guān)系的鏈接整合起來就是一個網(wǎng)絡(luò),。例如,基因數(shù)據(jù)構(gòu)成基因網(wǎng)絡(luò),,腦科學(xué)實(shí)驗數(shù)據(jù)形成神經(jīng)網(wǎng)絡(luò),,Web數(shù)據(jù)反映出社會網(wǎng)絡(luò)。數(shù)據(jù)的共性,、網(wǎng)絡(luò)的整體特征隱藏在數(shù)據(jù)網(wǎng)絡(luò)中,,大數(shù)據(jù)往往以復(fù)雜關(guān)聯(lián)的數(shù)據(jù)網(wǎng)絡(luò)這樣一種獨(dú)特的形式存在,因此要理解大數(shù)據(jù)就要對大數(shù)據(jù)后面的網(wǎng)絡(luò)進(jìn)行深入分析,。網(wǎng)絡(luò)有不少參數(shù)和性質(zhì),,如平均路徑長度、度分布,、聚集系數(shù),、核數(shù)、介數(shù)等,,這些性質(zhì)和參數(shù)也許能刻畫大數(shù)據(jù)背后網(wǎng)絡(luò)的共性,。因此,大數(shù)據(jù)面臨的科學(xué)問題本質(zhì)上可能就是網(wǎng)絡(luò)科學(xué)問題,,復(fù)雜網(wǎng)絡(luò)分析應(yīng)該是數(shù)據(jù)科學(xué)的重要基石,。 目前,研究Web數(shù)據(jù)的學(xué)者以復(fù)雜網(wǎng)絡(luò)上的數(shù)據(jù)(信息)傳播機(jī)理,、搜索,、聚類、同步和控制作為主要研究方向,。最新的研究成果表明,,隨機(jī)的Scale-free網(wǎng)絡(luò)不是一般的“小世界”,而是“超小世界(Ultrasmall world)”,,規(guī)模為N的網(wǎng)絡(luò)的最短路徑的平均長度不是一般小世界的InN而是InInN,。網(wǎng)絡(luò)數(shù)據(jù)研究應(yīng)發(fā)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)產(chǎn)生、傳播以及網(wǎng)絡(luò)信息涌現(xiàn)的內(nèi)在機(jī)制,,還要研究隱藏在數(shù)據(jù)背后的社會學(xué),、心理學(xué)、經(jīng)濟(jì)學(xué)的機(jī)理,,同時利用這些機(jī)理研究互聯(lián)網(wǎng)對政治,、經(jīng)濟(jì)、文化,、教育,、科研的影響。基于大數(shù)據(jù)對復(fù)雜系統(tǒng)內(nèi)在機(jī)理進(jìn)行整體性的研究,,也許將為研究復(fù)雜系統(tǒng)提供新的途徑,。從這種意義上看,數(shù)據(jù)科學(xué)是從整體上研究復(fù)雜系統(tǒng)的一門科學(xué),。 發(fā)現(xiàn)Scale-free網(wǎng)絡(luò)的Albert-László Barabási教授在2012年1月的Nature Physics上發(fā)表一篇重要文章“The network takeover,。文章認(rèn)為:20世紀(jì)是量子力學(xué)的世紀(jì),從電子學(xué)到天文物理學(xué),,從核能到量子計算,,都離不開量子力學(xué);而到了21世紀(jì),,網(wǎng)絡(luò)理論正在成為量子力學(xué)的可尊敬的后繼,,正在構(gòu)建一個新的理論和算法的框架。 4.3大數(shù)據(jù)研究中的關(guān)聯(lián)關(guān)系與因果關(guān)系 大數(shù)據(jù)研究不同于傳統(tǒng)的邏輯推理研究,,而是對數(shù)量巨大的數(shù)據(jù)做統(tǒng)計性的搜索,、比較、聚類,、分類等分析歸納,,因此繼承了統(tǒng)計科學(xué)的一些特點(diǎn)。統(tǒng)計學(xué)關(guān)注數(shù)據(jù)的相關(guān)性或稱關(guān)聯(lián)性,,所謂“相關(guān)性”是指兩個或兩個以上變量的取值之間存在某種規(guī)律性,。“相關(guān)分析”的目的是找出數(shù)據(jù)集里隱藏的相互關(guān)系網(wǎng)(關(guān)聯(lián)網(wǎng)),,一般用支持度,、可信度、興趣度等參數(shù)反映相關(guān)性,。兩個數(shù)據(jù)A和B有相關(guān)性,,只有反映A和B在取值時相互有影響,并不能告訴我們有A就一定有B,,或者反過來有B就一定有A,。嚴(yán)格來講,統(tǒng)計學(xué)無法檢驗邏輯上的因果關(guān)系,。如,,根據(jù)統(tǒng)計結(jié)果:可以說“吸煙的人群肺癌發(fā)病率會比不吸煙的人群高幾倍”,但統(tǒng)計結(jié)果無法得出“吸煙致癌”的邏輯結(jié)論,。統(tǒng)計學(xué)的相關(guān)性有時可能會產(chǎn)生把結(jié)果當(dāng)成原因的錯覺,。如,,統(tǒng)計結(jié)果表明:下雨之前常見到燕子低飛,,從時間先后看兩者的關(guān)系可能得出燕子低飛是下雨的原因,而事實(shí)上,將要下雨才是燕子低飛的原因,。 也許正是因為統(tǒng)計方法不能致力于尋找真正的原因,,才促使數(shù)據(jù)挖掘和大數(shù)據(jù)技術(shù)在商業(yè)領(lǐng)域廣泛流行。企業(yè)的目標(biāo)是多賺錢,,只要從數(shù)據(jù)挖掘中發(fā)現(xiàn)某種措施與增加企業(yè)利潤有較強(qiáng)的相關(guān)性,,采取這種措施就是了,不必深究為什么能增加利潤,,更不必發(fā)現(xiàn)其背后的內(nèi)在規(guī)律和模型,。一般而言,企業(yè)收集和處理大數(shù)據(jù),,不是按學(xué)者們經(jīng)常描述的“從數(shù)據(jù)到信息再到知識和智慧”的研究思路,,而是走“從數(shù)據(jù)直接到價值”的捷徑。Google廣告獲得巨額收入經(jīng)常被引用作為大數(shù)據(jù)相關(guān)分析的成功案例,,美國Wired雜志主編Chris Anderson在他的著名文章“The End of Theory”的結(jié)尾發(fā)問:“現(xiàn)在是時候問這一句了:科學(xué)能從谷歌那兒學(xué)到什么,?” 因果關(guān)系的研究曾引發(fā)了科學(xué)體系的建立,近代科學(xué)體系獲得的成就已經(jīng)證明,,科學(xué)是研究因果關(guān)系最重要的手段。相關(guān)性研究是可以替代因果分析的科學(xué)新發(fā)展還只是因果分析的補(bǔ)充,不同的學(xué)者有完全不同的看法,。我們都是從做平面幾何證明題開始進(jìn)入科學(xué)大花園的,,腦子里固有的邏輯思維模式少不了因果分析,判斷是否是真理也習(xí)慣看充分必要條件,,對于大數(shù)據(jù)的關(guān)聯(lián)分析蘊(yùn)含的科學(xué)意義往往理解不深,。對于簡單封閉的系統(tǒng),基于小數(shù)據(jù)的因果分析容易做到,。當(dāng)年開普勒發(fā)現(xiàn)行星三大定律,,牛頓發(fā)現(xiàn)力學(xué)三大定律都是基于小數(shù)據(jù)。但對于開放復(fù)雜的巨系統(tǒng),,傳統(tǒng)的因果分析難以奏效,,因為系統(tǒng)中各個組成部分之間相互有影響,可能互為因果,,因果關(guān)系隱藏在整個系統(tǒng)之中?,F(xiàn)在的“因”可能是過去的“果”,此處的“果”也可能是別處的“因”,,因果關(guān)系本質(zhì)上是一種相互糾纏的相關(guān)性,。在物理學(xué)的基本粒子理論中,頗受重視的歐幾里德量子引力學(xué)(霍金所倡導(dǎo)的理論)本身并不包括因果律,。因此,,對于大數(shù)據(jù)的關(guān)聯(lián)分析是不是“知其然而不知其所以然”,,其中可能包含深奧的哲理,不能貿(mào)然下結(jié)論,。 4.4社會科學(xué)的大數(shù)據(jù)研究 根據(jù)數(shù)據(jù)的來源,,大數(shù)據(jù)可以初略地分成兩大類:一類來自物理世界,另一類來自人類社會,。前者多半是科學(xué)實(shí)驗數(shù)據(jù)或傳感數(shù)據(jù),,后者與人的活動有關(guān)系,特別是與互聯(lián)網(wǎng)有關(guān),。這兩類數(shù)據(jù)的處理方式和目標(biāo)差別較大,,不能照搬處理科學(xué)實(shí)驗數(shù)據(jù)的方法來處理Web數(shù)據(jù)。 科學(xué)實(shí)驗是科技人員設(shè)計的,,如何采集數(shù)據(jù),、處理數(shù)據(jù)事先都已想好了,不管是檢索還是模式識別,,都有一定的科學(xué)規(guī)律可循,。美國的大數(shù)據(jù)研究計劃中專門列出尋找希格斯粒子(被稱為“上帝粒子”的大型強(qiáng)子對撞機(jī)(LHC)實(shí)驗。這是一個典型的基于大數(shù)據(jù)的科學(xué)實(shí)驗,,至少要在1萬億個事例中才可能找出1個希格斯粒子,。2012年7月4日,CERN宣布發(fā)現(xiàn)新的玻色子,,標(biāo)準(zhǔn)差為4.9,,被認(rèn)為可能是希格斯玻色子(承認(rèn)是希格斯玻色子粒子需要5個標(biāo)準(zhǔn)差,即99.99943%的可能性是對的),。設(shè)計這一實(shí)驗的激動人心之處在于,,不論找到還是沒有找到希格斯粒子,都是物理學(xué)的重大突破,。從這一實(shí)驗可以看出,,科學(xué)實(shí)驗的大數(shù)據(jù)處理是整個實(shí)驗的一個預(yù)定步驟,發(fā)現(xiàn)有價值的信息往往在預(yù)料之中,。 Web上的信息(譬如微博)是千千萬萬的人隨機(jī)產(chǎn)生的,,從事社會科學(xué)研究的學(xué)者要從這些看似雜亂無章的數(shù)據(jù)中尋找有價值的蛛絲馬跡。網(wǎng)絡(luò)大數(shù)據(jù)有許多不同于自然科學(xué)數(shù)據(jù)的特點(diǎn),,包括多源異構(gòu),、交互性、時效性,、社會性,、突發(fā)性和高噪聲等,不但非結(jié)構(gòu)化數(shù)據(jù)多,,而且數(shù)據(jù)的實(shí)時性強(qiáng),,大量數(shù)據(jù)都是隨機(jī)動態(tài)產(chǎn)生,。科學(xué)數(shù)據(jù)的采集一般代價較高,,LHC實(shí)驗設(shè)備花了幾十億美元,因此對采集什么數(shù)據(jù)要做精心安排,。而網(wǎng)絡(luò)數(shù)據(jù)的采集相對成本較低,,網(wǎng)上許多數(shù)據(jù)是重復(fù)的或者沒有價值,價值密度很低,。一般而言,,社會科學(xué)的大數(shù)據(jù)分析,特別是根據(jù)Web數(shù)據(jù)做經(jīng)濟(jì)形勢,、安全形勢,、社會群體事件的預(yù)測,比科學(xué)實(shí)驗的數(shù)據(jù)分析更困難,。 末來的任務(wù)主要不是獲取越來來越多的數(shù)據(jù),,而是數(shù)據(jù)的去冗分類、去粗取精,,從數(shù)據(jù)中挖掘知識,。幾百年來,科學(xué)研究一直在做“從薄到厚”的事情,,把“小數(shù)據(jù)”變成“大數(shù)據(jù)”,,現(xiàn)在要做的事情是“從厚到薄”,要把大數(shù)據(jù)變成小數(shù)據(jù),。要在不明顯增加采集成本的條件下盡可能提高數(shù)據(jù)的質(zhì)量,。要研究如何科學(xué)合理地抽樣采集數(shù)據(jù),減少不必要的數(shù)據(jù)采集,。兩三歲的小孩學(xué)習(xí)識別動物和汽車等,,往往幾十張樣本圖片就足夠了,研究清楚人類為什么具有小數(shù)據(jù)學(xué)習(xí)能力,,對開展大數(shù)據(jù)分析研究具有深刻的指導(dǎo)意義,。 近10年來增長最快的數(shù)據(jù)是網(wǎng)絡(luò)上傳播的各種非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)的背后是相互聯(lián)系的各種人群,,網(wǎng)絡(luò)大數(shù)據(jù)的處理能力直接關(guān)系到國家的信息空間安全和社會穩(wěn)定”,。從心理學(xué)、經(jīng)濟(jì)學(xué),、信息科學(xué)等不同學(xué)科領(lǐng)域共同探討網(wǎng)絡(luò)數(shù)據(jù)的產(chǎn)生,、擴(kuò)散、涌現(xiàn)的基本規(guī)律,,是建立安全和諧的網(wǎng)絡(luò)環(huán)境的重大戰(zhàn)略需求,,是促使國家長治久安的大事,。我國擁有世界上最多的網(wǎng)民和最大的訪問量,在網(wǎng)絡(luò)大數(shù)據(jù)分析方面已有較強(qiáng)的基礎(chǔ),,有望做出世界領(lǐng)先的原始創(chuàng)新成果,,應(yīng)加大網(wǎng)絡(luò)大數(shù)據(jù)分析方而的研究力度。 4.5數(shù)據(jù)處理的復(fù)雜性研究 計算復(fù)雜性是計算機(jī)科學(xué)的基本問題,,科學(xué)計算主要考慮時間復(fù)雜性和空間復(fù)雜性,。對于大數(shù)據(jù)處理,除了時間和空間復(fù)雜性外,,可能還需要考慮解決一個問題需要多大的數(shù)據(jù)量,,暫且稱為“數(shù)據(jù)量復(fù)雜性”。數(shù)據(jù)量復(fù)雜性和空間復(fù)雜性不是一個概念,,空間復(fù)雜性要考慮計算過程中產(chǎn)生的空間需求,。 設(shè)想有人采集完全隨機(jī)地拋擲硬幣的正反面數(shù)據(jù),得到極長的01數(shù)字序列,,通過統(tǒng)計可計算出現(xiàn)正面的比例,。可以肯定,,收集的數(shù)據(jù)越多,,其結(jié)果與0.5的誤差越小,這是一個無限漸進(jìn)的過程,?;谖ㄏ蠹僭O(shè)的數(shù)據(jù)處理常出現(xiàn)這類增量式進(jìn)步,數(shù)據(jù)多一點(diǎn),,結(jié)果就好一點(diǎn),。這類問題的數(shù)據(jù)科學(xué)價值可能不大。反過來,,可能有些問題的數(shù)據(jù)處理像個無底洞,,無論多少數(shù)據(jù)都不可能解決問題。這種問題有些類似NP問題,。我們需要建立一種理論,,對求解一個問題達(dá)到某種滿意程度(對判定問題是有多大把握說“是”或“否”,優(yōu)化問題是接近最優(yōu)解的程度)需要多大規(guī)模的數(shù)據(jù)量給出理論上的判斷,。當(dāng)然,,目前還有很多問題沒有定義清楚,比如,,對于網(wǎng)絡(luò)搜索之類的問題,,如何定義問題規(guī)模和數(shù)據(jù)規(guī)模等。 對從事大數(shù)據(jù)研究的學(xué)者而言,,最有意思的問題應(yīng)該是,,解決一個問題的數(shù)據(jù)規(guī)模有一個閾值,。數(shù)據(jù)少于這個閾值,問題解決不了,;達(dá)到這個閾值,,就可以解決以前解決不了的大問題;而數(shù)據(jù)規(guī)模超過這個閾值,,對解決問題也沒有更多的幫助,。我們把這類問題稱為“預(yù)言性數(shù)據(jù)分析問題”,即在做大數(shù)據(jù)處理之前,,我們可以預(yù)言,當(dāng)數(shù)據(jù)量到達(dá)多大規(guī)模時,,該問題的解可以達(dá)到何種滿意程度,。 與社會科學(xué)有關(guān)的大數(shù)據(jù)問題,例如輿情分析,、情感分析等,,許多理論問題過去沒有考慮過,才剛剛開始研究,。迫切需要計算機(jī)學(xué)者與社會科學(xué)領(lǐng)域的學(xué)者密切合作,,共同開拓新的疆域。借助大數(shù)據(jù)的推力,,社會科學(xué)將脫下“準(zhǔn)科學(xué)”的外衣,,真正邁進(jìn)科學(xué)的殿堂。 4.6科研第四范式是思維方式的大變化 已故圖靈獎得主吉姆?格雷提出的數(shù)據(jù)密集型科研“第四范式(the fourth paradigm)”,,將大數(shù)據(jù)科研從第三范式(計算科學(xué))中分離出來單獨(dú)作為一種科研范式,,是因為其研究方式不同于基于數(shù)學(xué)模型的傳統(tǒng)研究方式。Google公司的研究部主任Peter Norvig的一句名言可以概括兩者的區(qū)別:“所有的模型都是錯誤的,,進(jìn)一步說,,沒有模型你也可以成功(All models are wrong, and increasingly you can succeed without them)”。PB級數(shù)據(jù)使我們可以做到?jīng)]有模型和假設(shè)就可以分析數(shù)據(jù),。將數(shù)據(jù)丟進(jìn)巨大的計算機(jī)群中,,只要有相互關(guān)系的數(shù)據(jù),統(tǒng)計分析算法可以發(fā)現(xiàn)過去的科學(xué)方法發(fā)現(xiàn)不了的新模式,、新知識甚至新規(guī)律,。實(shí)際上,Google的廣告優(yōu)化配置,、戰(zhàn)勝人類的IBM沃森問答系統(tǒng)都是這么實(shí)現(xiàn)的,,這就是“第四范式”的魅力! 美國Wired雜志主編Chris Anderson2008年曾發(fā)出“理論已終結(jié)”的驚人斷言:“數(shù)據(jù)洪流使(傳統(tǒng))科學(xué)方法變得過時(The Data Deluge Makes the Scientific Method Obsolete)”。他指出,,獲得海量數(shù)據(jù)和處理這些數(shù)據(jù)的統(tǒng)計工具的可能性提供了理解世界的一條完整的新途徑,。Petabytes讓我們說:相互關(guān)系已經(jīng)足夠(Correlation is enough),。我們可以停止尋找模型,相互關(guān)系取代了因果關(guān)系,,沒有具有一致性的模型,、統(tǒng)一的理論和任何機(jī)械式的說明,科學(xué)也可以進(jìn)步,。 Chris Anderson的極端看法并沒有得到科學(xué)界的普遍認(rèn)同,,數(shù)據(jù)量的增加能否引起科研方法本質(zhì)性的改變?nèi)匀皇且粋€值得探討的問題。對研究領(lǐng)域的深刻理解(如空氣動力學(xué)方程用于風(fēng)洞實(shí)驗)和數(shù)據(jù)量的積累應(yīng)是一個迭代累進(jìn)的過程,。沒有科學(xué)假設(shè)和模型就能發(fā)現(xiàn)新知識究竟有多大的普適性也需要實(shí)踐來檢驗,,我們需要思考:這類問題有多大的普遍性?這種優(yōu)勢是數(shù)據(jù)量特別大帶來的還是問題本身有這種特性?所謂從數(shù)據(jù)中獲取知識要不要人 的參與,,人在機(jī)器自動學(xué)習(xí)和運(yùn)行中應(yīng)該扮演什么角色?也許有些領(lǐng)域可以先用第四范式,,等領(lǐng)域知識逐步豐富了再過渡到第三范式。 5.面臨的主要問題與挑戰(zhàn) 現(xiàn)有的數(shù)據(jù)中心技術(shù)很難滿足大數(shù)據(jù)的需求,,需要考慮對整個IT架構(gòu)進(jìn)行革命性的重構(gòu),。而存儲能力的增長遠(yuǎn)遠(yuǎn)趕不上數(shù)據(jù)的增長,因此設(shè)計最合理的分層存儲架構(gòu)已成為IT系統(tǒng)的關(guān)鍵,。數(shù)據(jù)的移動已成為IT系統(tǒng)最大的開銷,,目前傳送大數(shù)據(jù)最高效也最實(shí)用的方式是通過飛機(jī)或地面交通工具運(yùn)送磁盤而不是網(wǎng)絡(luò)通信。在大數(shù)據(jù)時代,,IT系統(tǒng)需要從數(shù)據(jù)圍著處理器轉(zhuǎn)改變?yōu)樘幚砟芰鴶?shù)據(jù)轉(zhuǎn),,將計算推送給數(shù)據(jù),而不是將數(shù)據(jù)推送給計算,。大數(shù)據(jù)也導(dǎo)致高可擴(kuò)展性成為對IT系統(tǒng)最本質(zhì)的需求,,并發(fā)執(zhí)行(同時執(zhí)行的線程)的規(guī)模要從現(xiàn)在的千萬量級提高到10億級以上。 在應(yīng)對處理大數(shù)據(jù)的各種技術(shù)挑戰(zhàn)中,,以下幾個問題值得高度重視: (1)大數(shù)據(jù)的去冗降噪技術(shù),。大數(shù)據(jù)一般都來自多個不同的源頭,而且往往以動態(tài)數(shù)據(jù)流的形式產(chǎn)生,。因此,,大數(shù)據(jù)中常常包含有不同形態(tài)的噪聲數(shù)據(jù)。另外,,數(shù)據(jù)采樣算法缺陷與設(shè)備故障也可能會導(dǎo)致大數(shù)據(jù)的噪聲,。大數(shù)據(jù)的冗余則通常來自兩個方面:一方面,大數(shù)據(jù)的多源性導(dǎo)致了不同源頭的數(shù)據(jù)中存在有相同的數(shù)據(jù),,從而造成數(shù)據(jù)的絕對冗余,;另一方而,就具體的應(yīng)用需求而言,大數(shù)據(jù)可能會提供超量特別是超精度的數(shù)據(jù),,這又形成數(shù)據(jù)的相對冗余,。降低噪聲、消除冗余是提高數(shù)據(jù)質(zhì)量,、降低數(shù)據(jù)存儲成本的基礎(chǔ),; (2)大數(shù)據(jù)的新型表示方法。目前表示數(shù)據(jù)的方法,,不一定能直觀地展現(xiàn)出大數(shù)據(jù)本身的意義,。要想有效利用數(shù)據(jù)并挖掘其中的信息或知識,必須找到最合適的數(shù)據(jù)表示方法,。在一種不合適的數(shù)據(jù)表示中尋找大數(shù)據(jù)的固定模式,、因果關(guān)系和關(guān)聯(lián)關(guān)系時,可能會落入固有的偏見之中,。數(shù)據(jù)表示方法和最初的數(shù)據(jù)產(chǎn)生者有著密切關(guān)系,。如果原始數(shù)據(jù)有必要的標(biāo)識,就會大大減輕事后數(shù)據(jù)識別和分類的困難,。但標(biāo)識數(shù)據(jù)會給用戶增添麻煩,,所以往往得不到用戶認(rèn)可,。研究既有效又簡易的數(shù)據(jù)表示方法是處理網(wǎng)絡(luò)大數(shù)據(jù)必須解決的技術(shù)難題之一,; (3)高效率低成本的大數(shù)據(jù)存儲。大數(shù)據(jù)的存儲方式不僅影響其后的數(shù)據(jù)分析處理效率也影響數(shù)據(jù)存儲的成本,。因此,,就需要研究高效率低成本的數(shù)據(jù)存儲方式。具體則需要研究多源多模態(tài)數(shù)據(jù)高質(zhì)量獲取與整合的理論和技術(shù),、流式數(shù)據(jù)的高速索引創(chuàng)建與存儲,、錯誤自動檢測與修復(fù)的理論和技術(shù)、低質(zhì)量數(shù)據(jù)上的近似計算的理論和算法等,; (4)大數(shù)據(jù)的有效融合,。數(shù)據(jù)不整合就發(fā)揮不出大數(shù)據(jù)的大價值。大數(shù)據(jù)的泛濫與數(shù)據(jù)格式太多有關(guān),。大數(shù)據(jù)面臨的一個重要問題是個人,、企業(yè)和政府機(jī)構(gòu)的各種數(shù)據(jù)和信息能否方便地融合。如同人類有許多種自然語言一樣,,作為網(wǎng)絡(luò)空間中唯一客觀存在的數(shù)據(jù)難免有多種格式,。但為了掃清網(wǎng)絡(luò)大數(shù)據(jù)處理的障礙,應(yīng)研究推廣不與平臺綁定的數(shù)據(jù)格式,。大數(shù)據(jù)已成為聯(lián)系人類社會,、物理世界和網(wǎng)絡(luò)空間的紐帶,需要通過統(tǒng)一的數(shù)據(jù)格式構(gòu)建融合人、機(jī),、物三元世界的統(tǒng)一信息系統(tǒng),; (5)非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的高效處理。據(jù)統(tǒng)計,,目前采集到的數(shù)據(jù)85%以上是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),,而傳統(tǒng)的關(guān)系數(shù)據(jù)庫技術(shù)無法勝任這些數(shù)據(jù)的處理,因為關(guān)系數(shù)據(jù)庫系統(tǒng)的出發(fā)點(diǎn)是追求高度的數(shù)據(jù)一致性和容錯性,。根據(jù)CAP(Consistency,,Availability,tolerance to network Partitions)理論,,在分布式系統(tǒng)中,,一致性、可用性,、分區(qū)容錯性三者不可兼得,,因而并行關(guān)系數(shù)據(jù)庫必然無法獲得較強(qiáng)的擴(kuò)展性和良好的系統(tǒng)可用性。系統(tǒng)的高擴(kuò)展性是大數(shù)據(jù)分析最重要的需求,,必須尋找高擴(kuò)展性的數(shù)據(jù)分析技術(shù),。以MapReduce和Hadoop為代表的非關(guān)系數(shù)據(jù)分析技術(shù),以其適合非結(jié)構(gòu)數(shù)據(jù)處理,、大規(guī)模并行處理,、簡單易用等突出優(yōu)勢,在互聯(lián)網(wǎng)信息搜索和其他大數(shù)據(jù)分析領(lǐng)域取得了重大進(jìn)展,,已成為大數(shù)據(jù)分析的主流技術(shù),。MapReduce和Hadoop在應(yīng)用性能等方面還存在不少問題,還需要研究開發(fā)更有效,、更實(shí)用的大數(shù)據(jù)分析和管理技術(shù),; (6)適合不同行業(yè)的大數(shù)據(jù)挖掘分析工具和開發(fā)環(huán)境。不同行業(yè)需要不同的大數(shù)據(jù)分析工具和開發(fā)環(huán)境,,應(yīng)鼓勵計算機(jī)算法研究人員與各領(lǐng)域的科研人員密切合作,,在分析工具和開發(fā)環(huán)境上創(chuàng)新。當(dāng)前跨領(lǐng)域跨行業(yè)的數(shù)據(jù)共享仍存在大量壁壘,,海量數(shù)據(jù)的收集,,特別是關(guān)聯(lián)領(lǐng)域的同時收集還存在很大挑戰(zhàn)。只有跨領(lǐng)域的數(shù)據(jù)分析才更有可能形成真正的知識和智能,,產(chǎn)生更大的價值,; (7)大幅度降低數(shù)據(jù)處理、存儲和通信能耗的新技術(shù),。大數(shù)據(jù)的獲取,、通信、存儲、管理與分析處理都需要消耗大量的能源,。在能源問題日益突出的今天,,研究創(chuàng)新的數(shù)據(jù)處理和傳送的節(jié)能方法與技術(shù)是重要的研究方向。 6.建議和舉措 盡管大數(shù)據(jù)意味著大機(jī)遇,,但同時也意味著工程技術(shù),、管理政策、人才培養(yǎng)等方而的大挑戰(zhàn),。只有解決了這些基礎(chǔ)性的挑戰(zhàn)問題,,才能充分利用這個大機(jī)遇,得到大數(shù)據(jù)的大價值,。因此,,我國亞需在國家層而對大數(shù)據(jù)給子高度重視,特別需要從政策制定,、資源投入,、人才培養(yǎng)等方而給子強(qiáng)有力的支持;另一方而,建立良性的大數(shù)據(jù)生態(tài)環(huán)境是有效應(yīng)對大數(shù)據(jù)挑戰(zhàn)的唯一出路,,需要科技界,、工業(yè)界以及政府部門在國家政策的引導(dǎo)下共同努力,通過消除壁壘,、成立聯(lián)盟,、建立專業(yè)組織等途徑,建立和諧的大數(shù)據(jù)生態(tài)系統(tǒng),。 就大數(shù)據(jù)研究計劃與措施,,我們有如下的建議: 6.1優(yōu)先支持網(wǎng)絡(luò)大數(shù)據(jù)研究 大數(shù)據(jù)涉及物理,、生物,、腦科學(xué)、醫(yī)療,、環(huán)保,、經(jīng)濟(jì)、文化,、安全等眾多領(lǐng)域,。網(wǎng)絡(luò)空間中的數(shù)據(jù)是大數(shù)據(jù)的重要組成部分,這類大數(shù)據(jù)與人的活動密切相關(guān),,因此也與社會科學(xué)密切相關(guān),。而網(wǎng)絡(luò)數(shù)據(jù)科學(xué)和工程是信息科學(xué)技術(shù)與社會科學(xué)等多個不同領(lǐng)域高度交叉的新型學(xué)科方向,對國家的穩(wěn)定與發(fā)展有獨(dú)特的作用,,因此應(yīng)特別重視與支持網(wǎng)絡(luò)大數(shù)據(jù)的研究,。大數(shù)據(jù)涉及應(yīng)用領(lǐng)域很廣,當(dāng)前大數(shù)據(jù)的研究應(yīng)與國計民生密切相關(guān)的科學(xué)決策、環(huán)境與社會管理,、金融工程,、應(yīng)急管理(如疾病防治、災(zāi)害預(yù)測與控制,、食品安全與群體事件)以及知識經(jīng)濟(jì)為主要應(yīng)用領(lǐng)域,。 6.2大數(shù)據(jù)科學(xué)的基礎(chǔ)研究 無論是國外政府的大數(shù)據(jù)研究計劃,還是國內(nèi)外大公司的大數(shù)據(jù)研發(fā),,當(dāng)前最重視的都是大數(shù)據(jù)分析算法和大數(shù)據(jù)系統(tǒng)的效率,。因此,當(dāng)工業(yè)界把主要精力放在應(yīng)對大數(shù)據(jù)的工程技術(shù)挑戰(zhàn)的時候,,科技界應(yīng)開始著手關(guān)注大數(shù)據(jù)的基礎(chǔ)理論研究,。大數(shù)據(jù)科學(xué)作為一個新興的交叉學(xué)科方向,其共性理論基礎(chǔ)將來自多個不同的學(xué)科領(lǐng)域,,包括計算機(jī)科學(xué),、統(tǒng)計學(xué)、人工智能,、社會科學(xué)等,。因此,大數(shù)據(jù)的基礎(chǔ)研究離不開對相關(guān)學(xué)科的領(lǐng)域知識與研究方法論的借鑒,。在大數(shù)據(jù)的基礎(chǔ)研究方面,,建議研究大數(shù)據(jù)的內(nèi)在機(jī)理,包括大數(shù)據(jù)的生命周期,、演化與傳播規(guī)律,,數(shù)據(jù)科學(xué)與社會學(xué)、經(jīng)濟(jì)學(xué)等之間的互動機(jī)制,,以及大數(shù)據(jù)的結(jié)構(gòu)與效能的規(guī)律性(如社會效應(yīng),、經(jīng)濟(jì)效應(yīng)等)。在大數(shù)據(jù)計算方而,,研究大數(shù)據(jù)表示,、數(shù)據(jù)復(fù)雜性以及大數(shù)據(jù)計算模型。在大數(shù)據(jù)應(yīng)用基礎(chǔ)理論方面,,研究大數(shù)據(jù)與知識發(fā)現(xiàn)(學(xué)習(xí)方法,、語義解釋),大數(shù)據(jù)環(huán)境下的實(shí)驗與驗證方法,,以及大數(shù)據(jù)的安全與隱私等,。 6.3大數(shù)據(jù)研究的組織方式 2012年10月,中國計算機(jī)學(xué)會和中國通信學(xué)會各自成立了大數(shù)據(jù)專家委員會,,從行業(yè)學(xué)會的層面來組織和推動大數(shù)據(jù)的相關(guān)產(chǎn)學(xué)研用活動,。但這還不夠,,建議中科院、科技部,、基金委共同推動成立一個組織機(jī)構(gòu),,建立一個大數(shù)據(jù)科學(xué)研究平臺,更好地組織大數(shù)據(jù)的協(xié)同創(chuàng)新研究與戰(zhàn)略性應(yīng)用,;成立國家級的行業(yè)大數(shù)據(jù)共享聯(lián)盟,,使產(chǎn)業(yè)界、科技界以及政府部門都能夠參與進(jìn)來,,一方面為學(xué)術(shù)研究提供基本的數(shù)據(jù)資源,,另一方面為大數(shù)據(jù)的應(yīng)用提供理論與技術(shù)支持。此外,,還需成立國家級的面向大數(shù)據(jù)研究與應(yīng)用的開源社區(qū),,同時也向國際開源社區(qū)的核心團(tuán)隊舉薦核心成員,使國際頂級的開源社區(qū)能夠聽到來自中國的“聲音”,。 6.4大數(shù)據(jù)研究的資源支持 在資源支持方而,,建議啟動“中國大數(shù)據(jù)科學(xué)與工程研究計劃”,從宏觀上對我國的大數(shù)據(jù)產(chǎn)學(xué)研用做出系統(tǒng)全面的短期與長期規(guī)劃,。設(shè)立自然科學(xué)重大研究計劃(基金重大)以及重大基礎(chǔ)科學(xué)研究項目群(“973”項目群或“863”重大項目)等專項資金,,有針對性地資助有關(guān)大數(shù)據(jù)的重大科研活動。此外,,國家在大數(shù)據(jù)平臺的構(gòu)建,、典型行業(yè)的應(yīng)用以及研發(fā)人才的培養(yǎng)等方面應(yīng)提供相應(yīng)的財力、物力與人力支持,。 (原文標(biāo)題:大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考) |
|