在數(shù)據(jù)量快速增長的背景下,容易生出一個疑問:這么多的數(shù)據(jù),,究竟都被存放在何處,?其實回歸本質看這個問題,答案非常簡單,,那就是“硬盤”,。依此類推可知,龐大的數(shù)據(jù)的存儲自然需要非常多的硬盤,。 比如谷歌,,其早些年的數(shù)據(jù)中心就已經(jīng)擁有上萬塊硬盤,如果按1TB(terabajt,,太)的標準計量,,能夠達到10PB(petabajt,拍)的數(shù)量級,,用于一般存儲可以說綽綽有余,。而在國內(nèi),像百度云等數(shù)據(jù)存儲服務則開創(chuàng)了10Gb TOR交換機,、SSD(自制固態(tài)硬盤)等用于大規(guī)模數(shù)據(jù)存儲的技術,。但當數(shù)據(jù)量開始變得龐大,就需要以服務器作為主要存儲方式,。 服務器能夠存儲數(shù)據(jù),、處理數(shù)據(jù)。通過網(wǎng)絡協(xié)議,,使人們在客戶端快速獲取存儲其中的數(shù)據(jù),,用戶也可以上傳文件。在上傳和下載的過程中,,形成了互聯(lián)網(wǎng)頻繁的數(shù)據(jù)交換,,其外在體現(xiàn)是我們經(jīng)常在一些科幻影視劇中看到的信號燈瘋狂閃爍的畫面。 當需要存儲的數(shù)據(jù)越來越龐大時,增加硬盤,、服務器和帶寬都需要非常高的成本,。因而對于更龐大數(shù)據(jù)的存儲和處理,需要數(shù)據(jù)中心作為輔助,。 在上圖中,,每個柜子中的每一排都插入了大約20~40臺機器,整個數(shù)據(jù)中心就由成千上萬臺這樣聯(lián)網(wǎng)在一起的機器構成,。不一定有硬盤,,但一定有處理器和內(nèi)存。 插入其中的機器 其中的硬盤每天都會有人工進行置換,,由于硬盤時常損壞,,所以每份數(shù)據(jù)大概會在不同的機器中至少備份三份。數(shù)據(jù)中心的地點通常在地皮,、水電,、制冷價格較低的郊區(qū)。 這樣的技術投資自然更大,,但也視情況而定,。像BAT這樣的巨頭用戶基數(shù)和數(shù)據(jù)體量極為龐大,相關產(chǎn)品眾多,,投資自然也隨之增加,。而一些小廠商沒有龐大的數(shù)據(jù),對數(shù)據(jù)存儲方面的投入自然也少一些,。 然而,,全球數(shù)據(jù)量龐大已成趨勢。據(jù)IDC公布的調(diào)查數(shù)據(jù)顯示,,未來全球數(shù)據(jù)將維持50%左右的增長率,,到2020年,全球數(shù)據(jù)總量將達到44ZB(十萬億億字節(jié)),,中國將達到8.6ZB,,占全球的21%。隨之而來的是大數(shù)據(jù)市場的繁盛,,根據(jù)中國信息產(chǎn)業(yè)研究院的數(shù)據(jù)顯示,,去年中國大數(shù)據(jù)市場規(guī)模約為116億元,同比增長38%,,未來將以40%左右的規(guī)模高速增長,。 數(shù)據(jù)量的飛速增長及市場的繁盛,需要存儲技術的支撐,。 目前常用的數(shù)據(jù)存儲方式有DAS(Direct Attached Storage,,直接附加存儲)、NAS(Network Attached Storage,,網(wǎng)絡附加存儲),、SAN(Storage Area Network,局域網(wǎng)絡存儲)等,。然而面對數(shù)據(jù)量的一再龐大,,縮小存儲介質的體積以減少占地及投入成為了重中之重。 在IBM此次研發(fā)的“孤立原子”存儲方式中,,運用了曾獲諾貝爾獎的STM(scanning tunneling microscopes,,掃描穿隧式顯微鏡),并與Holmium(鈥原子)技術相配合,,用以創(chuàng)造并監(jiān)控這一磁體,而之后的數(shù)據(jù)讀寫操作則借助電流完成,。此技術能極大縮減存儲介質體積,,意味著人們能將3500萬首歌曲大小的文件存儲在一個信用卡大小的硬盤中。 其實,,IBM可以算得上是數(shù)據(jù)存儲技術的先驅企業(yè)之一,。早在1956年就研制出了世界上第一臺計算機硬盤驅動器“IBM305RAMAC”。1991年,,IBM推出首款采用感應式薄膠片磁阻磁頭的磁盤“0663Corsair”,。 不過,IBM于2003年將其數(shù)據(jù)存儲部門出售給日立,,結束了在磁盤領域的歷程,,如今IBM或許會借助新的數(shù)據(jù)存儲技術重回這一領域。但該項目的研究員Chris Lutz表示,,這項研究離商用的距離還有數(shù)十年,。 除了運用了新技術的“孤立原子”方式,近期另一項大熱的數(shù)據(jù)存儲技術是利用DNA存儲數(shù)據(jù),。此種技術的優(yōu)勢在于DNA排列極為緊湊,,并且不會隨時間的推移損壞或發(fā)生降解。據(jù)統(tǒng)計,,4克DNA就能保存人類每年產(chǎn)生的所有數(shù)據(jù),,并且存儲時長大于100年,與傳統(tǒng)存儲介質相比高出了一個數(shù)量級,。 然而,,與IBM新的數(shù)據(jù)存儲技術一樣,DNA存儲技術離商用同樣有著多年的距離,。 面對這種狀況,,除了努力研發(fā)和深耕技術之外,,或許更應該想想:我們真的需要保存全部的數(shù)據(jù)嗎?顯然不是,。因此,,在不斷研發(fā)和提升存儲技術的同時,對于數(shù)據(jù)的存儲量也應該適當?shù)夭扇∫恍┛刂拼胧?/span> Intel的創(chuàng)始人Gordon Moore曾說:當價格不變時,,集成電路上可容納的晶體管數(shù)目,約每隔18個月便會增加一倍,,性能也將提升一倍,。此定律揭示了信息技術進步的速度,即著名的“摩爾定律”,。 這一定律在數(shù)據(jù)存儲領域同樣可被借鑒,。信息技術不斷進步,閃存,、磁盤,、數(shù)據(jù)中心、DNA等各種新的存儲技術不斷出現(xiàn),??杉幢闳绱耍噪y以滿足日漸龐大的數(shù)據(jù)體量的存儲需求,,加之IoT(物聯(lián)網(wǎng))行業(yè)的發(fā)展,,致使數(shù)據(jù)的體量更為驚人。 不可否認,,這些數(shù)據(jù)中許多都蘊含著價值,,但也不能忽視數(shù)據(jù)的驚人體量。難道到2020年我們要將44ZB的數(shù)據(jù)全部記錄并存儲下來嗎,?顯然是天方夜譚,。物聯(lián)網(wǎng)的發(fā)展使機器能夠自行收集并保存數(shù)據(jù),但在這些數(shù)據(jù)中,,真正有價值的其實并不是全部,。 比如智能設備所記載的用戶數(shù)據(jù),交通工具行駛過程中產(chǎn)生的數(shù)據(jù),,這類數(shù)據(jù)在當下可用性強,,但當個體消失或工具報廢之后,余下的數(shù)據(jù)是總結抑或是棄之不用,?這些數(shù)據(jù)要存儲到何時,?其中需要多少費用?這些數(shù)據(jù)的價值與存儲它們投入的成本是否可以成正比呢,? 事實上,,在這類數(shù)據(jù)中,,人們只看一次的比例超過90%。因此在這個每天產(chǎn)生大量數(shù)據(jù)的時代,,要學會優(yōu)先提煉重要數(shù)據(jù),,對于邊緣化的數(shù)據(jù)應適當摒棄。在數(shù)據(jù)的存儲和摒棄之間找到一個平衡點,,能夠使數(shù)據(jù)產(chǎn)生更高的價值,。 在信息高速發(fā)展的時代,大數(shù)據(jù)的作用愈發(fā)重要,。一方面,,人類在努力“開源”,研發(fā)新的數(shù)據(jù)存儲技術,,以便適應大數(shù)據(jù)時代的發(fā)展,。但另一方面,“節(jié)流”同樣重要,。分清主次,,找到數(shù)據(jù)存儲價值的最高點,有助于提升效率,,節(jié)省投入,更好地推動大數(shù)據(jù)時代的進一步發(fā)展,。 |
|