一,、數(shù)據(jù)湖概念的提出數(shù)據(jù)湖這一概念,,最早是在2011年由CITO Research網(wǎng)站的CTO和作家Dan Woods首次提出。其比喻是:如果我們把數(shù)據(jù)比作大自然的水,,那么各個(gè)江川河流的水未經(jīng)加工,源源不斷地匯聚到數(shù)據(jù)湖中,。業(yè)界便對(duì)數(shù)據(jù)湖一直有著廣泛而不同的理解和定義,?!皵?shù)據(jù)湖是一個(gè)集中化存儲(chǔ)海量的,、多個(gè)來(lái)源,,多種類(lèi)型數(shù)據(jù),,并可以對(duì)數(shù)據(jù)進(jìn)行快速加工,分析的平臺(tái),,本質(zhì)上是一套先進(jìn)的企業(yè)數(shù)據(jù)架構(gòu),?!?/p> '數(shù)據(jù)湖'的核心價(jià)值在于為企業(yè)提供了數(shù)據(jù)平臺(tái)化運(yùn)營(yíng)機(jī)制,。隨著DT時(shí)代的到來(lái),企業(yè)急需變革,需要利用信息化,、數(shù)字化、新技術(shù)的利器形成平臺(tái)化系統(tǒng),,賦能公司的人員和業(yè)務(wù),,快速應(yīng)對(duì)挑戰(zhàn),。而這一切的數(shù)據(jù)基礎(chǔ),正是數(shù)據(jù)湖所能提供的,。 二,、數(shù)據(jù)湖特點(diǎn)數(shù)據(jù)湖本身,具備以下幾個(gè)特點(diǎn): 1)原始數(shù)據(jù)海量原始數(shù)據(jù)集中存儲(chǔ),,無(wú)需加工。數(shù)據(jù)湖通常是企業(yè)所有數(shù)據(jù)的單一存儲(chǔ),包括源系統(tǒng)數(shù)據(jù)的原始副本,,以及用于報(bào)告、可視化,、分析和機(jī)器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù),。數(shù)據(jù)湖可以包括來(lái)自關(guān)系數(shù)據(jù)庫(kù)(行和列)的結(jié)構(gòu)化數(shù)據(jù),,半結(jié)構(gòu)化數(shù)據(jù)(CSV,日志,, XML, JSON),,非結(jié)構(gòu)化數(shù)據(jù)(電子郵件,,文檔,, PDF)和二進(jìn)制數(shù)據(jù)(圖像,,音頻,視頻),。也就是數(shù)據(jù)湖將不同種類(lèi)的數(shù)據(jù)匯聚到一起,。 2)按需計(jì)算使用者按需處理,不需要移動(dòng)數(shù)據(jù)即可計(jì)算,。數(shù)據(jù)庫(kù)通常提供了多種數(shù)據(jù)計(jì)算引擎供用戶(hù)來(lái)選擇,。常見(jiàn)的包括批量、實(shí)時(shí)查詢(xún),、流式處理,、機(jī)器學(xué)習(xí)等。 3)延遲綁定數(shù)據(jù)湖提供靈活的,,面向任務(wù)的數(shù)據(jù)編訂,,不需要提前定義數(shù)據(jù)模型。 三,、數(shù)據(jù)湖優(yōu)缺點(diǎn)任何事物都有兩面性,,數(shù)據(jù)湖有優(yōu)點(diǎn)也同樣存在些缺點(diǎn)。 優(yōu)點(diǎn)包括:
缺點(diǎn)主要體現(xiàn)在:
四,、數(shù)據(jù)湖與關(guān)聯(lián)概念4.1 數(shù)據(jù)湖 vs 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖建設(shè)思路從本質(zhì)上顛覆了傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)方法論,。傳統(tǒng)的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)則強(qiáng)調(diào)的是整合、面向主題,、分層次等思路,。其兩者并不是對(duì)等的概念,更多是包含,;即數(shù)據(jù)倉(cāng)庫(kù)作為數(shù)據(jù)湖的一類(lèi)“數(shù)據(jù)應(yīng)用”存在,。兩者可從以下維度進(jìn)行對(duì)比: 1)存儲(chǔ)數(shù)據(jù)類(lèi)型
2)處理數(shù)據(jù)方式
這是兩種截然不同的數(shù)據(jù)處理方法,。因?yàn)閿?shù)據(jù)湖是在數(shù)據(jù)到使用時(shí)再定義模型結(jié)構(gòu),因此提高了數(shù)據(jù)模型定義的靈活性,,可滿(mǎn)足更多不同上層業(yè)務(wù)的高效率分析訴求,。 3)工作合作方式
4)其他還有很多方面,,我們通過(guò)下圖簡(jiǎn)要對(duì)比。 4.2 數(shù)據(jù)湖 vs 大數(shù)據(jù)數(shù)據(jù)湖的技術(shù)實(shí)現(xiàn),,與大數(shù)據(jù)技術(shù)緊密結(jié)合,。
4.3 數(shù)據(jù)湖 vs 云計(jì)算云計(jì)算采用虛擬化,、多租戶(hù)等技術(shù)滿(mǎn)足業(yè)務(wù)對(duì)服務(wù)器,、網(wǎng)絡(luò)、存儲(chǔ)等基礎(chǔ)資源的最大化利用,,降低企業(yè)對(duì)IT基礎(chǔ)設(shè)施的成本,,為企業(yè)帶來(lái)了巨大的經(jīng)濟(jì)性;同時(shí)云計(jì)算技術(shù)實(shí)現(xiàn)了主機(jī),、存儲(chǔ)等資源快速申請(qǐng),、使用,則同樣為企業(yè)帶來(lái)了更多的管理便捷性,。在構(gòu)建數(shù)據(jù)湖的基礎(chǔ)設(shè)施時(shí),,云計(jì)算技術(shù)可以發(fā)揮很大作用,。此外,像AWS,、MicroSoft,、EMC等均提供了云端的數(shù)據(jù)湖服務(wù)。 4.4 數(shù)據(jù)湖 vs 人工智能近些年,,人工智能技術(shù)再一次飛速發(fā)展,,訓(xùn)練和推理等需要同時(shí)處理超大的,甚至是多個(gè)數(shù)據(jù)集,,這些數(shù)據(jù)集通常是視頻,、圖片、文本等非結(jié)構(gòu)化數(shù)據(jù),,來(lái)源于多個(gè)行業(yè),、組織、項(xiàng)目,,對(duì)這些數(shù)據(jù)的采集,、存儲(chǔ)、清洗,、轉(zhuǎn)換,、特征提取等工作是一個(gè)系列復(fù)雜、漫長(zhǎng)的工程,。數(shù)據(jù)湖需要為人工智能程序提供數(shù)據(jù)快速收集,、治理、分析的平臺(tái),,同時(shí)提供極高的帶寬,、海量小文件存取、多協(xié)議互通,、數(shù)據(jù)共享的能力,,可以極大加速數(shù)據(jù)挖掘、深度學(xué)習(xí)等過(guò)程,。 4.5 數(shù)據(jù)湖 vs 數(shù)據(jù)治理傳統(tǒng)方式下,,數(shù)據(jù)治理工作往往是在數(shù)據(jù)倉(cāng)庫(kù)中。那么在構(gòu)建企業(yè)級(jí)數(shù)據(jù)湖后,,對(duì)數(shù)據(jù)治理的需求實(shí)際更強(qiáng)了,。因?yàn)榕c”預(yù)建模”方式的數(shù)倉(cāng)不同,,湖中的數(shù)據(jù)更加分散,、無(wú)序、不規(guī)格化等,需要通過(guò)治理工作達(dá)到數(shù)據(jù)”可用”狀態(tài),,否則數(shù)據(jù)湖很可能會(huì)”腐化”成數(shù)據(jù)沼澤,,浪費(fèi)大量的IT資源。平臺(tái)化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動(dòng)企業(yè)業(yè)務(wù)發(fā)展,,數(shù)據(jù)治理至關(guān)重要,。這也是對(duì)數(shù)據(jù)湖建設(shè)的最大挑戰(zhàn)之一。 4.6 數(shù)據(jù)湖 vs 數(shù)據(jù)安全數(shù)據(jù)湖中存放有大量原始及加工過(guò)的數(shù)據(jù),,這些數(shù)據(jù)在不受監(jiān)管的情況下被訪(fǎng)問(wèn)是非常危險(xiǎn)的,。這里是需要考慮必要的數(shù)據(jù)安全及隱私保護(hù)問(wèn)題,這些是需要數(shù)據(jù)湖提供的能力,。但換種角度來(lái)看,,將數(shù)據(jù)集中在數(shù)據(jù)湖中,其實(shí)是有利于數(shù)據(jù)安全工作的,。這要比數(shù)據(jù)分散在企業(yè)各處要好的多,。 五、數(shù)據(jù)湖架構(gòu)5.1 數(shù)據(jù)接入在數(shù)據(jù)接入方面,,需提供適配的多源異構(gòu)數(shù)據(jù)資源接入方式,,為企業(yè)數(shù)據(jù)湖的數(shù)據(jù)抽取匯聚提供通道。提供如下能力:
5.2 數(shù)據(jù)存儲(chǔ)許多企業(yè)通常忽略數(shù)據(jù)積累的價(jià)值,數(shù)據(jù)需要從企業(yè)的各個(gè)方面持續(xù)的收集,、存儲(chǔ),,才有可能基于這些數(shù)據(jù)挖掘出價(jià)值信息,,指導(dǎo)業(yè)務(wù)決策,驅(qū)動(dòng)公司發(fā)展,。因此數(shù)據(jù)湖需要提供的核心能力之一就是存儲(chǔ)能力,。通過(guò)一套數(shù)據(jù)存儲(chǔ)池,可有效解決企業(yè)中的數(shù)據(jù)煙囪問(wèn)題,,提供統(tǒng)一的命名空間,,多協(xié)議互通訪(fǎng)問(wèn),實(shí)現(xiàn)數(shù)據(jù)資源的高效共享,,減少數(shù)據(jù)移動(dòng),。當(dāng)然數(shù)據(jù)在湖中也不能無(wú)序存放,這里需要有個(gè)數(shù)據(jù)生命周期的概念,。需要根據(jù)數(shù)據(jù)的不同階段,,根據(jù)其價(jià)值、成本因素,,設(shè)計(jì)可行的存儲(chǔ)方案,。 5.3 數(shù)據(jù)計(jì)算數(shù)據(jù)湖需要提供多種數(shù)據(jù)分析引擎,來(lái)滿(mǎn)足數(shù)據(jù)計(jì)算需求,。需要滿(mǎn)足批量,、實(shí)時(shí)、流式等特定計(jì)算場(chǎng)景,。此外,,向下還需要提供海量數(shù)據(jù)的訪(fǎng)問(wèn)能力,,可滿(mǎn)足高并發(fā)讀取需求,,提高實(shí)時(shí)分析效率,。 5.4 數(shù)據(jù)應(yīng)用在基本的計(jì)算能力之上,數(shù)據(jù)湖需提供批量報(bào)表,、即席查詢(xún),、交互式分析、數(shù)據(jù)倉(cāng)庫(kù),、機(jī)器學(xué)習(xí)等上層應(yīng)用,,還需要提供自助式數(shù)據(jù)探索能力。 作者:韓鋒 來(lái)源:宜信技術(shù)學(xué)院 |
|