久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

宜信技術(shù)實(shí)踐:漫談“數(shù)據(jù)湖”,價(jià)值與架構(gòu)

 昵稱(chēng)16619343 2019-07-04

一,、數(shù)據(jù)湖概念的提出

數(shù)據(jù)湖這一概念,,最早是在2011年由CITO Research網(wǎng)站的CTO和作家Dan Woods首次提出。其比喻是:如果我們把數(shù)據(jù)比作大自然的水,,那么各個(gè)江川河流的水未經(jīng)加工,源源不斷地匯聚到數(shù)據(jù)湖中,。業(yè)界便對(duì)數(shù)據(jù)湖一直有著廣泛而不同的理解和定義,?!皵?shù)據(jù)湖是一個(gè)集中化存儲(chǔ)海量的,、多個(gè)來(lái)源,,多種類(lèi)型數(shù)據(jù),,并可以對(duì)數(shù)據(jù)進(jìn)行快速加工,分析的平臺(tái),,本質(zhì)上是一套先進(jìn)的企業(yè)數(shù)據(jù)架構(gòu),?!?/p>

'數(shù)據(jù)湖'的核心價(jià)值在于為企業(yè)提供了數(shù)據(jù)平臺(tái)化運(yùn)營(yíng)機(jī)制,。隨著DT時(shí)代的到來(lái),企業(yè)急需變革,需要利用信息化,、數(shù)字化、新技術(shù)的利器形成平臺(tái)化系統(tǒng),,賦能公司的人員和業(yè)務(wù),,快速應(yīng)對(duì)挑戰(zhàn),。而這一切的數(shù)據(jù)基礎(chǔ),正是數(shù)據(jù)湖所能提供的,。

二,、數(shù)據(jù)湖特點(diǎn)

數(shù)據(jù)湖本身,具備以下幾個(gè)特點(diǎn):

1)原始數(shù)據(jù)

海量原始數(shù)據(jù)集中存儲(chǔ),,無(wú)需加工。數(shù)據(jù)湖通常是企業(yè)所有數(shù)據(jù)的單一存儲(chǔ),包括源系統(tǒng)數(shù)據(jù)的原始副本,,以及用于報(bào)告、可視化,、分析和機(jī)器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù),。數(shù)據(jù)湖可以包括來(lái)自關(guān)系數(shù)據(jù)庫(kù)(行和列)的結(jié)構(gòu)化數(shù)據(jù),,半結(jié)構(gòu)化數(shù)據(jù)(CSV,日志,, XML, JSON),,非結(jié)構(gòu)化數(shù)據(jù)(電子郵件,,文檔,, PDF)和二進(jìn)制數(shù)據(jù)(圖像,,音頻,視頻),。也就是數(shù)據(jù)湖將不同種類(lèi)的數(shù)據(jù)匯聚到一起,。

2)按需計(jì)算

使用者按需處理,不需要移動(dòng)數(shù)據(jù)即可計(jì)算,。數(shù)據(jù)庫(kù)通常提供了多種數(shù)據(jù)計(jì)算引擎供用戶(hù)來(lái)選擇,。常見(jiàn)的包括批量、實(shí)時(shí)查詢(xún),、流式處理,、機(jī)器學(xué)習(xí)等。

3)延遲綁定

數(shù)據(jù)湖提供靈活的,,面向任務(wù)的數(shù)據(jù)編訂,,不需要提前定義數(shù)據(jù)模型。

三,、數(shù)據(jù)湖優(yōu)缺點(diǎn)

任何事物都有兩面性,,數(shù)據(jù)湖有優(yōu)點(diǎn)也同樣存在些缺點(diǎn)。

優(yōu)點(diǎn)包括:

  • 數(shù)據(jù)湖中的數(shù)據(jù)最接近原生的,。這對(duì)于數(shù)據(jù)探索類(lèi)需求,,帶來(lái)很大便利,,可以直接得到原始數(shù)據(jù)。

  • 數(shù)據(jù)湖統(tǒng)一企業(yè)內(nèi)部各個(gè)業(yè)務(wù)系統(tǒng)數(shù)據(jù),,解決信息孤島問(wèn)題,。為橫跨多個(gè)系統(tǒng)的數(shù)據(jù)應(yīng)用,提供一種可能,。

  • 數(shù)據(jù)湖提供了全局的、統(tǒng)一的企業(yè)級(jí)數(shù)據(jù)概覽視圖,,這對(duì)于數(shù)據(jù)質(zhì)量,、數(shù)據(jù)安全..直到整體的數(shù)據(jù)治理,甚至提高到數(shù)據(jù)資產(chǎn)層面都大有裨益,。

  • 數(shù)據(jù)湖改變了原有工作模式,,鼓勵(lì)人人了解、分析數(shù)據(jù),;而不是依賴(lài)于專(zhuān)門(mén)的數(shù)據(jù)團(tuán)隊(duì)的”供給”方式,,可以提升數(shù)據(jù)運(yùn)營(yíng)效率、改善客戶(hù)互動(dòng),、鼓勵(lì)數(shù)據(jù)創(chuàng)新,。

缺點(diǎn)主要體現(xiàn)在:

  • 對(duì)數(shù)據(jù)的歸集處理程度明顯缺失,對(duì)于試圖直接使用數(shù)據(jù)的用戶(hù)來(lái)說(shuō)顯得有些過(guò)于“原材料”化,,且數(shù)據(jù)太過(guò)冗余,。應(yīng)對(duì)這一問(wèn)題,可通過(guò)”數(shù)據(jù)接入+數(shù)據(jù)加工+數(shù)據(jù)建?!钡姆绞絹?lái)解決,。

  • 對(duì)數(shù)據(jù)湖基礎(chǔ)層的性能有較高要求,必須依托高性能的服務(wù)器進(jìn)行數(shù)據(jù)處理過(guò)程,。這主要是來(lái)自于海量數(shù)據(jù),、異構(gòu)多樣化數(shù)據(jù)、延遲綁定模式等帶來(lái)的問(wèn)題,。

  • 數(shù)據(jù)處理技能要求高,。這也主要是因?yàn)閿?shù)據(jù)過(guò)于原始帶來(lái)的問(wèn)題。

四,、數(shù)據(jù)湖與關(guān)聯(lián)概念

4.1 數(shù)據(jù)湖 vs 數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)湖建設(shè)思路從本質(zhì)上顛覆了傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)方法論,。傳統(tǒng)的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)則強(qiáng)調(diào)的是整合、面向主題,、分層次等思路,。其兩者并不是對(duì)等的概念,更多是包含,;即數(shù)據(jù)倉(cāng)庫(kù)作為數(shù)據(jù)湖的一類(lèi)“數(shù)據(jù)應(yīng)用”存在,。兩者可從以下維度進(jìn)行對(duì)比:

1)存儲(chǔ)數(shù)據(jù)類(lèi)型

  • 數(shù)據(jù)倉(cāng)庫(kù)是存儲(chǔ)清洗加工過(guò)的,,可信任的、結(jié)構(gòu)良好的數(shù)據(jù),;

  • 數(shù)據(jù)湖則是存儲(chǔ)大量原始數(shù)據(jù),,包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù),。在我們世界中,,主要是由原始的、混亂的,、非結(jié)構(gòu)化的數(shù)據(jù)組成,。隨著“混亂數(shù)據(jù)”的不斷升級(jí),人們對(duì)它的興趣也不斷增長(zhǎng),,想要更好的理解它,、從其中獲取價(jià)值、并根據(jù)它做出決策,。這就得需要一個(gè)靈活,、敏捷、經(jīng)濟(jì)且相對(duì)輕松的解決方案,,然而這些都不是數(shù)據(jù)倉(cāng)庫(kù)的強(qiáng)項(xiàng),。而且當(dāng)有新的需求提出時(shí),傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)又難以快速隨之變化,。

2)處理數(shù)據(jù)方式

  • 如果需要加載到數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),,我們首先需要定義好它,這叫做寫(xiě)時(shí)模式(Schema-On-Write),。

  • 而對(duì)于數(shù)據(jù)湖,,您只需加載原始數(shù)據(jù),然后,,當(dāng)您準(zhǔn)備使用數(shù)據(jù)時(shí),,就給它一個(gè)定義,這叫做讀時(shí)模式(Schema-On-Read),。

這是兩種截然不同的數(shù)據(jù)處理方法,。因?yàn)閿?shù)據(jù)湖是在數(shù)據(jù)到使用時(shí)再定義模型結(jié)構(gòu),因此提高了數(shù)據(jù)模型定義的靈活性,,可滿(mǎn)足更多不同上層業(yè)務(wù)的高效率分析訴求,。

3)工作合作方式

  • 傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)的工作方式是集中式的,業(yè)務(wù)人員給需求到數(shù)據(jù)團(tuán)隊(duì),,數(shù)據(jù)團(tuán)隊(duì)根據(jù)要求加工,、開(kāi)發(fā)成維度表,供業(yè)務(wù)團(tuán)隊(duì)通過(guò)BI報(bào)表工具查詢(xún)。

  • 數(shù)據(jù)湖更多是開(kāi)放,、自助式的(self-service),,開(kāi)放數(shù)據(jù)給所有人使用,數(shù)據(jù)團(tuán)隊(duì)更多是提供工具,、環(huán)境供各業(yè)務(wù)團(tuán)隊(duì)使用(不過(guò)集中式的維度表建設(shè)還是需要的),,業(yè)務(wù)團(tuán)隊(duì)進(jìn)行開(kāi)發(fā)、分析,。

4)其他

還有很多方面,,我們通過(guò)下圖簡(jiǎn)要對(duì)比。

4.2 數(shù)據(jù)湖 vs 大數(shù)據(jù)

數(shù)據(jù)湖的技術(shù)實(shí)現(xiàn),,與大數(shù)據(jù)技術(shù)緊密結(jié)合,。

  • 通過(guò)Hadoop存儲(chǔ)成本低的特點(diǎn),將海量的原始數(shù)據(jù),、本地?cái)?shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)等保存在Hadoop中,。這樣所有數(shù)據(jù)都在一個(gè)地方存儲(chǔ),,能給后續(xù)的管理、再處理,、分析提供基礎(chǔ),。

  • 通過(guò)Hive、Spark等低成本處理能力(相較于RDBMS),,將數(shù)據(jù)交給大數(shù)據(jù)庫(kù)平臺(tái)劑型處理,。此外,還可通過(guò)Storm,、Flink等支持流式處理等特殊計(jì)算方式,。

  • 由于Hadoop的可擴(kuò)展性,可以很方便地實(shí)現(xiàn)全量數(shù)據(jù)存儲(chǔ),。結(jié)合數(shù)據(jù)生命周期管理,,可做到全時(shí)間跨度的數(shù)據(jù)管控。

4.3 數(shù)據(jù)湖 vs 云計(jì)算

云計(jì)算采用虛擬化,、多租戶(hù)等技術(shù)滿(mǎn)足業(yè)務(wù)對(duì)服務(wù)器,、網(wǎng)絡(luò)、存儲(chǔ)等基礎(chǔ)資源的最大化利用,,降低企業(yè)對(duì)IT基礎(chǔ)設(shè)施的成本,,為企業(yè)帶來(lái)了巨大的經(jīng)濟(jì)性;同時(shí)云計(jì)算技術(shù)實(shí)現(xiàn)了主機(jī),、存儲(chǔ)等資源快速申請(qǐng),、使用,則同樣為企業(yè)帶來(lái)了更多的管理便捷性,。在構(gòu)建數(shù)據(jù)湖的基礎(chǔ)設(shè)施時(shí),,云計(jì)算技術(shù)可以發(fā)揮很大作用,。此外,像AWS,、MicroSoft,、EMC等均提供了云端的數(shù)據(jù)湖服務(wù)。

4.4 數(shù)據(jù)湖 vs 人工智能

近些年,,人工智能技術(shù)再一次飛速發(fā)展,,訓(xùn)練和推理等需要同時(shí)處理超大的,甚至是多個(gè)數(shù)據(jù)集,,這些數(shù)據(jù)集通常是視頻,、圖片、文本等非結(jié)構(gòu)化數(shù)據(jù),,來(lái)源于多個(gè)行業(yè),、組織、項(xiàng)目,,對(duì)這些數(shù)據(jù)的采集,、存儲(chǔ)、清洗,、轉(zhuǎn)換,、特征提取等工作是一個(gè)系列復(fù)雜、漫長(zhǎng)的工程,。數(shù)據(jù)湖需要為人工智能程序提供數(shù)據(jù)快速收集,、治理、分析的平臺(tái),,同時(shí)提供極高的帶寬,、海量小文件存取、多協(xié)議互通,、數(shù)據(jù)共享的能力,,可以極大加速數(shù)據(jù)挖掘、深度學(xué)習(xí)等過(guò)程,。

4.5 數(shù)據(jù)湖 vs 數(shù)據(jù)治理

傳統(tǒng)方式下,,數(shù)據(jù)治理工作往往是在數(shù)據(jù)倉(cāng)庫(kù)中。那么在構(gòu)建企業(yè)級(jí)數(shù)據(jù)湖后,,對(duì)數(shù)據(jù)治理的需求實(shí)際更強(qiáng)了,。因?yàn)榕c”預(yù)建模”方式的數(shù)倉(cāng)不同,,湖中的數(shù)據(jù)更加分散,、無(wú)序、不規(guī)格化等,需要通過(guò)治理工作達(dá)到數(shù)據(jù)”可用”狀態(tài),,否則數(shù)據(jù)湖很可能會(huì)”腐化”成數(shù)據(jù)沼澤,,浪費(fèi)大量的IT資源。平臺(tái)化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動(dòng)企業(yè)業(yè)務(wù)發(fā)展,,數(shù)據(jù)治理至關(guān)重要,。這也是對(duì)數(shù)據(jù)湖建設(shè)的最大挑戰(zhàn)之一。

4.6 數(shù)據(jù)湖 vs 數(shù)據(jù)安全

數(shù)據(jù)湖中存放有大量原始及加工過(guò)的數(shù)據(jù),,這些數(shù)據(jù)在不受監(jiān)管的情況下被訪(fǎng)問(wèn)是非常危險(xiǎn)的,。這里是需要考慮必要的數(shù)據(jù)安全及隱私保護(hù)問(wèn)題,這些是需要數(shù)據(jù)湖提供的能力,。但換種角度來(lái)看,,將數(shù)據(jù)集中在數(shù)據(jù)湖中,其實(shí)是有利于數(shù)據(jù)安全工作的,。這要比數(shù)據(jù)分散在企業(yè)各處要好的多,。

五、數(shù)據(jù)湖架構(gòu)

5.1 數(shù)據(jù)接入

在數(shù)據(jù)接入方面,,需提供適配的多源異構(gòu)數(shù)據(jù)資源接入方式,,為企業(yè)數(shù)據(jù)湖的數(shù)據(jù)抽取匯聚提供通道。提供如下能力:

  • 數(shù)據(jù)源配置:支持多種數(shù)據(jù)源,,包括但不限于數(shù)據(jù)庫(kù)、文件,、隊(duì)列,、協(xié)議報(bào)文等。

  • 數(shù)據(jù)采集:支持對(duì)應(yīng)數(shù)據(jù)源的采集動(dòng)作,,需完成結(jié)構(gòu)解析,、清洗、標(biāo)準(zhǔn)化格式等,。

  • 數(shù)據(jù)同步:支持?jǐn)?shù)據(jù)同步到其他數(shù)據(jù)源,,包括必要的清洗、加工,、轉(zhuǎn)換等,。

  • 數(shù)據(jù)分發(fā):支持?jǐn)?shù)據(jù)的共享分發(fā),將數(shù)據(jù)以多種形式(對(duì)象,、API等)發(fā)布出來(lái),。

  • 任務(wù)調(diào)度:任務(wù)管理、監(jiān)控,、日志、策略等。

  • 數(shù)據(jù)加工:支持對(duì)數(shù)據(jù)的加密,、脫敏,、規(guī)格化,、標(biāo)準(zhǔn)化等加工邏輯,。

5.2 數(shù)據(jù)存儲(chǔ)

許多企業(yè)通常忽略數(shù)據(jù)積累的價(jià)值,數(shù)據(jù)需要從企業(yè)的各個(gè)方面持續(xù)的收集,、存儲(chǔ),,才有可能基于這些數(shù)據(jù)挖掘出價(jià)值信息,,指導(dǎo)業(yè)務(wù)決策,驅(qū)動(dòng)公司發(fā)展,。因此數(shù)據(jù)湖需要提供的核心能力之一就是存儲(chǔ)能力,。通過(guò)一套數(shù)據(jù)存儲(chǔ)池,可有效解決企業(yè)中的數(shù)據(jù)煙囪問(wèn)題,,提供統(tǒng)一的命名空間,,多協(xié)議互通訪(fǎng)問(wèn),實(shí)現(xiàn)數(shù)據(jù)資源的高效共享,,減少數(shù)據(jù)移動(dòng),。當(dāng)然數(shù)據(jù)在湖中也不能無(wú)序存放,這里需要有個(gè)數(shù)據(jù)生命周期的概念,。需要根據(jù)數(shù)據(jù)的不同階段,,根據(jù)其價(jià)值、成本因素,,設(shè)計(jì)可行的存儲(chǔ)方案,。

5.3 數(shù)據(jù)計(jì)算

數(shù)據(jù)湖需要提供多種數(shù)據(jù)分析引擎,來(lái)滿(mǎn)足數(shù)據(jù)計(jì)算需求,。需要滿(mǎn)足批量,、實(shí)時(shí)、流式等特定計(jì)算場(chǎng)景,。此外,,向下還需要提供海量數(shù)據(jù)的訪(fǎng)問(wèn)能力,,可滿(mǎn)足高并發(fā)讀取需求,,提高實(shí)時(shí)分析效率,。

5.4 數(shù)據(jù)應(yīng)用

在基本的計(jì)算能力之上,數(shù)據(jù)湖需提供批量報(bào)表,、即席查詢(xún),、交互式分析、數(shù)據(jù)倉(cāng)庫(kù),、機(jī)器學(xué)習(xí)等上層應(yīng)用,,還需要提供自助式數(shù)據(jù)探索能力。

作者:韓鋒

來(lái)源:宜信技術(shù)學(xué)院

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶(hù)發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多