從0到1搭建大數(shù)據(jù)平臺(tái)之?dāng)?shù)據(jù)存儲(chǔ)

520jefferson 2022-08-03 發(fā)布于北京

展開(kāi)全文

一、前言

我們都知道,，采集數(shù)據(jù)之后,，得到數(shù)據(jù)是原始的和雜亂的，必須經(jīng)過(guò)專(zhuān)門(mén)的清洗,、關(guān)聯(lián),、規(guī)范化和精心的組織建模，而且要通過(guò)數(shù)據(jù)質(zhì)量檢測(cè)后才能進(jìn)行后續(xù)的數(shù)據(jù)分析或用于提供數(shù)據(jù)服務(wù),，而這就是數(shù)據(jù)平臺(tái)構(gòu)建的關(guān)鍵環(huán)節(jié)-->數(shù)據(jù)存儲(chǔ)處理

而我們今天要聊的是大數(shù)據(jù)平臺(tái)是如何去存儲(chǔ)海量數(shù)據(jù)呢 ,？

在之前，我們聊過(guò),，大數(shù)據(jù)的數(shù)據(jù)采集并存儲(chǔ)的數(shù)據(jù)流程,，如下圖所示：

在整個(gè)大數(shù)據(jù)生態(tài)圈里，數(shù)據(jù)存儲(chǔ)可以分為兩大類(lèi)：

1,、是直接以文件形式存放在分布式文件系統(tǒng)上,，處理工具可以直接讀寫(xiě) (Hive 和SparkSQL 都是這類(lèi))。

2,、通過(guò)kafak存儲(chǔ)實(shí)時(shí)數(shù)據(jù),，經(jīng)過(guò)實(shí)時(shí)計(jì)算框架最后把指標(biāo)數(shù)據(jù)利用NoSQL數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)和管理數(shù)據(jù)(NOSQL數(shù)據(jù)庫(kù)Hbase之類(lèi))。

二,、數(shù)據(jù)存儲(chǔ)的發(fā)展

2.1 傳統(tǒng)數(shù)據(jù)存儲(chǔ)

互聯(lián)網(wǎng)時(shí)代各種存儲(chǔ)框架層出不窮,，眼花繚亂，比如傳統(tǒng)的OLTP關(guān)系型數(shù)據(jù)庫(kù)Oracle,、MySQL,。

之前進(jìn)行業(yè)務(wù)指標(biāo)的統(tǒng)計(jì)分析都是基于傳統(tǒng)的事務(wù)型數(shù)據(jù)庫(kù)，傳統(tǒng)的事務(wù)型數(shù)據(jù)庫(kù)主要面對(duì)單一的業(yè)務(wù)系統(tǒng),，實(shí)現(xiàn)的是面向事務(wù)的增刪改查,。

隨著業(yè)務(wù)的不斷發(fā)展，產(chǎn)生的海量數(shù)據(jù),，面對(duì)復(fù)雜的數(shù)據(jù)分析指標(biāo),，單一的事務(wù)性數(shù)據(jù)庫(kù)已經(jīng)不能滿(mǎn)足數(shù)據(jù)分析的場(chǎng)景。

最根本的原因在于：數(shù)據(jù)分析通常需要訪問(wèn)大量的數(shù)據(jù),，單條數(shù)據(jù)的分析沒(méi)有任何意義,。它不僅需要訪問(wèn)大量的數(shù)據(jù)，還要對(duì)其進(jìn)行頻繁的統(tǒng)計(jì)和查詢(xún),。

1,、大量訪問(wèn)數(shù)據(jù),，這些請(qǐng)求占用了大量數(shù)據(jù)庫(kù)的資源，嚴(yán)重到影響生產(chǎn)系統(tǒng)的性能,。

2,、大量的數(shù)據(jù)訪問(wèn)通常需要全表掃描，頻繁而且通常又是并發(fā)地全表掃描會(huì)造成事務(wù)型數(shù)據(jù)庫(kù)響應(yīng)異常緩慢甚至宕機(jī),。

這促使數(shù)據(jù)倉(cāng)庫(kù)概念的出現(xiàn),。

2.2 數(shù)據(jù)倉(cāng)庫(kù)

在 1991 年出版的《Building the Data Warehouse》中，數(shù)據(jù)倉(cāng)庫(kù)之父比爾·恩門(mén)（Bill Inmon）首次給出了數(shù)據(jù)倉(cāng)庫(kù)的完整定義,，他認(rèn)為：

數(shù)據(jù)倉(cāng)庫(kù)是在企業(yè)管理和決策中面向主題的,、集成的、與時(shí)間相關(guān)的,，不可修改的數(shù)據(jù)集合,。

1、所謂主題：要把不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)同步到一個(gè)統(tǒng)一的數(shù)據(jù)倉(cāng)庫(kù)中,，然后按照主題域方式組織數(shù)據(jù)。主題可以把它理解為數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)目錄,。

2,、所謂集成：是指數(shù)據(jù)倉(cāng)庫(kù)中的信息不是從各個(gè)業(yè)務(wù)系統(tǒng)中簡(jiǎn)單抽取出來(lái)的，而是經(jīng)過(guò)一系列加工,、整理和匯總的過(guò)程,，因此數(shù)據(jù)倉(cāng)庫(kù)中的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。

3,、所謂隨時(shí)間變化：是指數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息并不只是反映企業(yè)當(dāng)前的狀態(tài),，而是記錄了從過(guò)去某一時(shí)點(diǎn)到當(dāng)前各個(gè)階段的信息。通過(guò)這些信息,，可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè),。

簡(jiǎn)而言之，它綜合多個(gè)業(yè)務(wù)系統(tǒng)數(shù)據(jù),，主要用于歷史性,、綜合性和深層次數(shù)據(jù)分析。

在了解數(shù)據(jù)倉(cāng)庫(kù)之后,，不得不提下經(jīng)典的兩個(gè)數(shù)倉(cāng)建模技術(shù),。

比爾·恩門(mén)（Bill Inmon）和金博爾（Kimball）

恩門(mén)提出的建模方法自頂向下（這里的頂是指數(shù)據(jù)的來(lái)源，在傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)中,，就是各個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)）,，基于業(yè)務(wù)中各個(gè)實(shí)體以及實(shí)體之間的關(guān)系，構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),。

舉個(gè)例子：

在一個(gè)最簡(jiǎn)單的買(mǎi)家購(gòu)買(mǎi)商品的場(chǎng)景中,，按照恩門(mén)建模的思維模式,，首先你要理清這個(gè)業(yè)務(wù)過(guò)程中涉及哪些實(shí)體。買(mǎi)家,、商品是一個(gè)實(shí)體,，買(mǎi)家購(gòu)買(mǎi)商品是一個(gè)關(guān)系。所以,，模型設(shè)計(jì)應(yīng)該有買(mǎi)家表,，商品表，和買(mǎi)家商品交易表三個(gè)模型,。

金博爾建模與恩門(mén)正好相反,，是一種自底向上的模型設(shè)計(jì)方法，從數(shù)據(jù)分析的需求出發(fā),，拆分維度和事實(shí),。那么用戶(hù)、商品就是維度,，庫(kù)存,、用戶(hù)賬戶(hù)余額是事實(shí)。

總結(jié)這兩種數(shù)倉(cāng)建模技術(shù)：

這兩種方法各有優(yōu)劣,，恩門(mén)建模因?yàn)槭菑臄?shù)據(jù)源開(kāi)始構(gòu)建,，構(gòu)建成本比較高，適用于應(yīng)用場(chǎng)景比較固定的業(yè)務(wù),，比如金融領(lǐng)域,，冗余數(shù)據(jù)少是它的優(yōu)勢(shì)。金博爾建模由于是從分析場(chǎng)景出發(fā),，適用于變化速度比較快的業(yè)務(wù),，比如互聯(lián)網(wǎng)業(yè)務(wù)。由于現(xiàn)在的業(yè)務(wù)變化都比較快,，所以我更推薦金博爾的建模設(shè)計(jì)方法,。

2.3 數(shù)據(jù)湖

傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)，第一次明確了數(shù)據(jù)分析的應(yīng)用場(chǎng)景應(yīng)該用單獨(dú)的解決方案去實(shí)現(xiàn),，不再依賴(lài)于業(yè)務(wù)的數(shù)據(jù)庫(kù),。

在模型設(shè)計(jì)上，提出了數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)的方法論,，為后來(lái)數(shù)據(jù)分析的大規(guī)模應(yīng)用奠定了基礎(chǔ),。

但是進(jìn)入互聯(lián)網(wǎng)時(shí)代后，最為重要的兩個(gè)變化：

1,、數(shù)據(jù)規(guī)模前所未有,，傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)難于擴(kuò)展，根本無(wú)法承擔(dān)如此規(guī)模的海量數(shù)據(jù),。2,、數(shù)據(jù)類(lèi)型變得異構(gòu)化,，不僅有結(jié)構(gòu)化數(shù)據(jù)，還有半結(jié)構(gòu)化,，非結(jié)構(gòu)數(shù)據(jù),。而傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)對(duì)數(shù)據(jù)模型有嚴(yán)格的要求，在數(shù)據(jù)導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)前,，數(shù)據(jù)模型就必須事先定義好,，數(shù)據(jù)必須按照模型設(shè)計(jì)存儲(chǔ)。

因總總的限制,，導(dǎo)致傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)無(wú)法支撐互聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)挖掘,。

隨著大數(shù)據(jù)技術(shù)普及，數(shù)據(jù)湖概念被提出,。

數(shù)據(jù)湖（Data Lake）是一個(gè)以原始格式存儲(chǔ)數(shù)據(jù)的存儲(chǔ)庫(kù)或系統(tǒng),。

其構(gòu)建組件基于Hadoop進(jìn)行存儲(chǔ)。

簡(jiǎn)而言之,，數(shù)據(jù)湖原始數(shù)據(jù)統(tǒng)一存放在HDFS系統(tǒng)上,，引擎以Hadoop和Spark,Flink開(kāi)源生態(tài)為主，存儲(chǔ)和計(jì)算一體,。

通俗總結(jié)：數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖

數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)(先處理后存儲(chǔ)),。

數(shù)據(jù)湖存儲(chǔ)原始數(shù)據(jù)(先存儲(chǔ)后處理)。

這里可以用一個(gè)做菜的場(chǎng)景做一個(gè)類(lèi)比,。以前數(shù)據(jù)倉(cāng)庫(kù)的時(shí)候，好比把原材料都加工好了,，比如土豆清洗,，去皮，切片,，這樣炒土豆片的時(shí)候直接炒就可以了,。數(shù)據(jù)湖的時(shí)候呢，直接把土豆存儲(chǔ)進(jìn)來(lái),，這樣以后想炒土豆片就切片,，想炒土豆絲就切絲。增加了靈活性的同時(shí),，省去了前期頭都處理的費(fèi)用,。

三、批處理的數(shù)據(jù)存儲(chǔ)

3.1 HDFS分布式文件系統(tǒng)

Hadoop Distributed File System,，簡(jiǎn)稱(chēng)HDFS,，是一個(gè)分布式文件系統(tǒng)。它是谷歌的Google File System ( GFS）提出之后,， Doug Cutting 受Google 啟發(fā)而開(kāi)發(fā)的一種類(lèi)GFS 文件系統(tǒng),。

它有一定高度的容錯(cuò)性,，而且提供了高吞吐量的數(shù)據(jù)訪問(wèn)，非常適合大規(guī)模數(shù)據(jù) 集上的應(yīng)用,。

HDFS提供了一個(gè)高容錯(cuò)性和高吞吐量的海量數(shù)據(jù)存儲(chǔ)解決方案,。

在Hadoop 的整個(gè)架構(gòu)中， HDFS在MapReduce 任務(wù)處理過(guò)程中提供了對(duì)文件操作和存儲(chǔ)等的支持,， MapReduce 在HDFS基礎(chǔ)上實(shí)現(xiàn)了任務(wù)的分發(fā),、跟蹤和執(zhí)行等工作，并收集結(jié)果,，兩者相互作用,，共同完成了Hadoop 分布式集群的主要任務(wù)。

HDFS分布式文件架構(gòu)如下所示：

離線(xiàn)數(shù)據(jù)一般基于HDFS分布式文件系統(tǒng)作為數(shù)據(jù)倉(cāng)庫(kù),。

四,、實(shí)時(shí)處理的數(shù)據(jù)存儲(chǔ)

實(shí)時(shí)處理的數(shù)據(jù)為無(wú)界流數(shù)據(jù)，因此分為原數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理后的存儲(chǔ),。

4.1 原數(shù)據(jù)存儲(chǔ)

實(shí)時(shí)數(shù)據(jù)處理通常還會(huì)有從某歷史時(shí)間點(diǎn)重啟以及多個(gè)實(shí)時(shí)任務(wù)都要使用同一源頭數(shù)據(jù)的需求,，因此通常還會(huì)引人消息中間件Kafka來(lái)作為緩沖，從而達(dá)到實(shí)時(shí)數(shù)據(jù)采集和處理的適配,。

Kafka是最初由Linkedin公司開(kāi)發(fā),，是一個(gè)分布式、可分區(qū),、多副本,，基于zookeeper協(xié)調(diào)的分布式消息系統(tǒng)。

場(chǎng)景：在實(shí)時(shí)數(shù)倉(cāng)中,，以 Kafka 為支撐,，將所有需要實(shí)時(shí)處理的相關(guān)數(shù)據(jù)放到 Kafka隊(duì)列中來(lái)實(shí)現(xiàn)貼源數(shù)據(jù)層(ODS)。

4.2 實(shí)時(shí)處理之后的數(shù)據(jù)存儲(chǔ)

1,、HBase的NOSQL數(shù)據(jù)庫(kù)

HBase 是一種構(gòu)建在HDFS 之上的分布式,、面向列族的存儲(chǔ)系統(tǒng)。在需要實(shí)時(shí)讀寫(xiě)并隨機(jī)訪問(wèn)超大規(guī)模數(shù)據(jù)集等場(chǎng)景下,， HBase 目前是市場(chǎng)上主流的技術(shù)選擇,。HBase 技術(shù)來(lái)源于Google 論文《Bigtable ：一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)》。

如同Bigtable 利用了Google File System 提供的分布式數(shù)據(jù)存儲(chǔ)方式一樣,， HBase 在HDFS 之上提供了類(lèi)似于Bigtable 的能力,。

HBase解決了傳統(tǒng)數(shù)據(jù)庫(kù)的單點(diǎn)性能極限。

實(shí)際上,，傳統(tǒng)的數(shù)據(jù)庫(kù)解決方案,，尤其是關(guān)系型數(shù)據(jù)庫(kù)也可以通過(guò)復(fù)制和分區(qū)的方法來(lái)提高單點(diǎn)性能極限，但這些都是后知后覺(jué)的,，安裝和維護(hù)都非常復(fù)雜,。而HBase從另一個(gè)角度處理伸縮性問(wèn)題,，即通過(guò)線(xiàn)性方式從下到上增加節(jié)點(diǎn)來(lái)進(jìn)行擴(kuò)展。

場(chǎng)景： 對(duì)于數(shù)據(jù)在線(xiàn)服務(wù)（即數(shù)據(jù)使用方傳入某個(gè)業(yè)務(wù)ID,，然后獲取到所有此ID 的相關(guān)字段）,，通常放在HBase內(nèi)。

2,、關(guān)系型數(shù)據(jù)庫(kù)

實(shí)時(shí)數(shù)據(jù)經(jīng)過(guò)實(shí)時(shí)計(jì)算引擎Flink,、Spark處理后，可以存儲(chǔ)于Mysql或者Oracle等關(guān)系型數(shù)據(jù)庫(kù),。

場(chǎng)景：對(duì)于實(shí)時(shí)數(shù)據(jù)大屏,，通常放在某種關(guān)系數(shù)據(jù)庫(kù)（如MySQL）內(nèi)。

3,、 緩存數(shù)據(jù)庫(kù)

經(jīng)過(guò)實(shí)時(shí)計(jì)算引擎Flink,、Spark處理后的數(shù)據(jù)，同時(shí)也可以存儲(chǔ)在Redis里,，作為緩存數(shù)據(jù),。

場(chǎng)景：為了提高性能并減輕對(duì)底層數(shù)據(jù)庫(kù)的壓力，還會(huì)使用緩存數(shù)據(jù)庫(kù)（如Redis）等,。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： 520jefferson > 《大數(shù)據(jù)》

舉報(bào)/認(rèn)領(lǐng)