在如今數(shù)據(jù)被稱為新經(jīng)濟時代的石油的大背景下,,數(shù)據(jù)管道是什么,?處于什么位置?其技術(shù)和演進趨勢又是怎么樣的,? 2022年7月12日,,在CSDN云原生系列在線峰會第13期“現(xiàn)代數(shù)據(jù)棧峰會”上,針對這些連續(xù)發(fā)問,,下秒數(shù)據(jù)CEO蔡致暖對數(shù)據(jù)管道1.0至3.0的迭代過程及技術(shù)特點進行了詳細介紹,。 數(shù)據(jù)管道和ETL數(shù)據(jù)管道是一種重要的數(shù)據(jù)基礎(chǔ)設(shè)施,ETL管道是最常用的數(shù)據(jù)管道,。 數(shù)據(jù)基礎(chǔ)設(shè)施是底座,,數(shù)據(jù)管道作為數(shù)據(jù)庫及數(shù)據(jù)倉庫的最佳拍檔,也是一種重要的數(shù)據(jù)基礎(chǔ)設(shè)施,。 在了解數(shù)據(jù)管道具體是什么之前,,首先要了解什么是ETL管道。ETL管道是從其源系統(tǒng)/數(shù)據(jù)庫中提取數(shù)據(jù),,對數(shù)據(jù)進行轉(zhuǎn)換,,然后將其加載到數(shù)據(jù)倉庫或數(shù)據(jù)庫中,從中獲取業(yè)務(wù)見解,。 數(shù)據(jù)管道包含ETL管道,,因為對于數(shù)據(jù)管道來說,數(shù)據(jù)的目的地不一定是數(shù)據(jù)庫或數(shù)據(jù)倉庫,,也可以是其他的應(yīng)用程序,,并且支持整個組織的數(shù)據(jù)編排,、管理和使用。 數(shù)據(jù)管道中的步驟通常包括提取,、轉(zhuǎn)換,、組合、驗證,、可視化以及其他此類數(shù)據(jù)分析過程,。如果沒有數(shù)據(jù)管道,這些過程需要大量耗時而繁瑣的手動步驟,,并給人為錯誤留下空間,。數(shù)據(jù)管道的最佳類比是傳送帶,它能高效,、準確地將數(shù)據(jù)傳送到流程的每一步,。例如,數(shù)據(jù)管道可幫助數(shù)據(jù)從SaaS應(yīng)用高效地流向數(shù)據(jù)倉庫等,。 為什么說數(shù)據(jù)管道是重要的數(shù)據(jù)基礎(chǔ)設(shè)施,? 現(xiàn)如今企業(yè)數(shù)據(jù)孤島變得普遍,各類SaaS應(yīng)用的使用頻率越來越高,。數(shù)據(jù)管道解決的是如何自動化地把不同來源的數(shù)據(jù)傳遞給組織中的人,、系統(tǒng)、應(yīng)用程序,,并將數(shù)據(jù)轉(zhuǎn)化為業(yè)務(wù)價值,。數(shù)據(jù)管道扮演的不僅僅是一個數(shù)據(jù)傳送帶的作用,它還需要把不同來源的數(shù)據(jù),,經(jīng)過技術(shù)手段變成業(yè)務(wù)價值再傳送出去,,最終讓組織方便地使用數(shù)據(jù)。 數(shù)據(jù)管道1.0:ETL技術(shù)和數(shù)據(jù)倉庫
其關(guān)鍵特征在于,,數(shù)據(jù)在加載到數(shù)據(jù)倉庫之前需進行轉(zhuǎn)換。這是因為在20世紀90年代,,存儲,、計算和帶寬十分昂貴,因此在將數(shù)據(jù)裝入倉庫之前減少數(shù)據(jù)量至關(guān)重要,。 傳統(tǒng)ETL技術(shù)的局限性隨著數(shù)據(jù)處理技術(shù)的不斷演進,,傳統(tǒng)ETL技術(shù)難以適應(yīng)業(yè)務(wù)的發(fā)展,,有較多弊端顯現(xiàn):
上圖是一個典型的使用Kettle構(gòu)建的數(shù)據(jù)管道,,涉及節(jié)點數(shù)量20余。在業(yè)務(wù)變化和需求修改增多的情況下,,數(shù)據(jù)管道的復雜度和維護成本都會奇高無比,。 數(shù)據(jù)管道2.0:ELT和云計算/大數(shù)據(jù)在2.0階段,,我們將ETL技術(shù)更換為ELT技術(shù),這是因為隨著大數(shù)據(jù)與云計算的發(fā)展,,存儲,、計算和帶寬成本大幅下降,組織可以在數(shù)據(jù)倉庫中加載大量未轉(zhuǎn)換的數(shù)據(jù),,而不必擔心成本和限制,。 ELT管道從源系統(tǒng)中提取數(shù)據(jù)并將其直接加載到數(shù)據(jù)倉庫中,無需進行轉(zhuǎn)換,。數(shù)據(jù)入庫后針對特定業(yè)務(wù),,基于SQL或DBT(SQL擴展)等工具進行轉(zhuǎn)換和建模。 ELT解決了傳統(tǒng)ETL技術(shù)的痛點
數(shù)據(jù)管道3.0:連接器和API經(jīng)濟實際上,數(shù)據(jù)管道3.0及數(shù)據(jù)管道2.0的ELT都是現(xiàn)代數(shù)據(jù)棧的組成部分,。相較數(shù)據(jù)管道2.0,,數(shù)據(jù)管道3.0主要在兩個方面做出了改變。
數(shù)據(jù)管道3.0的主要特征
總結(jié)數(shù)據(jù)管道是一項重要的數(shù)據(jù)基礎(chǔ)設(shè)施,,使用智能數(shù)據(jù)管道技術(shù),,能夠幫助組織將所有應(yīng)用程序、數(shù)據(jù)庫,、事件和文件等數(shù)據(jù)信息提取到數(shù)據(jù)倉庫中,,并快速將分散的數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)集、API,、自動化流程等開箱即用的數(shù)據(jù)服務(wù),,釋放數(shù)據(jù)的價值。
|
|
來自: 黃爸爸好 > 《大數(shù)據(jù)》