久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

 麓山館藏 2019-08-01

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

分享嘉賓:趙國賢 貝殼

編輯整理:Hoh Xil

內(nèi)容來源:BigData NoSQL 12th Meetup

出品社區(qū):DataFun

注:歡迎轉(zhuǎn)載,,轉(zhuǎn)載請注明出處,。

今天為大家分享貝殼找房流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn),具體介紹下如何建設(shè)流式數(shù)據(jù)平臺來滿足業(yè)務(wù)方的需求,。

▌總體架構(gòu)

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

貝殼找房大數(shù)據(jù)的整體架構(gòu),,從下到上分為四層:

1. 基礎(chǔ)平臺層。這一層應(yīng)用的都是比較常見的技術(shù):HDFS 分布式存儲,,yarn 分布式調(diào)度,,以及 HBase 存儲,另外還有一些計算引擎,,如 hive,、tez、spark,、presto,、kylin、clickhouse,、SparkML 等來滿足各種各樣的基礎(chǔ)需求,,同時還有高性能的計算機(jī)集群。

基礎(chǔ)平臺層的工作總結(jié)起來包括:

  • 一體化監(jiān)控
  • 提供強安全保障
  • 高穩(wěn)定高效率運行
  • 低成本解決方案

2. 能力匯聚層,。大家知道每年都有大量的開源組件,,那么如何讓上層的業(yè)務(wù)方更好的應(yīng)用這些組件,就是能力匯聚層要完成的工作:

  • Queryengine,,可以通過 queryengine 使用 hive,、tez、spark,、presto 來查詢整個底層存儲的數(shù)據(jù),。
  • Olap平臺,通過封裝 kylin(預(yù)構(gòu)建),、HBase,、Phoenix,、presto、clickhouse(流量分析)等引擎能力,,打造統(tǒng)一的 oalp 平臺來滿足業(yè)務(wù)方不同的需求,。
  • 流式計算平臺,這個是今天要分享的主題,,包括流式計算產(chǎn)品天眼(原秒 X 平臺),;然后是數(shù)據(jù)直通車,它是貝殼平臺打造的一個數(shù)據(jù)接入平臺,,可以進(jìn)行實時接入和離線接入,。
  • 加速計算平臺,底層有高性能集群,,上層就需要有加速計算平臺,,來滿足業(yè)務(wù)方機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)的需求。

能力匯聚層的工作總結(jié)起來包括:

  • 統(tǒng)一入口
  • 靈活分析
  • 能力提效

更上層就是數(shù)據(jù)倉庫做的事情:

3. 數(shù)據(jù)內(nèi)容層,。這層主要是做統(tǒng)一數(shù)據(jù)湖,,新房數(shù)據(jù)湖等等一些數(shù)據(jù)治理的工作來構(gòu)建數(shù)據(jù)倉庫,以滿足更上層業(yè)務(wù)方的需求,。

4. 能力輸出層,。

  • Adhoc 即席查詢,比如貝殼找房這邊有些城市站,,有運營市場,,adhoc 可以直接寫一些 sql,調(diào)用 queryengine,,最終通過各種各樣引擎的能力,,來滿足即席查詢的需求。
  • 我們還引進(jìn)了 Tebleau 軟件,,可以用來做 BI 分析,,它的底層也是調(diào)用 queryengine 查詢數(shù)據(jù)內(nèi)容層的數(shù)據(jù)。
  • 同時我們也構(gòu)建了統(tǒng)一指標(biāo)平臺,;圖靈,,滿足經(jīng)紀(jì)人的需求;羅盤,,滿足一些流量分析的需求,。

能力輸出層的工作總結(jié)起來包括:

  • 基礎(chǔ)支撐
  • 數(shù)據(jù)組合能力
  • 賦能業(yè)務(wù)

▌數(shù)據(jù)流流程

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

要理解流式數(shù)據(jù),首先要知道數(shù)據(jù)流的流程:

1. 數(shù)據(jù)接入,。為了做好數(shù)據(jù)分析,,同時給用戶畫像、數(shù)據(jù)挖掘等提供數(shù)據(jù)物料,,就需要做好數(shù)據(jù)接入層,,一般情況下我們面臨的問題主要有:

① 多變:數(shù)據(jù)來源有業(yè)務(wù) DB、MySQL,、Oracle,、sql server、第三方存儲 Redis 等多種數(shù)據(jù)源,,怎么對多變的數(shù)據(jù)源做統(tǒng)一的,、及時的接入。

② 異常:舉個例子,,某些業(yè)務(wù)方經(jīng)常在半夜刷新數(shù)據(jù),,這對數(shù)據(jù)接入的實時性和準(zhǔn)確性產(chǎn)生了很大的影響。

③ 效率:

A. 離線數(shù)據(jù)接入,,如何更快的把數(shù)據(jù)接入進(jìn)來,。

B. 實時數(shù)據(jù)接入,如何準(zhǔn)確的接入,,并及時提供需求數(shù)據(jù),。

針對這些問題,貝殼找房的解決方案就是 Databus(數(shù)據(jù)直通車),,通過數(shù)據(jù)直通車來解決上述的三個問題,,把行為數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)及時、高效的接入計算平臺層,,來滿足流式數(shù)據(jù)的計算和需求,。

2. 實時 ETL。主要分為上層的數(shù)據(jù)治理和下層的計算平臺,。數(shù)據(jù)接入進(jìn)來之后,,采用什么樣的形式存儲,更好的做數(shù)據(jù)分析,,而實時計算又采用什么樣的方式存儲,,這里都是通過 Ark 平臺來做實時處理。

3. 數(shù)據(jù)輸出,。如何把數(shù)據(jù)更好的提供給用戶,,這里主要會介紹日志流產(chǎn)品化的平臺天眼。

▌挑戰(zhàn)

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

流式數(shù)據(jù)平臺面臨的挑戰(zhàn):

1. 流式元數(shù)據(jù)管理,。公司到底有哪些流式數(shù)據(jù),?比如 kafka 接了一批日志,MySQL 產(chǎn)生了一批 binlog,,各種事務(wù)中也產(chǎn)生了一些流式數(shù)據(jù),。這些流式數(shù)據(jù)來自哪些業(yè)務(wù)方?數(shù)據(jù)類型是什么,?有什么樣的屬性,?以貝殼為例,,是新房的數(shù)據(jù)?還是二手房的數(shù)據(jù),?還是經(jīng)紀(jì)人的數(shù)據(jù),?還是客戶的數(shù)據(jù)?里面數(shù)據(jù)的格式是什么樣的,?如何存儲的,?如何解析?都需要統(tǒng)一的流式元數(shù)據(jù)管理平臺,,來更好的理解并處理這些數(shù)據(jù),。

2. 流式數(shù)據(jù)處理平臺。常見的 Flink,、spark streaming 等,,對于需求方來說,不可能總寫相應(yīng)的代碼,,來完成操作,,這樣成本比較高。如何讓業(yè)務(wù)方盡可能簡單的,、可配置的進(jìn)行流式處理操作,,這里主要是通過 Ark 流處理平臺完成,后面會重點介紹,。

3. 流式數(shù)據(jù)應(yīng)用產(chǎn)品,。貝殼擁有多個場景,如日志分析,、數(shù)據(jù)挖掘等,,每個場景對流式數(shù)據(jù)都有不同的需求,這就需要我們針對不同需求做不同的產(chǎn)品,。

▌流式計算平臺及應(yīng)用

1. 數(shù)據(jù)直通車

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

數(shù)據(jù)直通車的架構(gòu):

數(shù)據(jù)接入層分為:

① 流數(shù)據(jù)接入:貝殼的流數(shù)據(jù)包括,,ngx 日志、dig 埋點,、mysql-binlog,、tidb-binlog、其他業(yè)務(wù)日志等,,把這些流數(shù)據(jù)通過 rsyslog,、tidb-binlog-drainer、canal 等接入 kafka,。

② 存儲接入:離線數(shù)據(jù)可能存在 Hive,、Mysql、redis、HBase,、TiDb 等多種數(shù)據(jù)存儲源,,通過 spark 離線任務(wù)、TiSpark 把數(shù)據(jù)接入到更上層的數(shù)據(jù)輸出層,。

流式數(shù)據(jù)接入之后,,就可以做訂閱,如何 kafka,、redis、ES(檢索操作),、HBase(大數(shù)據(jù)量 KV 操作)等,,還可以做周期性同步,T+1 級別的數(shù)據(jù),,還有我們探索實現(xiàn)的準(zhǔn)實時倉庫,,目前可以做到5分鐘的延遲。

依賴于整個數(shù)據(jù)接入層,、處理層,、輸出層的工作,可以滿足:

① 建設(shè)完元數(shù)據(jù)之后,,通過應(yīng)用層就可以查詢到所有元數(shù)據(jù)的信息,,并且知道元數(shù)據(jù)的變更情況(如果不知道元數(shù)據(jù)的變更情況,那么數(shù)據(jù)可是不準(zhǔn)確的,,和真實的數(shù)據(jù)是對應(yīng)不上的),。通過數(shù)據(jù)直通車,就可以滿足我們的第一個挑戰(zhàn),,完成了所有元數(shù)據(jù)的管理,。可以及時,、準(zhǔn)確,、高效的把數(shù)據(jù)接入到存儲層,或者為數(shù)據(jù)處理層準(zhǔn)備好數(shù)據(jù)物料,。

② 流數(shù)據(jù)訂閱

③ binlog 變更查詢等,。

元數(shù)據(jù)與數(shù)據(jù)倉庫的能力:

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

簡單說下元數(shù)據(jù)管理服務(wù),見右圖,,主要通過 TiDB-binlog,,獲取業(yè)務(wù)數(shù)據(jù)之后,把數(shù)據(jù)直接同步到 mysql,,變更之后如果能自動處理就自動處理,,如果不能自動處理就會發(fā)出告警,由人為來操作,這樣來保證業(yè)務(wù)數(shù)據(jù)是統(tǒng)一的,,同時通過 WebUI 接口給用戶來查看,,也可以通過 API 接口給其他業(yè)務(wù)來調(diào)用。比如后面要講的 Ark 平臺就可以直接調(diào)用 API 來使用流式數(shù)據(jù),。

準(zhǔn)實時數(shù)倉,,見左圖,引入 hudi 能力,,通過 hudi 和 TiDB 可以準(zhǔn)實時的把數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉庫之中,,用戶可以在5分鐘延遲的情況下來滿足對于業(yè)務(wù)數(shù)據(jù)的統(tǒng)計、監(jiān)控,、分析的需求,。

產(chǎn)品化展示:

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

這是平臺的首頁,第一個圖可以提供業(yè)務(wù)的執(zhí)行情況,,第二個圖告訴我們數(shù)據(jù)的變更情況,,第三個圖是整個業(yè)務(wù)成功的情況。

左邊欄:數(shù)據(jù)字典,,元數(shù)據(jù)能力,;實時查詢,準(zhǔn)實時數(shù)倉查詢的能力,;以及埋點管理,,數(shù)據(jù)訂閱管理、數(shù)據(jù)變化查詢等,。

通過數(shù)據(jù)直通車,,解決了數(shù)據(jù)接入和元數(shù)據(jù)的管理問題。

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

目前可以做到 kafka 集群,、埋點 dig,、Mysql binlog、七層日志的元數(shù)據(jù)管理,。

2. Ark流處理平臺

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

Ark整體架構(gòu):

引擎層:

① 把數(shù)據(jù)接入到 Source 源,,如 kafka、binlog,、dig 等,。

② 數(shù)據(jù)接入之后,在引擎層進(jìn)行處理,,主要方式有三種:Stream SQL,、實時規(guī)則匹配、通用模板,,其底層依賴于 Spark Streaming 和 Flink,。

③ 最終可以把數(shù)據(jù)輸出到 Sink 中,如:Druid.io、ES,、kafka,、HBase 等,這時用戶可以直接調(diào)用,。

計算平臺層:

通過封裝的方式來構(gòu)建計算平臺,,計算平臺主要通過這樣幾件事兒來完成穩(wěn)定性和通用性的需求,第一個是任務(wù)管控,,需要管理好我們的任務(wù),,如何調(diào)度我們的任務(wù),第二個是調(diào)優(yōu)診斷,,有些用戶寫的任務(wù)可能不是特別完善,,我們可以自動判斷他的任務(wù)是否需要優(yōu)化,并給出優(yōu)化建議,,第三個可以引入 Databus 中的數(shù)據(jù)進(jìn)行處理和使用,第四個是 SQL IDE,,我們會盡可能多的生成 SQL,,讓用戶盡可能寫一些少的配置,來應(yīng)用 Ark 平臺,,最后就是監(jiān)控報警,,監(jiān)控整個任務(wù)的運行情況和延遲情況。

應(yīng)用層:

通過 API 把我們 Ark 平臺的能力輸出出去:

① 數(shù)據(jù)清洗

② 實時大屏

③ 實時特征

④ 推薦營銷

⑤ 安全風(fēng)控

還有其他的一些應(yīng)用,,以及后面會講到的天眼平臺,,通過對日志的流式處理統(tǒng)一化及產(chǎn)品化滿足日志的各種訴求。

這就是整個 Ark 流處理平臺提供的能力,。

Ark 能力接口:

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

數(shù)據(jù)流(包括日志流,、七層日志、mysql,、埋點,、kafka 集群等)通過 Ark 平臺可以把數(shù)據(jù)清洗到多個分析引擎中,并且可以通過 TiDB,、HBase,、redis 做關(guān)聯(lián),根據(jù)不同的需求把數(shù)據(jù)關(guān)聯(lián)到不同的存儲分析引擎中,。

產(chǎn)品化展示:

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

這個是 SQL IDE 的能力,,90%的 SQL 都是自動生成的,大家只需要配置 m3db 地址,,處理的類型等,,就可以直接應(yīng)用 Ark 流處理平臺。這樣就降低了很大的代價,因為 sql 的接入度是最強的,。

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

這個是 Ark 流處理平臺的首頁,,我們簡單介紹一下產(chǎn)品的能力特點:

  • 豐富的應(yīng)用表達(dá)方式
  • 計算結(jié)果實時可視化
  • 接入全量流數(shù)據(jù)源
  • 資源管理 & 調(diào)優(yōu)診斷

3. 天眼

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

傳統(tǒng)的方式,日志接入到 kafka,,通過 spark streaming 或者 Apache flink,,解析到 druid/es/hive 中來做分析,每次業(yè)務(wù)方都是按需來做這些事情,,自己做數(shù)據(jù)清洗,,自己在做應(yīng)用,非常繁瑣耗時,,為了解決這個問題,,我們把這些步驟集成到了一個產(chǎn)品天眼中。

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

天眼架構(gòu):

數(shù)據(jù)采集:所有的業(yè)務(wù)日志,、訪問日志,、設(shè)備日志以及第三方日志,Metrics 上報,,SDK 埋點數(shù)據(jù),,Agent 數(shù)據(jù),都可以通過 Databus 接入到數(shù)據(jù)處理層,,然后再按需放入 Druid.io,、HDFS、ES,、Hive,、Mysql 中,再通過查詢引擎,,可以做到檢索,、統(tǒng)計報表、可視化,、數(shù)據(jù)分析,、監(jiān)控報警,最終根據(jù)數(shù)據(jù)采集,、數(shù)據(jù)處理,、數(shù)據(jù)服務(wù)三層的能力抽象出來多個數(shù)據(jù)應(yīng)用,天眼可以做可視化分析,、全鏈路監(jiān)控,、業(yè)務(wù)監(jiān)控、故障管理,,以及常見的數(shù)據(jù)管理,、檢索,、報警,和開放的 API,,讓日志可以做到多種方式的應(yīng)用到不同的場景,。

產(chǎn)品化展示:

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

這是天眼的界面,包括實時 QPS 排名,,以及多個業(yè)務(wù)方的域名,,點擊之后可以看到對應(yīng)域名的整個實時大盤。左邊欄為天眼能力的列表,,通過我們的數(shù)據(jù)直通車,、Ark 平臺,對數(shù)據(jù)日志處理做了一站式的集成和能力的輸出,。

▌總結(jié)

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

① 做流數(shù)據(jù)處理,,一定要先把流數(shù)據(jù)字典能力做出來,只有一個清晰的,、完整的,、可視的流數(shù)據(jù)字典能力才能讓流數(shù)據(jù)應(yīng)用的更好,方便用戶的查詢,。

② 豐富的流處理能力,,通過產(chǎn)品化的封裝,比如 Spark streaming 和 Flink 有多種流處理能力,,通過 Ark 封裝,用戶可以更簡易,、自主的配置,。

③ 多場景適應(yīng)能力,根據(jù)各種場景,,把基礎(chǔ)層提供的數(shù)據(jù)能力,,做一個產(chǎn)品化的封裝,滿足不同場景應(yīng)用的能力,。除了剛剛講的天眼日志分析外,,流式處理還有各種的應(yīng)用,如 AI 對實時的數(shù)據(jù)挖掘,,實時的用戶畫像等,。

今天主要為大家分享了貝殼找房的三個平臺,以及流式數(shù)據(jù)處理的挑戰(zhàn)和一些實戰(zhàn)的經(jīng)驗,。謝謝大家,。

貝殼:流式數(shù)據(jù)的平臺化實踐與挑戰(zhàn)

嘉賓介紹

趙國賢,貝殼大數(shù)據(jù)架構(gòu)團(tuán)隊負(fù)責(zé)人,。目前負(fù)責(zé)貝殼大數(shù)據(jù)架構(gòu)團(tuán)隊,,負(fù)責(zé)公司大數(shù)據(jù)存儲平臺,、計算平臺、實時數(shù)據(jù)流平臺的架構(gòu),、性能優(yōu)化,、研發(fā)等,提供高效的大數(shù)據(jù) olap 引擎,、以及大數(shù)據(jù)工具鏈組件研發(fā),,為公司提供穩(wěn)定、高效,、開放的大數(shù)據(jù)基礎(chǔ)組件與基礎(chǔ)平臺,。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多