久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

大數(shù)據(jù)采集,大數(shù)據(jù)分析,,大數(shù)據(jù)存儲(chǔ)就該這樣學(xué),,附全套教程分享

 麓山館藏 2019-07-03

大數(shù)據(jù)采集

01

概覽

大數(shù)據(jù)采集,大數(shù)據(jù)分析,,大數(shù)據(jù)存儲(chǔ)就該這樣學(xué),,附全套教程分享

02

相關(guān)延展

系統(tǒng)日志數(shù)據(jù)的采集

Scribe是Facebook開源的日志收集系統(tǒng),,在Facebook內(nèi)部已經(jīng)得到大量的應(yīng)用。它夠從各種日志源上收集日志,,存儲(chǔ)到一個(gè)中央存儲(chǔ)系統(tǒng)上,,以便于進(jìn)行集中的統(tǒng)計(jì)分析處理。 Scribe為日志的“分布式收集,,統(tǒng)一處理”提供了一個(gè)可擴(kuò)展的,、高容錯(cuò)的方案。(老師收學(xué)生信息表,,需要班長(zhǎng)代理收集的例子),。

大數(shù)據(jù)采集,大數(shù)據(jù)分析,,大數(shù)據(jù)存儲(chǔ)就該這樣學(xué),附全套教程分享

Chukwa提供了一個(gè)對(duì)大數(shù)據(jù)量日志類數(shù)據(jù)采集,、存儲(chǔ),、分析和展示的全套解決方案和框架,可以用于監(jiān)控大規(guī)模Hadoop 集群的整體運(yùn)行情況并對(duì)它們的日志進(jìn)行分析(相當(dāng)于學(xué)校內(nèi)無(wú)死角的監(jiān)控?cái)z像頭),。

大數(shù)據(jù)采集,,大數(shù)據(jù)分析,大數(shù)據(jù)存儲(chǔ)就該這樣學(xué),,附全套教程分享

注:以上兩張架構(gòu)圖現(xiàn)在不太理解,,當(dāng)學(xué)完第四章再回過(guò)頭來(lái)看,就easy多了,。

大數(shù)據(jù)預(yù)處理

數(shù)據(jù)清理通過(guò)填寫缺失值,,光滑噪聲數(shù)據(jù),識(shí)別或刪除離群點(diǎn)并解決不一致性來(lái)“清理”數(shù)據(jù),。數(shù)據(jù)清理的過(guò)程主要包括數(shù)據(jù)預(yù)處理,、確定清理方法、檢驗(yàn)清理方法,、執(zhí)行清理工具和數(shù)據(jù)歸檔,。同時(shí)每個(gè)階段可以再分若干個(gè)任務(wù)。

數(shù)據(jù)集成是將來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)集集成到一起,,但集成后的不可避免的會(huì)出現(xiàn)數(shù)據(jù)冗余,,原因主要有:代表同一概念的屬性在不同數(shù)據(jù)庫(kù)中可能具有不同的名字;有些屬性可能由于其他屬性導(dǎo)出的,。數(shù)據(jù)集成后可以再次進(jìn)行數(shù)據(jù)清理,、檢測(cè)和刪去由數(shù)據(jù)集帶來(lái)的冗余。

數(shù)據(jù)歸約的目的是得到數(shù)據(jù)集的簡(jiǎn)化表示,。雖然數(shù)據(jù)集的簡(jiǎn)化表示比原數(shù)據(jù)集的規(guī)模小得多,,但仍然能夠產(chǎn)生幾乎同樣的分析結(jié)果,。

數(shù)據(jù)變換是使用規(guī)范化、數(shù)據(jù)離散化和概念分層等方法使得數(shù)據(jù)的玩具可以在多個(gè)抽象層上進(jìn)行,。數(shù)據(jù)變換操作是引導(dǎo)數(shù)據(jù)挖掘過(guò)程成功的附加預(yù)處理過(guò)程,。

大數(shù)據(jù)分析

01

概覽數(shù)據(jù)分析

數(shù)據(jù)分析是大數(shù)據(jù)價(jià)值鏈中最終和最重要的階段,其目的是挖掘數(shù)據(jù)中潛在的價(jià)值以提供相應(yīng)的建議或決策,。

數(shù)據(jù)分析( Data Analysis)是一個(gè)檢查,、清理、轉(zhuǎn)換和建模數(shù)據(jù)的過(guò)程,,目的是發(fā)現(xiàn)有用的信息,,得出結(jié)論和推動(dòng)決策制定。

數(shù)據(jù)挖掘(Data mining)是指用人工智能,、機(jī)器學(xué)習(xí),、統(tǒng)計(jì)學(xué)和數(shù)據(jù)庫(kù)的交叉方法在相對(duì)較大型的數(shù)據(jù)集中發(fā)現(xiàn)模式的計(jì)算過(guò)程。

數(shù)據(jù)分析流程(下圖)(兩句話,,①數(shù)據(jù)分析是從業(yè)務(wù)中來(lái),,到業(yè)務(wù)中去;②脫離了業(yè)務(wù)的數(shù)據(jù)分析都是耍流氓),。

大數(shù)據(jù)采集,,大數(shù)據(jù)分析,大數(shù)據(jù)存儲(chǔ)就該這樣學(xué),,附全套教程分享

02

傳統(tǒng)數(shù)據(jù)分析方法

比較有代表性的傳統(tǒng)數(shù)據(jù)分析方法:

統(tǒng)計(jì)分析,,相關(guān)分析,回歸分析,,聚類分析,,因子分析,A / B測(cè)試,;

①統(tǒng)計(jì)分析

大數(shù)據(jù)采集,,大數(shù)據(jù)分析,大數(shù)據(jù)存儲(chǔ)就該這樣學(xué),,附全套教程分享

②相關(guān)分析:一種用于確定觀測(cè)現(xiàn)象之間的相關(guān)規(guī)律,,從而進(jìn)行預(yù)測(cè)和控制的分析方法。相關(guān)分析是利用現(xiàn)有統(tǒng)計(jì)數(shù)據(jù)研究關(guān)系的強(qiáng)度的過(guò)程(例子是身高與年齡),。同時(shí),,相關(guān)不等于因果(睡眠與收入)。

③回歸分析:揭示一個(gè)變量和其他幾個(gè)變量之間的相關(guān)性的數(shù)學(xué)工具,。

回歸分析能夠識(shí)別隨機(jī)隱藏的變量之間的依賴關(guān)系(一元線性回歸),。

④聚類分析:一種將對(duì)象進(jìn)行分組的統(tǒng)計(jì)方法。聚類分析用于區(qū)分具有某些特征的對(duì)象,,并根據(jù)這些特征將它們分成不同的類別,。同一類別中的對(duì)象具有高同質(zhì)性,,不同類別中的對(duì)象具有高異質(zhì)性。

⑤因子分析:主要是通過(guò)少數(shù)幾個(gè)因子,,來(lái)描述大量指標(biāo)或元素之間的關(guān)系(例子是找對(duì)象,,以自己中意的幾個(gè)典型的維度對(duì)另一半進(jìn)行刻畫。如白富美,,地域,,教養(yǎng),品行,,性格等等),。

⑥A/B測(cè)試,也稱為水桶測(cè)試,。它通過(guò)比較測(cè)試組,,制定能改善目標(biāo)變量的計(jì)劃(更多地應(yīng)用在產(chǎn)品或網(wǎng)頁(yè)的設(shè)計(jì)中,根據(jù)用戶體驗(yàn)與反饋對(duì)產(chǎn)品進(jìn)行完善),。

03

大數(shù)據(jù)分析方法

這部分更多地是對(duì)大數(shù)據(jù)存儲(chǔ)效率,,以及讀取速度進(jìn)行優(yōu)化的大數(shù)據(jù)分析方法。

①布隆過(guò)濾器:由一個(gè)位數(shù)組和一系列的哈希函數(shù)組成,。布隆過(guò)濾器的原理是通過(guò)利用位數(shù)組來(lái)存儲(chǔ)數(shù)據(jù)本身之外的數(shù)據(jù)的哈希值。位數(shù)組本質(zhì)上是使用哈希函數(shù)來(lái)進(jìn)行數(shù)據(jù)的有損壓縮,,從而存儲(chǔ)其位圖索引,。布隆過(guò)濾器算法的核心思想:利用多個(gè)不同的哈希函數(shù)來(lái)解決“沖突”。(例子是班級(jí)同學(xué)進(jìn)行一間屋子,,門口會(huì)有一排燈,,某幾個(gè)燈亮表示一個(gè)同學(xué),為了避免沖突,,燈亮以顏色進(jìn)行區(qū)分,。燈亮表示1,不亮表示0),。

大數(shù)據(jù)采集,,大數(shù)據(jù)分析,大數(shù)據(jù)存儲(chǔ)就該這樣學(xué),,附全套教程分享

②散列法:一種將數(shù)據(jù)變換為較短的固定長(zhǎng)度數(shù)值或索引值的基本方法,。特點(diǎn):快速讀取、快速寫入和高查詢速度,。難點(diǎn):如何找到健全的散列函數(shù),。 優(yōu)點(diǎn):空間效率高、查詢速度快,。缺點(diǎn):具有一定的誤識(shí)別率,、刪除困難等,。例子是諜戰(zhàn)片里面?zhèn)鬟f情報(bào)場(chǎng)景,最重要的是找到密碼本(散列法的難點(diǎn)),。

③索引法:是減少磁盤讀取和寫入成本的有效方法,。索引法能夠提高插入、刪除,、修改和查詢速度,。索引一般分為兩類:聚集索引和非聚集索引。例子是索引類似于書籍的目錄,。

大數(shù)據(jù)采集,,大數(shù)據(jù)分析,大數(shù)據(jù)存儲(chǔ)就該這樣學(xué),,附全套教程分享

④字典樹:又稱單詞查找樹,,是一種哈希樹的變體。它主要應(yīng)用于快速檢索和字頻統(tǒng)計(jì),。主要思想是:利用字符串的常見前綴來(lái)最大限度地減少字符串的比較,,從而提高查詢效率。

大數(shù)據(jù)采集,,大數(shù)據(jù)分析,,大數(shù)據(jù)存儲(chǔ)就該這樣學(xué),附全套教程分享

⑤并行計(jì)算:并行計(jì)算是指利用若干計(jì)算資源來(lái)完成計(jì)算任務(wù),。其基本思想是:分解一個(gè)問(wèn)題并將其分配給幾個(gè)獨(dú)立的進(jìn)程,,以便獨(dú)立完成,從而實(shí)現(xiàn)協(xié)同處理,。

04

大數(shù)據(jù)分析架構(gòu)

大數(shù)據(jù)分析可以根據(jù)實(shí)時(shí)要求分為實(shí)時(shí)分析(金融領(lǐng)域:超市付款,,哈羅單車)和離線分析(淘寶商品推薦)。

大數(shù)據(jù)分析按照層次的不同,,還可以分為內(nèi)存級(jí)分析,、BI分析(數(shù)據(jù)層、業(yè)務(wù)層和應(yīng)用層)和海量分析(數(shù)據(jù)采集模塊,、數(shù)據(jù)冗余模塊,、維度定義模塊、并行分析模塊),。

05

大數(shù)據(jù)分析應(yīng)用工具(略)

課上通過(guò)R語(yǔ)言的展示,,旨在讓同學(xué)們對(duì)大數(shù)據(jù)分析的功能有個(gè)直觀認(rèn)識(shí)。

大數(shù)據(jù)存儲(chǔ)

從本章開始,,涉及的大數(shù)據(jù)名詞越來(lái)越多,,開始大家覺得晦澀難懂,隨著課程的推進(jìn),,一些技術(shù)及名詞會(huì)慢慢熟悉,,希望大家耐著性子學(xué)習(xí),。堅(jiān)持下來(lái),不要讓東哥唱獨(dú)角戲哈,!

01

概覽

大數(shù)據(jù)采集,,大數(shù)據(jù)分析,大數(shù)據(jù)存儲(chǔ)就該這樣學(xué),,附全套教程分享

02

云存儲(chǔ)

云存儲(chǔ)沒有行業(yè)權(quán)威的定義,。云存儲(chǔ)是在云計(jì)算(cloud computing)概念上延伸和發(fā)展出來(lái)的一個(gè)新的概念,是一種新興的網(wǎng)絡(luò)存儲(chǔ)技術(shù),,是指通過(guò)集群應(yīng)用,、網(wǎng)絡(luò)技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過(guò)應(yīng)用軟件集合起來(lái)協(xié)同工作,,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問(wèn)功能的一個(gè)系統(tǒng),。云存儲(chǔ)不僅是存儲(chǔ)設(shè)備或技術(shù),更是一種服務(wù)的創(chuàng)新,。

特點(diǎn):可靠性,、可用性、安全性,、規(guī)范化,、低成本。

架構(gòu)(動(dòng)物園):訪問(wèn)層,、應(yīng)用接口層,、基礎(chǔ)管理層。

技術(shù):存儲(chǔ)虛擬化(齊天大圣),、分布式存儲(chǔ)、數(shù)據(jù)縮減,、負(fù)載均衡,。

云存儲(chǔ)的虛擬化將存儲(chǔ)資源虛擬化為全局命名空間(動(dòng)物園的名字),并通過(guò)多租戶技術(shù)(跟著旅行社的導(dǎo)游參觀動(dòng)物園)給使用者提供存儲(chǔ)資源,。

分布式存儲(chǔ)分為分布式塊存儲(chǔ),,分布式對(duì)象存儲(chǔ)以及分布式文件系統(tǒng)。

數(shù)據(jù)縮減一定程度上節(jié)約企業(yè)存儲(chǔ)成本,,提高效率,。包括自動(dòng)精簡(jiǎn)配置(欺騙),自動(dòng)存儲(chǔ)分層(超市擺放物品),,重復(fù)數(shù)據(jù)刪除(自己產(chǎn)生的數(shù)據(jù)),。

負(fù)載均衡技術(shù),節(jié)點(diǎn)的負(fù)載均衡能夠更好的實(shí)現(xiàn)系統(tǒng)的動(dòng)態(tài)擴(kuò)展,,即若系統(tǒng)收到的請(qǐng)求均勻分配給每個(gè)節(jié)點(diǎn)后超出節(jié)點(diǎn)的處理能力,,只需通過(guò)擴(kuò)充節(jié)點(diǎn)的數(shù)目就可以減少系統(tǒng)所有節(jié)點(diǎn)的壓力,,而無(wú)需對(duì)內(nèi)部的負(fù)載均衡機(jī)制做任何處理。(4x1接力比賽,,體育委員根據(jù)每個(gè)人的速度,,耐力分配接力順序)。

03

大數(shù)據(jù)存儲(chǔ)

大數(shù)據(jù)存儲(chǔ)系統(tǒng)架構(gòu)分為DAS,,NAS以及SAN,。

大數(shù)據(jù)采集,大數(shù)據(jù)分析,,大數(shù)據(jù)存儲(chǔ)就該這樣學(xué),,附全套教程分享

DAS

適用環(huán)境:①服務(wù)器地理分布很分散,通過(guò)SAN或NAS互聯(lián)困難,。②存儲(chǔ)系統(tǒng)必須直接與應(yīng)用服務(wù)器連接,。③小型網(wǎng)絡(luò)。

缺點(diǎn):①擴(kuò)展性差,。②資源利用率低,。③可管理性差。DAS的數(shù)據(jù)分散在應(yīng)用服務(wù)器各自的存儲(chǔ)設(shè)備上,,不變集中管理,、分析和使用數(shù)據(jù)。④異構(gòu)化嚴(yán)重,。

大數(shù)據(jù)采集,,大數(shù)據(jù)分析,大數(shù)據(jù)存儲(chǔ)就該這樣學(xué),,附全套教程分享

NAS

優(yōu)點(diǎn):①即插即用,,可以基于已有的企業(yè)網(wǎng)絡(luò)方便連接到應(yīng)用服務(wù)器。②專用操作系統(tǒng)支持不同的文件系統(tǒng),,從而可以支持應(yīng)用服務(wù)器不同操作系統(tǒng)之間的文件共享,。③專用服務(wù)器上經(jīng)過(guò)優(yōu)化的文件系統(tǒng)提高了文件的訪問(wèn)效率。④獨(dú)立于應(yīng)用服務(wù)器,,即使應(yīng)用服務(wù)器故障或停止工作,,仍然可以讀出數(shù)據(jù)。

缺點(diǎn):①共用網(wǎng)絡(luò)的模式使網(wǎng)絡(luò)帶寬成為存儲(chǔ)性能瓶頸,。②NAS訪問(wèn)要經(jīng)過(guò)文件系統(tǒng)格式轉(zhuǎn)換,,故只能以文件一級(jí)訪問(wèn),不適合塊級(jí)的應(yīng)用,。

SAN

大數(shù)據(jù)采集,,大數(shù)據(jù)分析,大數(shù)據(jù)存儲(chǔ)就該這樣學(xué),附全套教程分享

04

數(shù)據(jù)倉(cāng)庫(kù)

從決策支持角度來(lái)看,,數(shù)據(jù)倉(cāng)庫(kù)可以簡(jiǎn)單定義為:專為決策支持服務(wù)的數(shù)據(jù)庫(kù)系統(tǒng) ,,它并非對(duì)原有業(yè)務(wù)系統(tǒng)的取代,而是在所有業(yè)務(wù)系統(tǒng)之上建立一個(gè)統(tǒng)一的,、一致的企業(yè)級(jí)數(shù)據(jù)視圖,。

特點(diǎn):數(shù)據(jù)倉(cāng)庫(kù)的的數(shù)據(jù)是面向主題組織的;數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是繼承的,。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是穩(wěn)定的,。數(shù)據(jù)是隨時(shí)間不斷變化的。

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的區(qū)別

大數(shù)據(jù)采集,,大數(shù)據(jù)分析,,大數(shù)據(jù)存儲(chǔ)就該這樣學(xué),附全套教程分享

在物理實(shí)現(xiàn)上,,數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)意義上的數(shù)據(jù)庫(kù)并無(wú)本質(zhì)的區(qū)別,,主要是以關(guān)系表的形式實(shí)現(xiàn)的。更多的時(shí)候,,我們將數(shù)據(jù)倉(cāng)庫(kù)作為一個(gè)數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)來(lái)看待,。

數(shù)據(jù)倉(cāng)庫(kù)體系架構(gòu):數(shù)據(jù)倉(cāng)庫(kù)從多個(gè)信息源中獲取原始數(shù)據(jù),經(jīng)過(guò)整理加工后存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)部數(shù)據(jù)庫(kù),。通過(guò)數(shù)據(jù)倉(cāng)庫(kù)訪問(wèn)工具,,向數(shù)據(jù)倉(cāng)庫(kù)的用戶提供統(tǒng)一、協(xié)調(diào)和集成的信息環(huán)境,,支持企業(yè)全局決策過(guò)程和對(duì)企業(yè)經(jīng)營(yíng)管理的深入綜合分析,。整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是一個(gè)包含4個(gè)層次的體系機(jī)構(gòu)。

大數(shù)據(jù)采集,,大數(shù)據(jù)分析,,大數(shù)據(jù)存儲(chǔ)就該這樣學(xué),附全套教程分享


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多