文|歡醉 在互聯(lián)網(wǎng)的世界中數(shù)據(jù)都是以TB,、PB的數(shù)量級(jí)來(lái)增加的,,特別是像BAT光每天的日志文件一個(gè)盤(pán)都不夠,更何況是還要基于這些數(shù)據(jù)進(jìn)行分析挖掘,更甚者還要實(shí)時(shí)進(jìn)行數(shù)據(jù)分析,,學(xué)習(xí),,如雙十一淘寶的交易量的實(shí)時(shí)展示。 大數(shù)據(jù)什么叫大,?4個(gè)特征:體量化 Volume,,就是量大。 多樣化 Variety,,可能是結(jié)構(gòu)型的數(shù)據(jù),,也可能是非結(jié)構(gòu)行的文本,圖片,,視頻,,語(yǔ)音,日志,,郵件等 快速化 Velocity,,產(chǎn)生快,處理也需要快,。 價(jià)值密度低 Value,,數(shù)據(jù)量大,但單個(gè)數(shù)據(jù)沒(méi)什么意義,,需要宏觀的統(tǒng)計(jì)體現(xiàn)其隱藏的價(jià)值,。 可以看出想只要一臺(tái)強(qiáng)大的服務(wù)器來(lái)實(shí)時(shí)處理這種體量的數(shù)據(jù)那是不可能的,而且成本昂貴,,代價(jià)相當(dāng)大,普通的關(guān)系型數(shù)據(jù)庫(kù)也隨著數(shù)據(jù)量的增大其處理時(shí)間也隨之增加,,那客戶(hù)是不可能忍受的,,所以我們需要Hadoop來(lái)解決此問(wèn)題。 優(yōu)點(diǎn):Hadoop是一個(gè)能夠讓用戶(hù)輕松架構(gòu)和使用的分布式計(jì)算平臺(tái),。用戶(hù)可以輕松地在Hadoop上開(kāi)發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序,。它主要有以下幾個(gè)優(yōu)點(diǎn): Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢(shì),。Hadoop的分布式架構(gòu),,將大數(shù)據(jù)處理引擎盡可能的靠近存儲(chǔ),對(duì)例如像ETL這樣的批處理操作相對(duì)合適,,因?yàn)轭?lèi)似這樣操作的批處理結(jié)果可以直接走向存儲(chǔ),。Hadoop的MapReduce功能實(shí)現(xiàn)了將單個(gè)任務(wù)打碎,并將碎片任務(wù)(Map)發(fā)送到多個(gè)節(jié)點(diǎn)上,,之后再以單個(gè)數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉(cāng)庫(kù)里,。 Hadoop在各應(yīng)用中是最底層,最基礎(chǔ)的組件,,所以其重要性不言而喻,。 框架結(jié)構(gòu)Hadoop主要由HDFS ( 分布式文件系統(tǒng))和MapReduce (并行計(jì)算框架)組成。 Hadoop 由許多元素構(gòu)成,。其最底部是 Hadoop Distributed File System(HDFS),,它存儲(chǔ) Hadoop 集群中所有存儲(chǔ)節(jié)點(diǎn)上的文件。HDFS(對(duì)于本文)的上一層是MapReduce 引擎,,該引擎由 JobTrackers 和 TaskTrackers 組成,。通過(guò)對(duì)Hadoop分布式計(jì)算平臺(tái)最核心的分布式文件系統(tǒng)HDFS、MapReduce處理過(guò)程,,以及數(shù)據(jù)倉(cāng)庫(kù)工具Hive和分布式數(shù)據(jù)庫(kù)Hbase的介紹,,基本涵蓋了Hadoop分布式平臺(tái)的所有技術(shù)核心。 HDFS對(duì)外部客戶(hù)機(jī)而言,,HDFS就像一個(gè)傳統(tǒng)的分級(jí)文件系統(tǒng),。可以創(chuàng)建,、刪除,、移動(dòng)或重命名文件,等等,。但是 HDFS 的架構(gòu)是基于一組特定的節(jié)點(diǎn)構(gòu)建的,,這是由它自身的特點(diǎn)決定的。這些節(jié)點(diǎn)包括 NameNode(僅一個(gè)),它在 HDFS 內(nèi)部提供元數(shù)據(jù)服務(wù),;DataNode,,它為 HDFS 提供存儲(chǔ)塊。由于僅存在一個(gè) NameNode,,因此這是 HDFS 的一個(gè)缺點(diǎn)(單點(diǎn)失?。?/p> 存儲(chǔ)在 HDFS 中的文件被分成塊,,然后將這些塊復(fù)制到多個(gè)計(jì)算機(jī)中(DataNode),。這與傳統(tǒng)的 RAID 架構(gòu)大不相同。塊的大?。ㄍǔ?64MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時(shí)由客戶(hù)機(jī)決定,。NameNode 可以控制所有文件操作。HDFS 內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的 TCP/IP 協(xié)議,。 單節(jié)點(diǎn)物理結(jié)構(gòu)主從結(jié)構(gòu)主節(jié)點(diǎn),,只有一個(gè): namenode namenode負(fù)責(zé):接收用戶(hù)操作請(qǐng)求 ,、維護(hù)文件系統(tǒng)的目錄結(jié)構(gòu),、管理文件與block之間關(guān)系,block與datanode之間關(guān)系 NameNode 是一個(gè)通常在 HDFS 實(shí)例中的單獨(dú)機(jī)器上運(yùn)行的軟件,。它負(fù)責(zé)管理文件系統(tǒng)名稱(chēng)空間和控制外部客戶(hù)機(jī)的訪問(wèn),。 datanode負(fù)責(zé):存儲(chǔ)文件文件被分成block存儲(chǔ)在磁盤(pán)上、為保證數(shù)據(jù)安全,,文件會(huì)有多個(gè)副本 MapReduce MapReduce是處理大量半結(jié)構(gòu)化數(shù)據(jù)集合的編程模型,。編程模型是一種處理并結(jié)構(gòu)化特定問(wèn)題的方式。例如,,在一個(gè)關(guān)系數(shù)據(jù)庫(kù)中,,使用一種集合語(yǔ)言執(zhí)行查詢(xún),如SQL,。告訴語(yǔ)言想要的結(jié)果,,并將它提交給系統(tǒng)來(lái)計(jì)算出如何產(chǎn)生計(jì)算,。還可以用更傳統(tǒng)的語(yǔ)言(C++,,Java),一步步地來(lái)解決問(wèn)題,。這是兩種不同的編程模型,,MapReduce就是另外一種。
MapReduce和Hadoop是相互獨(dú)立的,,實(shí)際上又能相互配合工作得很好,。
主從結(jié)構(gòu)主節(jié)點(diǎn),只有一個(gè): JobTracker Hadoop能做什么?
擴(kuò)展實(shí)際應(yīng)用:Hadoop+HBase建立NoSQL分布式數(shù)據(jù)庫(kù)應(yīng)用 Flume+Hadoop+Hive建立離線(xiàn)日志分析系統(tǒng) Flume+Logstash+Kafka+Spark Streaming進(jìn)行實(shí)時(shí)日志處理分析 酷狗音樂(lè)的大數(shù)據(jù)平臺(tái) 京東的智能供應(yīng)鏈預(yù)測(cè)系統(tǒng) Hadoop的學(xué)習(xí)不僅僅是學(xué)習(xí)Hadoop,,還要學(xué)習(xí)Linux,,網(wǎng)絡(luò)知識(shí),Java,、還有數(shù)據(jù)結(jié)構(gòu)和算法等等,,所以萬(wàn)里長(zhǎng)征才開(kāi)始第一步,希望Hadoop學(xué)習(xí)不是從了解到放棄,。 End. 轉(zhuǎn)載請(qǐng)注明來(lái)自36大數(shù)據(jù)():36大數(shù)據(jù) ? 零基礎(chǔ)搭建Hadoop大數(shù)據(jù)處理-初識(shí) |
|