大數(shù)據(jù)是當(dāng)今許多企業(yè)IT運(yùn)營(yíng)的一個(gè)重要組成部分。據(jù)知名調(diào)研公司IDC預(yù)測(cè),,到2019年,,大數(shù)據(jù)市場(chǎng)產(chǎn)值將達(dá)到1870億美元。大數(shù)據(jù)是數(shù)據(jù)分析的一個(gè)關(guān)鍵部分,,而分析又是機(jī)器和人類商業(yè)智能及決策的基礎(chǔ),。因?yàn)楹苊黠@,要是沒(méi)有某種基礎(chǔ)設(shè)施,,你無(wú)法獲得各種數(shù)據(jù):大數(shù)據(jù)、小數(shù)據(jù)或完全正確的數(shù)據(jù),,所以有必要看一看有助于構(gòu)建成功大數(shù)據(jù)架構(gòu)的幾個(gè)因素,。 其中,一些因素可能看起來(lái)很明顯,,另一些則比較微妙,。實(shí)際上,所有因素共同對(duì)你的大數(shù)據(jù)系統(tǒng)將支持的分析和行動(dòng)帶來(lái)巨大的影響,。 當(dāng)然,,不是說(shuō)只有這七個(gè)因素才會(huì)對(duì)大數(shù)據(jù)基礎(chǔ)設(shè)施的工作方式帶來(lái)影響。大數(shù)據(jù)系統(tǒng)牽涉好多部分,,但這七個(gè)因素值得你考慮,,因?yàn)樗鼈兪窃S多其他部分和流程的基礎(chǔ)。 眼下,,你可能在使用大數(shù)據(jù),,即便你是在一家小公司工作,。這要拜現(xiàn)有的基礎(chǔ)設(shè)施部分所賜――其中許多部分連最小的IT部門也能訪問(wèn)。 伴隨這種可訪問(wèn)性而來(lái)的是,,那些本身并不擁有數(shù)據(jù)科學(xué)專長(zhǎng)的小公司員工可能感到困惑和沮喪,。如果你處于這種情形,本文不會(huì)消除你的所有困惑,,但是讓你可以開(kāi)始向潛在的服務(wù)提供商和供應(yīng)商提一些針對(duì)性的問(wèn)題,。 大數(shù)據(jù)遠(yuǎn)不止Hadoop 在平常的談話中,大數(shù)據(jù)和Hadoop常常被人換著使用,。這樣的結(jié)果讓人遺憾,,因?yàn)榇髷?shù)據(jù)遠(yuǎn)不止Hadoop。 Hadoop是一種文件系統(tǒng)(而不是數(shù)據(jù)庫(kù)),,旨在跨數(shù)百或數(shù)千個(gè)處理節(jié)點(diǎn)傳送數(shù)據(jù),。它用于許多大數(shù)據(jù)應(yīng)用,原因是作為一種文件系統(tǒng),,它擅長(zhǎng)處理非結(jié)構(gòu)化數(shù)據(jù),,這類數(shù)據(jù)甚至不像其周圍的數(shù)據(jù)。當(dāng)然,,一些大數(shù)據(jù)是結(jié)構(gòu)化的,,為此你需要一個(gè)數(shù)據(jù)庫(kù)。但數(shù)據(jù)庫(kù)是本文介紹的一個(gè)不同因素,。 Hive和Impala將數(shù)據(jù)庫(kù)引入到Hadoop 這里說(shuō)的是面向大數(shù)據(jù)世界中結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù),。如果你想讓Hadoop數(shù)據(jù)平臺(tái)井然有序,那么Hive可能正是你需要的,。這種基礎(chǔ)設(shè)施工具讓你可以針對(duì)非常不像SQL的Hadoop處理類似SQL的操作,。 如果你有一部分?jǐn)?shù)據(jù)很容易放在結(jié)構(gòu)化數(shù)據(jù)庫(kù)中,那么Impala是旨在駐留在Hadoop里面的數(shù)據(jù)庫(kù),,它還可以使用你從Hadoop轉(zhuǎn)換到SQL過(guò)程中開(kāi)發(fā)的Hive命令,。所有這三個(gè)(Hadoop、Hive和Impala)都是Apache項(xiàng)目,,所以它們都是開(kāi)源的,。 Spark用于處理大數(shù)據(jù) 到目前為止,我們一直在談?wù)摯鎯?chǔ)和組織數(shù)據(jù),。但是,,如果你想實(shí)際處理數(shù)據(jù)又怎么樣?這時(shí)候,你就需要一種像Spark這樣的分析和處理引擎,。Spark是另一個(gè)Apache項(xiàng)目,,它包括一批開(kāi)源和商業(yè)產(chǎn)品,拿來(lái)你添加到數(shù)據(jù)湖,、倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)的數(shù)據(jù)后,,對(duì)數(shù)據(jù)做一些有用的操作,。 由于它可以訪問(wèn)你能想象的任何數(shù)據(jù)的庫(kù),Spark可用于處理存儲(chǔ)在各種地方的各種數(shù)據(jù),。它同樣是開(kāi)源的,,所以你可以隨意修改它。 你可以對(duì)大數(shù)據(jù)執(zhí)行SQL操作 許多人知道如何構(gòu)建SQL數(shù)據(jù)庫(kù)和編寫(xiě)SQL查詢,。面對(duì)大數(shù)據(jù)時(shí),,這種專長(zhǎng)沒(méi)有必要浪費(fèi)。Presto是一種開(kāi)源SQL查詢引擎,,它讓數(shù)據(jù)科學(xué)家可以使用SQL查詢,,查詢駐留在從Hive到專有商業(yè)數(shù)據(jù)庫(kù)管理系統(tǒng)的任何環(huán)境的數(shù)據(jù)庫(kù)。它被Facebook之類的大公司用于交互式查詢,,而交互式查詢這個(gè)短語(yǔ)是關(guān)鍵,。Presto就好比是一種對(duì)龐大數(shù)據(jù)集執(zhí)行即席交互式查詢的工具。 在線存儲(chǔ)有一席之地 一些大數(shù)據(jù)任務(wù)需要用到不斷變化的數(shù)據(jù),。有時(shí)候,,這是定期添加的數(shù)據(jù),有時(shí)是通過(guò)分析而更改的數(shù)據(jù),。不管在什么情況下,,如果你的數(shù)據(jù)寫(xiě)入與讀取一樣頻繁,那么你就需要該數(shù)據(jù)存儲(chǔ)在本地,、聯(lián)機(jī),。如果你支付得起成本,還希望數(shù)據(jù)存儲(chǔ)在固態(tài)存儲(chǔ)介質(zhì)上,,因?yàn)檫@會(huì)大大加快速度――如果你在零售或交易場(chǎng)地的人員焦急地等待結(jié)果返回,,這是個(gè)重要的考慮因素。 云存儲(chǔ)也有一席之地 如果在更龐大的聚合數(shù)據(jù)庫(kù)上進(jìn)行分析,,那么云是完美的平臺(tái),。聚合數(shù)據(jù)并傳輸?shù)皆疲\(yùn)行分析,,然后拆掉實(shí)例,。這正是云最擅長(zhǎng)的那種彈性需求響應(yīng),。操作不會(huì)受到互聯(lián)網(wǎng)可能帶來(lái)的任何延遲問(wèn)題的顯著影響,。如果你把在專用本地系統(tǒng)上進(jìn)行的實(shí)時(shí)分析與云端運(yùn)行的深度分析結(jié)合起來(lái),那么離充分發(fā)揮大數(shù)據(jù)基礎(chǔ)設(shè)施的潛力近在咫尺,。 別忘了可視化 分析大數(shù)據(jù)是一回事,,以一種對(duì)大多數(shù)人有意義的方式來(lái)顯示分析結(jié)果又是另一回事。圖形對(duì)于整個(gè)“解讀”工作大有幫助,,所以應(yīng)該將數(shù)據(jù)可視化視作是大數(shù)據(jù)基礎(chǔ)設(shè)施的一個(gè)關(guān)鍵部分,。 幸好,,有許多方法可以實(shí)現(xiàn)可視化,從JavaScript庫(kù),、商業(yè)可視化軟件包到在線服務(wù),,不一而足。最重要的是什么?從中選擇一小部分,,試一試,,并且讓你的用戶嘗試一下。你會(huì)發(fā)現(xiàn),,可靠的可視化是讓你的大數(shù)據(jù)分析盡可能出成果的最佳方式,。
以上就是你在企業(yè)處理大數(shù)據(jù)時(shí)應(yīng)知道并牢記的七個(gè)關(guān)鍵。 |
|
來(lái)自: 方圓儒人 > 《信息化與大數(shù)據(jù)》