隨著大數(shù)據(jù)分析市場(chǎng)的快速滲透到各行業(yè)務(wù),哪些大數(shù)據(jù)技術(shù)是剛需?哪些技術(shù)有極大的潛在價(jià)值? 根據(jù)弗雷斯特研究公司發(fā)布的 指數(shù) ,,這里給出最熱的十個(gè)大數(shù)據(jù)技術(shù): 預(yù)測(cè)分析:隨著現(xiàn)在硬件和軟件解決方案的成熟,,許多公司利用大數(shù)據(jù)技術(shù)來收集海量數(shù)據(jù)、訓(xùn)練模型,、優(yōu)化模型,并發(fā)布預(yù)測(cè)模型來提高業(yè)務(wù)水平或者避免風(fēng)險(xiǎn); NoSQL數(shù)據(jù)庫:非關(guān)系型數(shù)據(jù)庫包括Key-value型(Redis)數(shù)據(jù)庫,、文檔型(MonogoDB)數(shù)據(jù)庫,、圖型(Neo4j)數(shù)據(jù)庫; 搜索和知識(shí)發(fā)現(xiàn):支持信息的自動(dòng)抽取,可以從多數(shù)據(jù)源洞察結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù); 流式分析:軟件可以對(duì)多個(gè)高吞吐量的數(shù)據(jù)源進(jìn)行實(shí)時(shí)的清洗,、聚合和分析; 內(nèi)存數(shù)據(jù)結(jié)構(gòu):通過動(dòng)態(tài)隨機(jī)內(nèi)存訪問(DRAM),、Flash和SSD等分布式存儲(chǔ)系統(tǒng)提供海量數(shù)據(jù)的低延時(shí)訪問和處理; 分布式存儲(chǔ)系統(tǒng):分布式存儲(chǔ)是指存儲(chǔ)節(jié)點(diǎn)大于一個(gè)、數(shù)據(jù)保存多副本以及高性能的計(jì)算網(wǎng)絡(luò); 數(shù)據(jù)可視化:數(shù)據(jù)可視化技術(shù)是指對(duì)各類型數(shù)據(jù)源(包括Hadoop上的海量數(shù)據(jù)以及實(shí)時(shí)和接近實(shí)時(shí)的分布式數(shù)據(jù))進(jìn)行顯示; 數(shù)據(jù)整合:通過亞馬遜彈性MR(EMR),、Hive,、Pig、Spark,、MapReduce,、Couchbase、Hadoop和MongoDB等軟件進(jìn)行業(yè)務(wù)數(shù)據(jù)整合; 數(shù)據(jù)預(yù)處理:數(shù)據(jù)整合是指對(duì)數(shù)據(jù)源進(jìn)行清洗,、裁剪,,并共享多樣化數(shù)據(jù)來加快數(shù)據(jù)分析; 數(shù)據(jù)校驗(yàn):對(duì)分布式存儲(chǔ)系統(tǒng)和數(shù)據(jù)庫上的海量,、高頻率數(shù)據(jù)集進(jìn)行數(shù)據(jù)校驗(yàn),去除非法數(shù)據(jù),,補(bǔ)全缺失,。 |
|