一、引言 最近各種客戶咨詢項(xiàng)目中,,往往涉及大數(shù)據(jù)引入必要性和價(jià)值意義的深層次挖掘,,客戶有數(shù)據(jù),有平臺(tái),,但是不知到底要不要上大數(shù)據(jù),,為何要上大數(shù)據(jù)和大數(shù)據(jù)可以帶來(lái)哪些價(jià)值和意義。本文關(guān)于大數(shù)據(jù)的必要性進(jìn)行闡述,,來(lái)源實(shí)際項(xiàng)目,,算是分享吧。 二,、突破技術(shù)瓶頸
互聯(lián)網(wǎng)技術(shù)催生了大數(shù)據(jù)時(shí)代的來(lái)臨,,大數(shù)據(jù)時(shí)代的數(shù)據(jù)形態(tài)有四大特點(diǎn):首先數(shù)據(jù)體量巨大,非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長(zhǎng)占總數(shù)據(jù)量的80%至90%,,比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快10到50倍,;其次、大數(shù)據(jù)的異構(gòu)和多樣性,比如圖片,、新聞,、博客、微博,、微信等,,比大更重要的是數(shù)據(jù)的復(fù)雜性,有時(shí)甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就具有顛覆性的價(jià)值,;第三,,價(jià)值密度低,大量的不相關(guān)信息,,需要沙里淘金,;第四,傳播速度快,,因此,,需要實(shí)時(shí)分析而非批量式分析。 在大數(shù)據(jù)時(shí)代,,面對(duì)如此海量快速的信息,,純?nèi)斯けO(jiān)測(cè)互聯(lián)網(wǎng)已經(jīng)不可行了。自動(dòng)化輿情軟件成為大數(shù)據(jù)環(huán)境下輿情監(jiān)測(cè)和分析的引擎,。監(jiān)測(cè)輿情可以設(shè)立一些關(guān)鍵詞,,首先要與自己機(jī)構(gòu)相關(guān),可以包括競(jìng)爭(zhēng)者或者是合作伙伴,,然后要放在特定網(wǎng)絡(luò)媒體進(jìn)行搜集,。所有“信息碎片”搜集完之后,我們開(kāi)始聚合信息,,判斷哪些和產(chǎn)品相關(guān),,哪些跟區(qū)域相關(guān),哪些跟自己相關(guān),。把這些信息進(jìn)行精確地采集和過(guò)濾,、煉化分析,包括傳播統(tǒng)計(jì)和分析(媒介分析,、主體傳播分布,、傳播路徑分析、傳播源頭追蹤),、敏感(負(fù)面)輿情,、輿情信息傳播趨勢(shì)分析,預(yù)判所收集到輿情信息的未來(lái)走勢(shì),。在此基礎(chǔ)上生成輿情簡(jiǎn)報(bào),,輿情簡(jiǎn)報(bào)由系統(tǒng)自動(dòng)生成,以日或周為單位,對(duì)本階段監(jiān)測(cè)到的輿情進(jìn)行統(tǒng)計(jì)和分析,,包括輿情分布,、熱點(diǎn)輿情排行、負(fù)面輿情分析,、正面輿情排行等情況。 大數(shù)據(jù)時(shí)代自身的特點(diǎn)決定了我們既面臨數(shù)據(jù)體量巨大的存儲(chǔ)壓力,,同時(shí)面臨海量數(shù)據(jù)信息過(guò)濾,,數(shù)據(jù)加工、數(shù)據(jù)分析和平臺(tái)運(yùn)算瓶頸,。要想突破傳統(tǒng)技術(shù)瓶頸的約束,,我們必須引入大數(shù)據(jù)技術(shù)。 三,、擺脫成本枷鎖
基于傳統(tǒng)模式的輿情分析和歷史數(shù)據(jù)存儲(chǔ),,是建立在高性能服務(wù)器硬件和昂貴的關(guān)系型數(shù)據(jù)基礎(chǔ)之上的。一方面硬件技術(shù)掌握在幾大IT巨頭手中,,服務(wù)器的性能是以高昂的成本為支撐的,;另外一方面硬件基礎(chǔ)之上操作系統(tǒng)、應(yīng)用軟件和關(guān)系型數(shù)據(jù)庫(kù)同樣掌握在幾大巨頭手中,,其價(jià)格同樣不菲,。此外規(guī)模的擴(kuò)展、軟件的升級(jí)和每年的服務(wù)費(fèi)用也是非常昂貴,。 基于互聯(lián)網(wǎng)技術(shù)發(fā)展起來(lái)的大數(shù)據(jù),,以開(kāi)源框架Hadoop、HBase為基礎(chǔ),,以Hive,、Sqoop、Pig,、Flume等軟件為工具,,建立在X86-PC服務(wù)器和開(kāi)源Linux操作系統(tǒng)之上。一方面硬件成本得以降低,、另外一方面再無(wú)須為操作系統(tǒng)和應(yīng)用軟件支付高昂的Licence費(fèi)用,。可以說(shuō)大數(shù)據(jù)技術(shù)將使我所在很大程度上擺脫傳統(tǒng)IT廠商巨額的成本依賴,。 四,、促進(jìn)業(yè)務(wù)創(chuàng)新
這部分涉及具體應(yīng)用,視行業(yè)而定,。在此制作一個(gè)方向說(shuō)明:大數(shù)據(jù)的應(yīng)用可以衍生新的服務(wù),,新的產(chǎn)品。 大數(shù)據(jù)實(shí)施方案咨詢和技術(shù)交流群:293503507,敬請(qǐng)關(guān)注,。 |
|
來(lái)自: WindySky > 《胖子哥的大數(shù)據(jù)之路》