久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)現(xiàn)方法

 niefeng2011 2014-01-18




0??引言
據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)統(tǒng)計(jì)數(shù)據(jù)顯示:截至2009年6月30日,中國(guó)網(wǎng)民規(guī)模達(dá)到3.38億人,普及率為25.5%,網(wǎng)民規(guī)模依然保持快速增長(zhǎng)趨勢(shì)[1]
.目前,網(wǎng)絡(luò)已成為信息的主要載體,互聯(lián)網(wǎng)上存儲(chǔ)
和傳輸?shù)男畔⒛軌蛟诤艽蟪潭壬戏从骋欢〞r(shí)期社會(huì)各領(lǐng)域人們所關(guān)注的熱點(diǎn).鑒于網(wǎng)絡(luò)中個(gè)人信息隱蔽性的特點(diǎn),大量良莠不齊的信息充斥其中,在對(duì)社會(huì)發(fā)展產(chǎn)生積極作用的同時(shí),也有大量的輿情信息不符合甚至違背社會(huì)的發(fā)展.網(wǎng)絡(luò)輿情以??輿論多元 為最大特點(diǎn),信息的數(shù)量極為龐大,且類(lèi)別繁多,背景信息復(fù)雜.在這種情況下,要人工甄別每個(gè)意見(jiàn)的具體情況并加以分類(lèi)統(tǒng)計(jì)是不現(xiàn)實(shí)的,只有采用計(jì)算機(jī)技術(shù)自動(dòng)地對(duì)網(wǎng)絡(luò)輿情語(yǔ)料進(jìn)行分析整理,才能夠建立起全面,、有效,、快速的網(wǎng)絡(luò)輿情預(yù)警機(jī)制.Web挖掘分為Web內(nèi)容挖掘和Web使用記錄挖掘[2],本文屬于Web內(nèi)容挖掘的研究領(lǐng)域,針對(duì)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的功能和設(shè)計(jì)過(guò)程進(jìn)行研究,實(shí)現(xiàn)網(wǎng)頁(yè)信息采集和Web挖掘基礎(chǔ)上的熱點(diǎn)發(fā)現(xiàn)與跟蹤.
1??輿情監(jiān)控
目前我國(guó)對(duì)輿情還沒(méi)有形成統(tǒng)一的認(rèn)識(shí),王來(lái)華[3]對(duì)輿情進(jìn)行了定義,即輿情是??輿論情況 的簡(jiǎn)稱(chēng),是指在一定的社會(huì)空間內(nèi),圍繞中介性社會(huì)事件的發(fā)生、發(fā)展和變化,民眾對(duì)社會(huì)管理者產(chǎn)生和持有的社會(huì)政治態(tài)度.網(wǎng)絡(luò)輿情是社會(huì)輿情的直接反映.
作為網(wǎng)上信息交流的主體,網(wǎng)民們對(duì)一些突發(fā)事件和社會(huì)流行所持的態(tài)度和發(fā)表的言論可能在短時(shí)間內(nèi)對(duì)整個(gè)社會(huì)產(chǎn)生巨大影響,需要及時(shí)采取措施,實(shí)施輿情監(jiān)控,以控制和引導(dǎo)事態(tài)發(fā)展.輿情監(jiān)控是通過(guò)網(wǎng)頁(yè)自動(dòng)抓取輿情信息,通過(guò)文本挖掘等技術(shù)對(duì)輿情信息進(jìn)行分析處理,再將處理后得到的熱點(diǎn)信息上報(bào)跟蹤來(lái)實(shí)現(xiàn),輿情監(jiān)控實(shí)現(xiàn)了對(duì)輿情信息由被動(dòng)防堵向主動(dòng)疏導(dǎo)的轉(zhuǎn)化.
2??系統(tǒng)功能實(shí)現(xiàn)分析
近年來(lái),國(guó)內(nèi)外學(xué)者普遍關(guān)注網(wǎng)絡(luò)輿情信息發(fā)現(xiàn),、熱點(diǎn)信息跟蹤機(jī)制等方面的關(guān)鍵技術(shù).這一領(lǐng)域的研究涉及2方面理論:一是基于自然語(yǔ)言處理(NLP)技術(shù);二是從數(shù)據(jù)挖掘的角度考慮熱點(diǎn)信息的發(fā)現(xiàn).這2






第1期
何??佳,等:網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)現(xiàn)方法
個(gè)領(lǐng)域從不同的角度對(duì)輿情進(jìn)行研究,同時(shí)又相互交叉和借鑒.網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)用到的關(guān)鍵技術(shù)有信息檢索,、自然語(yǔ)言的識(shí)別和處理、文本分類(lèi)和聚類(lèi),、觀點(diǎn)傾向性識(shí)別,、主題檢測(cè)與跟蹤等.整個(gè)系統(tǒng)結(jié)構(gòu)功能模塊如圖1所示.
圖1??輿情監(jiān)控系統(tǒng)結(jié)構(gòu)功能模塊
Fig.1??Thestructureandfunctionmoduleofpublicopinionmonitoringsystem
2.1??輿情信息采集
輿情信息采集模塊是整個(gè)系統(tǒng)數(shù)據(jù)分析的信息源.Web頁(yè)面包含大量的數(shù)據(jù)信息,可以看作是一個(gè)巨大的數(shù)據(jù)庫(kù).但由于Web頁(yè)面的數(shù)據(jù)是半結(jié)構(gòu)化或者非結(jié)構(gòu)化的,加上Web頁(yè)面極快的增長(zhǎng)速度,其信息還在不斷地發(fā)生更新,作為一個(gè)動(dòng)態(tài)性極強(qiáng)的信息源,對(duì)Web頁(yè)面進(jìn)行信息采集是比較復(fù)雜的.Web輿情信息采集流程如圖2所示.
圖2??輿情信息采集流程
Fig.2??Informationcollectionmoduleflowchartonpublicopinions
輿情信息采集是指對(duì)Web網(wǎng)頁(yè)抓取和相關(guān)數(shù)據(jù)存儲(chǔ),網(wǎng)頁(yè)抓取類(lèi)似于搜索引擎中的頁(yè)面爬行機(jī)器人.首先,通過(guò)Web信息采集器,從一個(gè)初始集出發(fā),將這些URL全部放到一個(gè)有序的待采集隊(duì)列里[4],然后按次序取出URL,獲取它所指向的頁(yè)面,返回頁(yè)面的HTML文件.通過(guò)頁(yè)面間的鏈接關(guān)系,獲取新的頁(yè)面的URL,并將它們放到待采集的隊(duì)列里.重復(fù)上述過(guò)程,直到整個(gè)網(wǎng)站的全部網(wǎng)頁(yè)都被采集完為止,也可以根據(jù)用戶的需要下載一定層數(shù)的網(wǎng)頁(yè).為了提高效率,系統(tǒng)可以設(shè)計(jì)幾個(gè)信息采集器并行采集數(shù)據(jù),即多線程地爬行多個(gè)網(wǎng)頁(yè)并存儲(chǔ)Web網(wǎng)頁(yè)源碼.
這種通用的網(wǎng)絡(luò)爬蟲(chóng)的目標(biāo)是盡可能多地采集信息頁(yè)面,并不太在意頁(yè)面采集的順序和被采集頁(yè)面的相關(guān)主題,這樣消耗了很多的系統(tǒng)資源和網(wǎng)絡(luò)帶寬,但并沒(méi)有換來(lái)采集頁(yè)面的較高利用率.為了解決這一問(wèn)題,建議使用定向抓取相關(guān)網(wǎng)絡(luò)資源的主題網(wǎng)絡(luò)爬蟲(chóng).主題網(wǎng)絡(luò)爬蟲(chóng)就是根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留與主題相關(guān)的鏈接并將其放入待抓取的URL隊(duì)列中,按照事先給出的主題,分析超鏈接和已經(jīng)下載的網(wǎng)頁(yè)內(nèi)容,預(yù)測(cè)下一個(gè)待抓取的URL以及當(dāng)前網(wǎng)頁(yè)的主題相關(guān)度,保證盡可能多的爬行,下載與主題相關(guān)的網(wǎng)頁(yè),盡可能少地下載無(wú)關(guān)網(wǎng)頁(yè).當(dāng)然,基于主題的網(wǎng)絡(luò)爬蟲(chóng)的應(yīng)用也提出了新的問(wèn)題:如何定義感興趣的主題,如何決定待爬行的URL的訪問(wèn)次序等,這也對(duì)實(shí)際的研究與應(yīng)用提出了更深層次的思考.
83






鄭州大學(xué)學(xué)報(bào)(理學(xué)版)
第42卷
2.2??信息預(yù)處理
與普通的文本文檔相比,Web文檔包含了除正文以外的大量的其他信息,如廣告鏈接、導(dǎo)航鏈接和版權(quán)信息等.與傳統(tǒng)的數(shù)據(jù)庫(kù)中結(jié)構(gòu)化的數(shù)據(jù)相比,Web文檔中的數(shù)據(jù)結(jié)構(gòu)極其復(fù)雜,因此計(jì)算機(jī)很難對(duì)抓取到的數(shù)據(jù)進(jìn)行直接處理.信息預(yù)處理模塊作為信息采集后的一個(gè)重要的模塊,所做的工作包括:頁(yè)面清洗與內(nèi)容提取,文本分詞,特征提取和關(guān)鍵詞提取.輿情信息預(yù)處理模塊的流程如圖3所示.
圖3??信息預(yù)處理模塊流程
Fig.3??Informationpre??processingmoduleflowchart
頁(yè)面清洗與內(nèi)容提取:由于Web頁(yè)面不像傳統(tǒng)的文本文檔一樣整齊干凈,含有大量的噪聲,同時(shí)Web頁(yè)面在語(yǔ)義內(nèi)聚性上難以得到保證,一個(gè)Web頁(yè)面通常包括幾個(gè)語(yǔ)義無(wú)關(guān)的部分,因此頁(yè)面清洗對(duì)挖掘的效果具有重要意義.Web頁(yè)面清洗的目的是從頁(yè)面中劃分出更精確的信息單位,主要工作是:網(wǎng)頁(yè)清洗模塊對(duì)網(wǎng)頁(yè)的注釋,、導(dǎo)航,、廣告、版權(quán)說(shuō)明等噪聲信息去噪.頁(yè)面進(jìn)行清洗之后,通過(guò)內(nèi)容提取將半結(jié)構(gòu)化的Web數(shù)據(jù)轉(zhuǎn)化成具有模式的,、可操作
的信息.經(jīng)過(guò)若干年的研究,學(xué)者們提出了很多種Web信
息提取的方法,如基于規(guī)則的提取方法,基于應(yīng)用本體的提取方法等.這些網(wǎng)頁(yè)內(nèi)容提取方法都可以通過(guò)2個(gè)步驟來(lái)實(shí)現(xiàn):!網(wǎng)頁(yè)邏輯結(jié)構(gòu)(DOM模型)的解析與表示;?指定元素的過(guò)濾與選擇.
特征提取與關(guān)鍵詞的提取:特征提取是一種從分詞后的文檔中提取有效和關(guān)鍵信息的方法,其目的是從噪音數(shù)據(jù)中分離出有用的信息以及減少數(shù)據(jù)的維數(shù).常用的特征抽取的方法包括基于詞性和詞義[5]的特征提取方法,這里介紹一種基于詞性的特征提取的基本思想:首先,提取中文文本中的名詞和動(dòng)詞作為文本的一級(jí)特征詞,通過(guò)計(jì)算這些一級(jí)特征詞的文本頻數(shù)和文檔頻數(shù)來(lái)計(jì)算其權(quán)重.然后,根據(jù)各個(gè)特征詞的權(quán)重,對(duì)這些一級(jí)特征詞進(jìn)行排序.給定一個(gè)閾值K,在這些一級(jí)特征詞中,選取K個(gè)權(quán)重較大的一級(jí)特征詞作為文本的核心特征詞,組成表示文本的特征向量.這里的文本頻數(shù)是特征詞在文本中的頻數(shù),文檔頻數(shù)是在訓(xùn)練庫(kù)中,特征詞在其中至少出現(xiàn)一次的文檔的數(shù)目.
2.3??輿情分析模塊
輿情分析模塊是系統(tǒng)中最為關(guān)鍵的處理模塊,利用文本分類(lèi)和聚類(lèi)等方法對(duì)預(yù)處理后的輿情素材信息進(jìn)行分析,、挖掘,實(shí)現(xiàn)輿情信息的熱點(diǎn)發(fā)現(xiàn)和跟蹤.輿情分析模塊的流程如圖4所示.
圖4??輿情分析功能模塊流程
Fig.4??Analysismoduleflowchartonpublicopinions
熱點(diǎn)發(fā)現(xiàn)算法從本質(zhì)上來(lái)說(shuō)是屬于數(shù)據(jù)挖掘中的文本聚類(lèi)算法.算法的實(shí)現(xiàn)過(guò)程如下:將預(yù)處理后的文本信息歸入不同的話題,并在需要的時(shí)候建立新的話題,熱點(diǎn)發(fā)現(xiàn)的目的就是要按照話題將文檔進(jìn)行聚類(lèi),從一組文檔集中發(fā)現(xiàn)新熱點(diǎn),由于沒(méi)有關(guān)于新熱點(diǎn)的先驗(yàn)知識(shí),需要建立新的主題簇.
熱點(diǎn)事件跟蹤是為了用戶能夠跟蹤自己所關(guān)心的類(lèi)型事件而進(jìn)行的操作,用戶可以將已獲得的事件的樣本信息通過(guò)系統(tǒng)學(xué)習(xí)的方式交給系統(tǒng),然后系統(tǒng)通過(guò)文本挖掘技術(shù)對(duì)不斷到來(lái)的信息進(jìn)行分類(lèi),判斷是否為用戶感興趣的內(nèi)容,將判斷為是的信息交給用戶.同時(shí)系統(tǒng)可以通過(guò)用戶對(duì)獲得的信息的反饋,不斷地修正系統(tǒng)的學(xué)習(xí)結(jié)果,使得系統(tǒng)可以獲得越來(lái)越接近用戶所希望的信息.因此,熱點(diǎn)事件跟蹤是一種特殊的二
84






第1期
何??佳,等:網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)現(xiàn)方法
元分類(lèi)問(wèn)題.
敏感話題識(shí)別就是分析某個(gè)主題在不同的時(shí)間段內(nèi)人們所關(guān)注的程度.網(wǎng)絡(luò)中的話題隨著時(shí)間的推進(jìn),以及某些相關(guān)事件的發(fā)生,往往呈現(xiàn)出一定的波動(dòng)和變化.文獻(xiàn)[6]中使用了觀點(diǎn)對(duì)立度這一概念,是指參與評(píng)論的網(wǎng)民之間評(píng)論傾向性的離散程度,用戶往往關(guān)注在過(guò)去某個(gè)時(shí)間段之內(nèi)觀點(diǎn)對(duì)立度上升較快的話題.研究發(fā)現(xiàn),對(duì)于較小規(guī)模的話題,即使其觀點(diǎn)對(duì)立度在一段時(shí)間內(nèi)上升較快,但是由于參與的規(guī)模不大,不能代表大多數(shù)網(wǎng)民的觀點(diǎn),因此在進(jìn)行敏感話題發(fā)現(xiàn)時(shí)需要考慮其規(guī)模因素,結(jié)合主題關(guān)注度
[7]
的概念,找出
輿情在一段時(shí)間內(nèi)的相關(guān)網(wǎng)頁(yè)數(shù),只有同時(shí)滿足規(guī)模和觀點(diǎn)對(duì)立度2方面的閾值,才能觸發(fā)預(yù)警.2.4??輿情預(yù)警與上報(bào)
輿情預(yù)警與上報(bào)是系統(tǒng)與用戶的交互界面,通過(guò)圖表等方式將分析后的結(jié)果反饋給用戶,輿情展示包括熱點(diǎn)排序顯示、話題敏感性趨勢(shì)變化顯示等.通過(guò)這些直觀展示可以使用戶對(duì)熱點(diǎn)信息和敏感信息實(shí)施在線分析,確定輿情在網(wǎng)站中的變化情況,必要時(shí)系統(tǒng)將自動(dòng)觸發(fā)預(yù)警信息實(shí)施預(yù)警.
3??結(jié)束語(yǔ)
網(wǎng)絡(luò)輿情監(jiān)控是一個(gè)較新的研究領(lǐng)域,實(shí)施網(wǎng)絡(luò)輿情信息監(jiān)控存在以下困難:!網(wǎng)絡(luò)上的信息源較多且網(wǎng)頁(yè)結(jié)構(gòu)復(fù)雜,很難全面有效地收集到基于同一主題的所有信息;?中文有其自身的特點(diǎn),基于中文信息處理和文本挖掘的熱點(diǎn)發(fā)現(xiàn)算法有待進(jìn)一步研究改進(jìn).本文針對(duì)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的功能和設(shè)計(jì)過(guò)程做了一定的研究,具體算法實(shí)施還需要進(jìn)一步的分析與改進(jìn)

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多