1,、一些背景 1.1 文本可視化簡介 文本可視化技術(shù)綜合了文本分析,、數(shù)據(jù)挖掘、數(shù)據(jù)可視化,、計(jì)算機(jī)圖形學(xué),、人機(jī)交互、認(rèn)知科學(xué)等學(xué)科的理論和方法,,為人們理解復(fù)雜的文本內(nèi)容,、結(jié)構(gòu)和內(nèi)在的規(guī)律等信息的有效手段。 1.2文本可視化作用和重要性 問題 海量信息使人們處理和理解的難度日益增大,,傳統(tǒng)的文本分析技術(shù)提取的信息仍然無法滿足人們利用瀏覽及篩選等方式對其進(jìn)行合理的分析理解和應(yīng)用,。 作用 將文本中復(fù)雜的或者難以通過文字表達(dá)的內(nèi)容和規(guī)律以視覺符號的形式表達(dá)出來,同時(shí)向人們提供與視覺信息進(jìn)行快速交互的功能,,使人們能夠利用與生俱來的視覺感知的并行化處理能力快速獲取大數(shù)據(jù)中所蘊(yùn)含的的關(guān)鍵信息,。 重要性 文本可視化涵蓋了信息收集、數(shù)據(jù)預(yù)處理,、知識表示,、視覺呈現(xiàn)和交互等過程。 其中,,數(shù)據(jù)挖掘和自然語言處理等技術(shù)充分發(fā)揮計(jì)算機(jī)的自動處理能力,,將無結(jié)構(gòu)的文本信息自動轉(zhuǎn)換為可視的有結(jié)構(gòu)信息,。 而可視化呈現(xiàn)使人類視覺認(rèn)知、關(guān)聯(lián),、推理的能力得到充分的發(fā)揮,。 因此,文本可視化有效的結(jié)合后了機(jī)器智能和人工智能,,為人們更好的理解文本和發(fā)現(xiàn)知識聽過了新的有效途徑,。
2文本可視化的基本框架: 2.1文本分析 文本可視化依賴于自然語言處理,因此詞袋模型,、命名實(shí)體識別,、關(guān)鍵詞抽取,、主題分析,、情感分析等是較常用的文本分析技術(shù)。 文本分析的過程主要包括 (1)特征提取,,通過分詞,、抽取、歸一化等操作提取出文本詞匯及的內(nèi)容,; (2)利用特征構(gòu)建向量空間模型(vector space model,,VSM)并進(jìn)行降維,以便將其呈現(xiàn)在低維空間,,或者利用主題模型處理特征,; (3)最終以靈活有效的形式表示這些過程處理過的數(shù)據(jù),以便進(jìn)行可視化呈現(xiàn)和交互,。 2.2可視化對象類型 (1)信息圖 文本內(nèi)容的視覺編碼主要涉及尺寸,、顏色、形狀,、方位,、文理等;文本間關(guān)系的視覺編碼主要涉及網(wǎng)絡(luò)圖,、維恩圖,、樹狀圖、坐標(biāo)軸等,。 文本可視化的一個(gè)重要任務(wù) 選擇合適的視覺編碼呈現(xiàn)文本信息的各種特征:例如詞頻通常由字體的大小表示,,不同的命名實(shí)體類別用顏色加以區(qū)分。 (2)交互 便于用戶能夠通過可視化有效地發(fā)現(xiàn)文本信息的特征和規(guī)律,,通常會根據(jù)使用的場景為系統(tǒng)設(shè)置一定程度的交互功能,。 交互方式類型: 高亮(highlighting)、縮放(zooming),、動態(tài)轉(zhuǎn)換(animated transitions),、關(guān)聯(lián)更新(brushing and linking),、焦點(diǎn)加上下文(focus+context)等。 3文本可視化典型的方法和方案 3.1方案一,、文本內(nèi)容 如何快速獲取文本內(nèi)容的重點(diǎn),,快速理解文本的大體內(nèi)容 方法一、基于詞頻的可視化 思路:將文本看成詞匯的集合(詞袋模型),,用詞頻表現(xiàn)文本特征 計(jì)算方法:TFIDF 可視化形式:標(biāo)簽云(tag cloud) 標(biāo)簽云將關(guān)鍵詞按照一定的順序和規(guī)律排列,,如頻度遞減、字母順序等,,并以文字的大小代表詞語的重要性,。 應(yīng)用:廣泛用于與報(bào)紙、雜志等傳統(tǒng)媒體和互聯(lián)網(wǎng),,甚至T恤等實(shí)物中,。 類型: (1)一行一行水平排列 (2)詞語布局遵循嚴(yán)格的條件,文字間的空隙得以充分利用 Wordle:
(3)文字輪廓 Tagxedo:
(4)上下文信息卡 DocumentCard 方法二,、基于詞匯分布的可視化
思路:反映詞頻在文本中的命中位置 計(jì)算方法:詞匯做索引 可視化形式:TitleBars 應(yīng)用:查詢?nèi)蝿?wù)中快速了解文本內(nèi)容與查詢意圖的相關(guān)度
3.2方案二,、文本關(guān)系 理解文本內(nèi)容和發(fā)現(xiàn)規(guī)律 方法一、文本內(nèi)在關(guān)系 思路:反映文本內(nèi)在結(jié)構(gòu)和語義關(guān)系 可視化形式: (1)網(wǎng)絡(luò)圖 應(yīng)用:呈現(xiàn)命名實(shí)體在同一文本的同現(xiàn)關(guān)系 (2)后綴樹(suffix tree) 應(yīng)用:查詢詞的上下文關(guān)系 Word Tree: NETAPANK:用此方法 應(yīng)用:展現(xiàn)文本集中常見上下文關(guān)系,,幫助寫作時(shí)選用詞匯 (3)鏈路圖 Phrase Net: 應(yīng)用:呈現(xiàn)文本中命名實(shí)體的從屬關(guān)系,、并列關(guān)系等。 (4)徑向空間填充: FanLens 應(yīng)用:呈現(xiàn)命名實(shí)體的層次關(guān)系 DocuBurst 應(yīng)用:呈現(xiàn)詞語在Wordnet中的上下位關(guān)系,,及詞頻
方法二,、文本外在關(guān)系 思路:反映文本間的引用關(guān)系、網(wǎng)頁的超鏈關(guān)系等直接關(guān)系以及主題相似性等潛在關(guān)系(一般基于聚類算法用來呈現(xiàn)主題分布,,并展示與特定主題相關(guān)的關(guān)鍵詞,,主要應(yīng)用于信息檢索、主題檢測,、話題演變等方面) 可視化形式: (1)網(wǎng)絡(luò)圖
應(yīng)用:對文本集的引用關(guān)系 網(wǎng)絡(luò)節(jié)點(diǎn)代表文本,,有向線代表引用關(guān)系 (2)FP-tree 應(yīng)用:展現(xiàn)文獻(xiàn)共引關(guān)系,便于領(lǐng)域研究 比CiteSpace這種傳統(tǒng)網(wǎng)絡(luò)圖可視化方案呈現(xiàn)文獻(xiàn)更為細(xì)致的信息 (3)標(biāo)簽云改造 呈現(xiàn)由jaccard系數(shù)計(jì)算出的聚類結(jié)果,,同行同主題,,相鄰行主題相似
插播: 文本主題分析除了基于統(tǒng)計(jì)的方法之外還有基于特征降維的方法 (1)高維SVM表示文本 (2)投影將高維特征向量投影到2D,3D能表示的維數(shù) 降維方式: a,、基于奇異值分解(singular value decomposition,,SVD)的潛在語義索引(latent semantic indexing,LSI) b,、主成分分析(principal component analysis,,PCA) c、對應(yīng)分析(correspondence analysis,,CA) d,、多維尺度分析(multidimensional scaling,,MDS) e、基于人工神經(jīng)網(wǎng)絡(luò)的自組織映射圖網(wǎng)絡(luò)(self-organizating map,,SOM) 特征降維的可視化: (1)文本地圖 (2)標(biāo)簽云 ProjCloud: 用k-means算法聚類,,用標(biāo)簽云展示相似文本和此類關(guān)鍵詞集合 (3)嵌套長方形(分層次可視化) 解決降維過程信息丟失,帶來的可視化缺乏擴(kuò)展性 長方形的方向表示層次的變化,,大小表示重要程度,,圖形復(fù)雜,文本標(biāo)簽缺乏可讀性 news map 展示新聞文本 Map of the Market 展示股票市場的概覽 ThemeCrowds 與標(biāo)簽云結(jié)合展示主題的層次關(guān)系及主題關(guān)鍵詞 (4)力導(dǎo)向圖(force-directed placement,,F(xiàn)DP) InfoSky 生成層次聚類樹聚類信息的分層級展示
3.3方案三,、多層面信息 結(jié)合信息的多個(gè)方面幫助用戶更深層的理解文本數(shù)據(jù)發(fā)現(xiàn)其中的規(guī)律,特別是包含時(shí)間關(guān)系的文本 方法一,、時(shí)間與其他信息結(jié)合的可視化 思路:時(shí)間信息提供文本內(nèi)容變化,、數(shù)據(jù)規(guī)律的信息 可視化形式: (1)引入時(shí)間軸,,信息按時(shí)間順序排列 (2)標(biāo)簽云與時(shí)間結(jié)合 a,、詞語下引入折線圖,,表示詞語使用頻度的變化 SparkCloud: b,、標(biāo)簽云上標(biāo)上不同顏色和圖形 c,、時(shí)間折線圖,,時(shí)間點(diǎn)標(biāo)簽云,,折線圖上值越大表示此時(shí)刻的標(biāo)簽云標(biāo)簽越多
(3)疊式圖(stacked graph) 每層代表一個(gè)事物,,以顏色區(qū)分,,粗細(xì)代表頻度 a、ThemeRiver 做了平滑和堆疊處理 MemTracker b,、ThemeRiver擴(kuò)展 NewsRiver,,VisualBackchannel 跟蹤博客,微博,,twitter的變化 TIARA結(jié)合標(biāo)簽云 通過主題分析技術(shù)(Latent Dirichlet allocation,LDA)抽取文本主題融入ThemeRiver,,并在每層上顯示關(guān)鍵詞 c、Tag River 河流結(jié)合標(biāo)簽云 d,、TextFlow 河流+主題的產(chǎn)生,,分流合并 e、EventRiver f,、History Flow 文檔內(nèi)容隨時(shí)間變化 (3),、螺旋圖 文本信息的周期性變化 多層次螺旋圖還可以對比不同數(shù)據(jù)集 (4)、動態(tài)呈現(xiàn)包含時(shí)間的數(shù)據(jù) TwitterScope 地圖形式呈現(xiàn)twitter內(nèi)容,,并以顏色區(qū)分不同主題,,內(nèi)容會隨著時(shí)間動態(tài)消失、融合 Streamit 以動畫的形式從左到右實(shí)時(shí)地呈現(xiàn)文本的聚合和分化 (5)結(jié)合時(shí)間空間信息 信息在監(jiān)測Twitter上的突發(fā)事件并顯示在地圖上 信息在twitter上的傳播過程和規(guī)律 Whisper: TwitterMood 以顏色表示心情,,顯示情緒的變化 方法二,、其他多層信息的可視化 (1)parallel Tag Cloud 結(jié)合標(biāo)簽云和常用于多維數(shù)據(jù)展示的平行坐標(biāo)軸 (2)FacetAtlas 兩種糖尿病,,紅色表示相似并發(fā)癥,綠色表示相似癥狀 (3)Jigsaw,、FeatureLens,、ASE 通過協(xié)同展示多個(gè)視角
4、總結(jié) (1)常見文本分析技術(shù)及可視化方式
(2)常見文本可視化方式的核心算法
5,、評價(jià) (1)可用性測試(usability testing):用戶使用反饋,,指導(dǎo)設(shè)計(jì) (2)可用性檢查(usability inspection):專家檢查,測試技術(shù)細(xì)節(jié) (3)個(gè)案研究(case study):應(yīng)用場景得到研究結(jié)論 (4)對比測試:對比主客觀數(shù)據(jù) 題錄:唐家渝, 劉知遠(yuǎn), 孫茂松. 文本可視化研究綜述[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2013, 25(3): 273-285.
張?zhí)煨馹IR&TM研究組每周總結(jié)(4)-文本可視化-13-11-16 [email protected];[email protected]
思考:總結(jié)的比較全面,、系統(tǒng),。畢設(shè)的綜述可視化部分就靠它了 |
|