【延伸閱讀】 情感分析主要面向文本數(shù)據(jù),是自然語言處理的主要內(nèi)容,。情感分析又稱意見挖掘,、傾向性分析等,是對帶有情感色彩的主觀性文本進(jìn)行分析,、處理,、歸納和推理的過程。人們在互聯(lián)網(wǎng)的各種平臺(如微博,、論壇,、知乎、豆瓣等)發(fā)布信息,,其中難免有各種情感色彩和情感傾向性,,如喜、怒,、哀,、樂的情緒,批評或批判,、肯定或贊揚(yáng)的態(tài)度,。情感分析可以自主對這些文字背后所表達(dá)的情緒進(jìn)行挖掘和判斷。 情感分析的流程包括文本預(yù)處理,、特征標(biāo)注與選擇,、訓(xùn)練模型、調(diào)整模型?,F(xiàn)有的文本情感分析的途徑大致有三種:基于情感詞典的方法,、基于機(jī)器學(xué)習(xí)的方法、基于深度學(xué)習(xí)的方法,。 基于情感詞典的方法:指根據(jù)不同情感詞典所提供的情感詞的情感極性,,來實(shí)現(xiàn)不同粒度下的情感極性劃分。首先是將文本輸入,,通過對數(shù)據(jù)的預(yù)處理(包含去噪,、去除無效字符等)以及分詞操作,將情感詞典中的不同類型和程度的詞語放入模型中進(jìn)行訓(xùn)練,,最后根據(jù)情感判斷規(guī)則將情感類型輸出?,F(xiàn)有的情感詞典大部分都是人工構(gòu)建的,,這需要花費(fèi)很大的代價(jià),需要閱讀大量的相關(guān)資料和現(xiàn)有的詞典,,總結(jié)概括含有情感傾向的詞語,,對這些詞語的情感極性和強(qiáng)度進(jìn)行不同程度的標(biāo)注。 基于機(jī)器學(xué)習(xí)的方法:指通過大量有標(biāo)注的或無標(biāo)注的語料,,使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法,抽取特征,,最后再進(jìn)行情感分析輸出結(jié)果,。因?yàn)椴荒塬@取文本的上下文關(guān)聯(lián)信息,并且需要人工對特征進(jìn)行定義和把控才能得到較準(zhǔn)確的情感分析結(jié)果,,所以在某些文本結(jié)構(gòu)較為規(guī)律的特定場合才適合使用,。 基于深度學(xué)習(xí)的方法:以大量含有情感傾向的文本數(shù)據(jù)為支撐,通過各種深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),,充分利用文本的上下文關(guān)聯(lián)信息,,主動學(xué)習(xí)含有不同種情感的文本所具有的特點(diǎn)。無須專家對這些特點(diǎn)進(jìn)行人工定義,。 隨著近年來深度學(xué)習(xí)的發(fā)展,,以及文本數(shù)據(jù)的可獲取性不斷提升,情感分析在自然語言處理研究領(lǐng)域中日漸舉足輕重,,慢慢從理論研究領(lǐng)域拓展到實(shí)踐應(yīng)用中,。目前主要用于預(yù)測電影票房、股票趨勢,、輿情分析,、改進(jìn)服務(wù)及產(chǎn)品、了解用戶體驗(yàn)等,。 |
|