機器學(xué)習(xí)：什么是文本分類？

公司總裁 2022-07-23 發(fā)布于河南

展開全文

文本分類是將文本分類為一個或多個不同類別以組織,、構(gòu)造和過濾成任何參數(shù)的過程。例如,，文本分類用于法律文件,、醫(yī)學(xué)研究和文件，或者像產(chǎn)品評論一樣簡單,。數(shù)據(jù)比以往任何時候都更重要；公司花費巨資試圖提取盡可能多的洞察力,。

隨著文本/文檔數(shù)據(jù)比其他數(shù)據(jù)類型豐富得多,，使用它們的新方法勢在必行,。由于數(shù)據(jù)本質(zhì)上是非結(jié)構(gòu)化的且極其豐富，因此以易于理解的方式組織數(shù)據(jù)以理解它可以大大提高其價值,。將文本分類與機器學(xué)習(xí)結(jié)合使用可以以更快,、更具成本效益的方式自動構(gòu)建相關(guān)文本。

我們將定義文本分類,、它的工作原理,、一些最知名的算法，并提供可能有助于開始您的文本分類之旅的數(shù)據(jù)集,。

為什么使用機器學(xué)習(xí)文本分類,？

規(guī)模：手動數(shù)據(jù)輸入、分析和組織既繁瑣又緩慢,。機器學(xué)習(xí)允許進(jìn)行自動分析,，無論數(shù)據(jù)集有多大或多小。
一致性：人為錯誤是由于疲勞和對數(shù)據(jù)集中的材料不敏感而發(fā)生的,。由于算法的無偏性和一致性,，機器學(xué)習(xí)增加了可擴(kuò)展性并顯著提高了準(zhǔn)確性。
速度：有時可能需要快速訪問和組織數(shù)據(jù),。機器學(xué)習(xí)算法可以解析數(shù)據(jù),，以易于理解的方式傳遞信息,。

6 個通用步驟入門

一些基本方法可以在一定程度上對不同的文本文檔進(jìn)行分類，但最常用的方法涉及機器學(xué)習(xí),。在部署文本分類模型之前,，有六個基本步驟。

1. 提供高質(zhì)量的數(shù)據(jù)集

數(shù)據(jù)集是原始數(shù)據(jù)塊,，用作我們模型的數(shù)據(jù)源,。在文本分類的情況下，使用監(jiān)督機器學(xué)習(xí)算法,，從而為我們的機器學(xué)習(xí)模型提供標(biāo)記數(shù)據(jù),。標(biāo)記數(shù)據(jù)是為我們的算法預(yù)定義的數(shù)據(jù)，并附有信息標(biāo)簽,。

2. 過濾和處理數(shù)據(jù)

由于機器學(xué)習(xí)模型只能理解數(shù)值,，因此模型正確識別數(shù)據(jù)需要對提供的文本進(jìn)行標(biāo)記化和詞嵌入。

標(biāo)記化是將文本文檔拆分為稱為標(biāo)記的較小片段的過程,。標(biāo)記可以表示為整個單詞,、子單詞或單個字符。例如,，可以這樣更智能地標(biāo)記工作：

代名詞：更聰明
令牌子詞：Smart-er
令牌字符：更聰明

標(biāo)記化很重要,，因為文本分類模型只能在基于標(biāo)記的級別上處理數(shù)據(jù)，不能理解和處理完整的句子,。我們的模型需要對給定的原始數(shù)據(jù)集進(jìn)行進(jìn)一步處理才能輕松消化給定的數(shù)據(jù),。刪除不必要的功能，過濾掉空值和無限值等等,。改組整個數(shù)據(jù)集將有助于防止在訓(xùn)練階段出現(xiàn)任何偏差,。

3. 將我們的數(shù)據(jù)集拆分為訓(xùn)練和測試數(shù)據(jù)集

我們希望在 80% 的數(shù)據(jù)集上訓(xùn)練出數(shù)據(jù)，同時保留 20% 的數(shù)據(jù)集來測試算法的準(zhǔn)確性,。

4. 訓(xùn)練算法

通過使用訓(xùn)練數(shù)據(jù)集運行我們的模型,，該算法可以通過識別隱藏的模式和見解將提供的文本分類為不同的類別。

5. 測試和檢查模型的性能

接下來,，使用步驟 3 中提到的測試數(shù)據(jù)集測試模型的完整性,。測試數(shù)據(jù)集將未標(biāo)記，以根據(jù)實際結(jié)果測試模型的準(zhǔn)確性,。為了準(zhǔn)確地測試模型,，測試數(shù)據(jù)集必須包含新的測試用例（與以前的訓(xùn)練數(shù)據(jù)集不同的數(shù)據(jù)）以避免過度擬合我們的模型。

6.調(diào)整模型

通過調(diào)整模型的不同超參數(shù)來調(diào)整機器學(xué)習(xí)模型,，而不會過度擬合或產(chǎn)生高方差,。超參數(shù)是一個參數(shù)，其值控制模型的學(xué)習(xí)過程,。您現(xiàn)在可以部署了,！

文本分類是如何工作的,？

詞嵌入

在前面提到的過濾過程中，機器和深度學(xué)習(xí)算法只能理解數(shù)值,，迫使我們對我們的數(shù)據(jù)集執(zhí)行一些詞嵌入技術(shù)。詞嵌入是將詞表示為可以編碼給定詞的含義的實值向量的過程,。

Word2Vec：谷歌開發(fā)的一種無監(jiān)督詞嵌入方法,。它利用神經(jīng)網(wǎng)絡(luò)從大型文本數(shù)據(jù)集中學(xué)習(xí)。顧名思義,，Word2Vec 方法將每個單詞轉(zhuǎn)換為給定的向量,。
GloVe：也稱為全局向量，是一種無監(jiān)督機器學(xué)習(xí)模型,，用于獲取單詞的向量表示,。與 Word2Vec 方法類似，GloVe 算法將單詞映射到有意義的空間中,，其中單詞之間的距離與語義相似度有關(guān),。
TF-IDF：詞頻-逆文檔頻率的縮寫，TF-IDF 是一種詞嵌入算法,，用于評估一個詞在給定文檔中的重要性,。TF-IDF 為每個單詞分配一個給定的分?jǐn)?shù)，以表示其在一組文檔中的重要性,。

文本分類算法

以下是三種最著名和最有效的文本分類算法,。請記住，每種方法中都嵌入了進(jìn)一步的定義算法,。

1. 線性支持向量機

線性支持向量機算法被認(rèn)為是目前最好的文本分類算法之一,，它繪制給定數(shù)據(jù)點關(guān)于其給定特征的圖，然后繪制一條最佳擬合線將數(shù)據(jù)拆分和分類為不同的類別,。

2. 邏輯回歸

邏輯回歸是回歸的一個子類,，主要關(guān)注分類問題。它使用決策邊界,、回歸和距離來評估和分類數(shù)據(jù)集,。

3.樸素貝葉斯

樸素貝葉斯算法根據(jù)對象提供的特征對不同的對象進(jìn)行分類。然后它繪制組邊界以推斷這些組分類以進(jìn)一步解決和分類,。

設(shè)置文本分類時應(yīng)避免什么

過度擁擠的訓(xùn)練數(shù)據(jù)

為您的算法提供低質(zhì)量數(shù)據(jù)將導(dǎo)致未來預(yù)測不佳,。然而，機器學(xué)習(xí)從業(yè)者中一個非常普遍的問題是向訓(xùn)練模型提供的數(shù)據(jù)集過于詳細(xì),，包含不必要的特征,。用不相關(guān)的數(shù)據(jù)過度擁擠數(shù)據(jù)可能會導(dǎo)致模型性能下降。在選擇和組織數(shù)據(jù)集時,，少即是多,。

錯誤的訓(xùn)練與測試數(shù)據(jù)的比率會極大地影響模型的性能并影響洗牌和過濾,。使用不受其他不需要因素影響的精確數(shù)據(jù)點，訓(xùn)練模型將更有效地執(zhí)行,。

訓(xùn)練模型時,，選擇符合模型要求的數(shù)據(jù)集，過濾不必要的值,，打亂數(shù)據(jù)集,，并測試最終模型的準(zhǔn)確性。更簡單的算法需要更少的計算時間和資源,；最好的模型是可以解決復(fù)雜問題的最簡單的模型,。

過擬合和欠擬合

訓(xùn)練達(dá)到峰值時模型的準(zhǔn)確性，然后隨著訓(xùn)練的繼續(xù)逐漸降低,。這稱為過擬合,；由于訓(xùn)練持續(xù)時間過長，模型開始學(xué)習(xí)意想不到的模式,。在訓(xùn)練集上實現(xiàn)高精度時要小心,，因為主要目標(biāo)是開發(fā)其準(zhǔn)確性植根于測試集的模型（模型以前沒有見過的數(shù)據(jù)）。

另一方面,，欠擬合是指訓(xùn)練模型仍有改進(jìn)的空間,，尚未達(dá)到其最大潛力。訓(xùn)練不佳的模型源于訓(xùn)練的時間長度或?qū)?shù)據(jù)集過度規(guī)范化,。這體現(xiàn)了擁有簡潔和精確數(shù)據(jù)的意義,。

在訓(xùn)練模型時找到最佳位置至關(guān)重要。將數(shù)據(jù)集拆分為 80/20 是一個好的開始,，但調(diào)整參數(shù)可能是您的特定模型需要以最佳方式執(zhí)行的操作,。

文本格式不正確

盡管本文中沒有大量提及，但為您的文本分類問題使用正確的文本格式將帶來更好的結(jié)果,。表示文本數(shù)據(jù)的一些方法包括GloVe,、Word2Vec和嵌入模型。

使用正確的文本格式將改善模型讀取和解釋數(shù)據(jù)集的方式,，進(jìn)而幫助它理解模式,。

文本分類應(yīng)用

過濾垃圾郵件：通過搜索某些關(guān)鍵字，可以將電子郵件分類為有用或垃圾郵件,。
文本分類：通過使用文本分類,，應(yīng)用程序可以通過對項目名稱、描述等相關(guān)文本進(jìn)行分類,，將不同的項目（文章,、書籍等）分類為不同的類別。使用此類技術(shù)可以改善體驗,，因為它使用戶更容易在數(shù)據(jù)庫中導(dǎo)航,。
識別仇恨言論：某些社交媒體公司使用文本分類來檢測和禁止帶有冒犯性行為的評論或帖子,，因為不允許在多人兒童游戲中輸入和聊天任何不同的臟話。
營銷和廣告：公司可以通過了解用戶對某些產(chǎn)品的反應(yīng)來做出特定的改變來滿足他們的客戶,。它還可以根據(jù)用戶對類似產(chǎn)品的評論推薦某些產(chǎn)品,。文本分類算法可以與推薦系統(tǒng)結(jié)合使用，這是許多在線網(wǎng)站用來獲得重復(fù)業(yè)務(wù)的另一種深度學(xué)習(xí)算法,。

流行的文本分類數(shù)據(jù)集

擁有大量標(biāo)記和即用型數(shù)據(jù)集,，您可以隨時搜索符合模型要求的完美數(shù)據(jù)集。

雖然您在決定使用哪一個時可能會遇到一些問題,，但在接下來的部分中，我們將推薦一些可供公眾使用的最知名的數(shù)據(jù)集,。

IMDB 數(shù)據(jù)集
亞馬遜評論數(shù)據(jù)集
Yelp 評論數(shù)據(jù)集
垃圾短信收集
Opin Rank Review 數(shù)據(jù)集
Twitter 美國航空公司情緒數(shù)據(jù)集
仇恨言論和攻擊性語言數(shù)據(jù)集
點擊誘餌數(shù)據(jù)集

Kaggle等網(wǎng)站包含涵蓋所有主題的各種數(shù)據(jù)集,。嘗試在上述幾個數(shù)據(jù)集上運行您的模型進(jìn)行練習(xí)！

機器學(xué)習(xí)中的文本分類

隨著機器學(xué)習(xí)在過去十年中產(chǎn)生了巨大的影響,，公司正在嘗試一切可能的方法來利用機器學(xué)習(xí)來自動化流程,。評論、評論,、帖子,、文章、期刊和文檔在文本中都具有無價的價值,。通過以多種創(chuàng)造性方式使用文本分類來提取用戶見解和模式,，公司可以做出有數(shù)據(jù)支持的決策；專業(yè)人士可以比以往更快地獲取和學(xué)習(xí)有價值的信息,。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：公司總裁 > 《頂尖/科普/冷知識》

舉報/認(rèn)領(lǐng)