【原】TOP刊: 文本分析技術(shù)及在經(jīng)濟(jì)學(xué)和商學(xué)中的應(yīng)用, 一個指南和綜述

計量經(jīng)濟(jì)圈 2024-11-02 發(fā)布于浙江

展開全文

這篇TOP刊上的文章對文本分析的技術(shù)以及在商學(xué)研究中的應(yīng)用做了一個綜述,，對于將文本分析方法應(yīng)用于經(jīng)濟(jì)學(xué)研究也有借鑒意義,。

關(guān)于文本分析，參看1.TOP前沿: 文本分析方法必讀實用指南! 基于文本即數(shù)據(jù)的機器學(xué)習(xí),！2.基于文本大數(shù)據(jù)分析的會計和金融研究綜述, 附24篇相關(guān)講解文章,！3.Top金融,經(jīng)濟(jì)與會計期刊中的文本分析, 一項長達(dá)2萬字的綜述性調(diào)查，4.文本分析方法在政策評估研究中的應(yīng)用, 從描述性推論向因果推斷的最新發(fā)展,，5.文本分析的步驟, 工具, 途徑和可視化如何做,？6.文本大數(shù)據(jù)分析在經(jīng)濟(jì)學(xué)和金融學(xué)中的應(yīng)用, 最全文獻(xiàn)綜述，7.不想被淘汰, 必須看這份“另類數(shù)據(jù),機器學(xué)習(xí)和文本分析”的前沿文獻(xiàn)菜單,，8.GPT在文本分析中的應(yīng)用, 一個基于Stata 的集成命令用法介紹,，9.前沿: 川普語錄! 研究川普還得俄羅斯人! 無疑將是文本分析的典范！10.不想被淘汰, 必須看這份“另類數(shù)據(jù),機器學(xué)習(xí)和文本分析”的前沿文獻(xiàn)菜單

《文本分析技術(shù)及在經(jīng)濟(jì)學(xué)和商學(xué)中的應(yīng)用》

關(guān)于下方文字內(nèi)容,，作者：張繼軒,，蘭州大學(xué)管理學(xué)院

Bochkay, K., Brown, S.V., Leone, A.J. and Tucker, J.W. (2023), Textual Analysis in Accounting: What's Next?. Contemp Account Res, 40: 765-805.
Natural language is a key form of business communication. Textual analysis is the application of natural language processing (NLP) to textual data for automated information extraction or measurement. We survey publications in top accounting journals and describe the trend and current state of textual analysis in accounting. We organize available NLP methods in a unified framework. Accounting researchers have often used textual analysis to measure disclosure sentiment, readability, and disclosure quantity; to compare disclosures to determine similarities or differences; to identify forward-looking information; and to detect themes. For each of these tasks, we explain the conventional approach and newer approaches, which are based on machine learning, especially deep learning. We discuss how to establish the construct validity of text-based measures and the typical decisions researchers face in implementing NLP models. Finally, we discuss opportunities for future research. We conclude that (i) textual analysis has grown as an important research method and (ii) accounting researchers should increase their knowledge and use of machine learning, especially deep learning, for textual analysis.

文本分析技術(shù)及在經(jīng)濟(jì)學(xué)和商學(xué)中的應(yīng)用

一、概論

敘述(narrative)是“理解人類行為的動機和經(jīng)濟(jì)影響”的重要抓手(Shiller 2017),，而文本是敘述的主要呈現(xiàn)形式,，因此分析大量文本是開展經(jīng)濟(jì)與管理研究的重要渠道。傳統(tǒng)的分析文本方式是人工整合分析,，而自然語言處理(natural language processing, NLP)的出現(xiàn)使得分析文本更加簡便,、迅速、高效,。本論文所討論的文本分析(textual analysis)就是將自然語言處理技術(shù)(下文簡寫為NLP)應(yīng)用于文本數(shù)據(jù),。

近二十年來，文本分析在社科研究中越來越頻繁地出現(xiàn),。在會計研究中,，文本分析扮演著各種角色：52.7%直接從文檔中構(gòu)建變量，并將該變量用作假設(shè)檢驗的因變量或解釋變量,；29.9%的文本分析提取目標(biāo)文本信息(例如通過關(guān)鍵字搜索或正則表達(dá)式),，并從提取的數(shù)據(jù)中構(gòu)建變量以供后續(xù)分析；5.8%的人基于文本分析構(gòu)建控制變量,；2.4%的文獻(xiàn)生成了基于文本的變量作為感興趣結(jié)果的預(yù)測變量,；9.2%用于其他目的?？梢钥闯?，文本分析正在研究中扮演越來越重要的角色，有必要學(xué)習(xí)文本分析的技術(shù)及其應(yīng)用,，用好這一強大工具,。

在[第二章])中，文章將目前為止常用的NLP方法放在一套框架下敘述,，從三個方面進(jìn)行歸集：

(1) 文本表示(Text representation): 文本數(shù)據(jù)如何作為NLP模型的輸入,？([2.2節(jié)])

a) 詞袋法(bag-of-words, BOW)，將文本文檔表示為字?jǐn)?shù)的向量,；

b) 詞嵌入(word embedding),，將詞語或短語從詞匯表映射到向量的實數(shù)空間中，這樣詞義的語義信息就能以數(shù)值的形式表達(dá)出來,，降低文本維度,。

(2) 用什么模型？([2.1節(jié)])

a) 基于規(guī)則的轉(zhuǎn)換

i. 簡單轉(zhuǎn)換

ii. 文本比較

b) 傳統(tǒng)機器學(xué)習(xí)(machine learning)

c) 深度學(xué)習(xí)(deep learning)

(3) 要什么輸出,？

根據(jù)研究具體而定,。

[第三章])詳細(xì)介紹NLP在會計中的應(yīng)用,，包括常見的披露情緒、可讀性,、文件相似性,、前瞻性信息和主題探索，并對其NLP實現(xiàn)和深度學(xué)習(xí)等新方法實現(xiàn)做了介紹,。

鑒于文本分析通常用于構(gòu)建假設(shè)檢驗,，有必要考察文本分析的效度如何。這將在[第四章])進(jìn)行介紹,。

[第五章]為研究人員在實施NLP方法時面臨的常見操作提供指引,，例如數(shù)據(jù)采集、預(yù)處理,、模型選擇,、監(jiān)督機器學(xué)習(xí)等，并推薦了研究中可用的資源(例如,，庫,、代碼和文本度量)

[第六章])介紹了未來研究的兩個方向，包括監(jiān)督深度學(xué)習(xí)以及主題建模,。

這篇文章有三方面的貢獻(xiàn)：(1)強調(diào)文本分析作為一種重要的研究方法的存在,；(2)在會計專業(yè)博士生的培養(yǎng)中注意引入文本分析的培訓(xùn),；(3)對可用的NLP方法及其應(yīng)用進(jìn)行了更系統(tǒng),、更完整的新近介紹。

二,、NLP方法：概述

表 1 文本分析方法,、所應(yīng)用的場景和文獻(xiàn)舉例

NLP模型分為兩大類：基于規(guī)則的轉(zhuǎn)換和基于數(shù)據(jù)的轉(zhuǎn)換。

基于規(guī)則的轉(zhuǎn)換包括簡單轉(zhuǎn)換和文本比較,。顧名思義,，是使用手動制定的規(guī)則(例如詞典)將輸入轉(zhuǎn)換為輸出。一旦制定了規(guī)則,，轉(zhuǎn)換就很簡單了,；但這也導(dǎo)致工作量和矛盾也主要集中在轉(zhuǎn)換規(guī)則的制定上(耗時費力，復(fù)雜情況不適應(yīng),，等等),。

基于數(shù)據(jù)的轉(zhuǎn)換是讓計算機在訓(xùn)練數(shù)據(jù)(training data)中不受人工干預(yù)地學(xué)習(xí)，這被稱為機器學(xué)習(xí)(machine learning),。在機器學(xué)習(xí)中,，研究人員可以控制模型的特征(單個可測量的屬性或特征)，并且必須仔細(xì)調(diào)整超參數(shù)(hyperparameters, 控制模型的學(xué)習(xí)過程的參數(shù)),。許多模型已經(jīng)適配了NLP,，一些模型還是為NLP而開發(fā)的,。

機器學(xué)習(xí) 可以分為監(jiān)督學(xué)習(xí)(supervised learning)和無監(jiān)督學(xué)習(xí)(unsupervised learning)。在監(jiān)督學(xué)習(xí)中,，訓(xùn)練數(shù)據(jù)中的輸出變量已經(jīng)被標(biāo)注或標(biāo)記,，以便機器學(xué)習(xí)輸入和輸出之間的關(guān)系；在無監(jiān)督學(xué)習(xí)中,，輸出變量沒有標(biāo)記,，機器無法根據(jù)標(biāo)記區(qū)分出輸出數(shù)據(jù)，機器的工作是發(fā)現(xiàn)潛在的輸出(例如,，語義聚類),。

本文將傳統(tǒng)的機器學(xué)習(xí)模型和深度學(xué)習(xí)模型分開，前者在計算機科學(xué)領(lǐng)域已經(jīng)發(fā)展了幾十年,，并在其他學(xué)科中得到了應(yīng)用,，后者是最近才發(fā)展和應(yīng)用的。

2.1.1 簡單轉(zhuǎn)換

這是最簡單的一種轉(zhuǎn)換,。常見的例子有

(1) 關(guān)鍵字搜索

(2) 對包含某些關(guān)鍵詞的詞,、句、段的計數(shù)

(3) 識別復(fù)雜單詞,、長句子或其他寫作元素(例如可讀性)

(4) 對某些類型的詞進(jìn)行分類(例如否定詞的計數(shù))

然而,，由于轉(zhuǎn)換過于簡單，因此輸出的解釋工作復(fù)雜,，導(dǎo)致對輸出的解釋依賴于直覺,、心理等。輸出結(jié)果可以有多種多樣的解釋,，例如,，文檔長度可以代表披露數(shù)量，也可以代表混淆程度,；有許多特殊情況也會導(dǎo)致簡單轉(zhuǎn)換的輸出與解釋有偏,，例如，每個單詞更多的音節(jié)可能會降低易讀性,，但財務(wù)報表中的“company” “industry”等單詞的音節(jié)大于平均音節(jié)而具有高度易讀性,。

2.1.2 文本比較

一些模型，例如文本比較,，超越了簡單轉(zhuǎn)換,，但尚未使用機器學(xué)習(xí)等方法。

例如,，使用向量空間模型(VSM)的余弦相似度模型用n維向量表示每個文檔,，并使用兩個向量之間的夾角來度量兩個文檔的相似度。該方法最初是為信息檢索而設(shè)計的,，但也可以用于其他目的,，如量化披露隨時間變化的程度,。

如果向量表示的特征不是簡單的單詞計數(shù)，比如主題混合,，余弦相似度仍然可以計算和解釋,。

2.1.3 傳統(tǒng)機器學(xué)習(xí)

在傳統(tǒng)機器學(xué)習(xí)中，文章討論如下四個主題：

(1) 樸素貝葉斯方法(na?ve Bayes, NB)

這是一種基于貝葉斯定理的概率式的監(jiān)督學(xué)習(xí)算法,，該算法用于分類,。

分類單位可以是句子、段落或整個文檔,；每個單元被簡化為包含每個單詞頻率的單詞列表,。該算法估計最能產(chǎn)生真實分類的權(quán)重，然后用這個權(quán)重去對其他數(shù)據(jù)進(jìn)行分類,。

這一方法十分流行,，但它的實際表現(xiàn)可能受限，這是因這一方法假設(shè)用于預(yù)測分類的特征是相互獨立的,。

(2) K-近鄰(K-nearest neighbors, KNN)

這也是一種監(jiān)督學(xué)習(xí)算法,，用于產(chǎn)生分類或產(chǎn)生連續(xù)型的輸出。

K是研究人員在研究中所考慮的與某個數(shù)據(jù)點近鄰的數(shù)據(jù)點的個數(shù),，由研究人員指定,；“近鄰”指的是兩個數(shù)據(jù)點之間的“距離”盡可能近。這種方法沒有從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)判別函數(shù),。

K值的選擇對KNN算法的性能有很大影響,。較小的K值可能導(dǎo)致模型對訓(xùn)練數(shù)據(jù)過度擬合，而較大的K值可能導(dǎo)致模型欠擬合,。

(3) 文本回歸和決策樹(text regressions and decision trees)

文本回歸是在能解決文本數(shù)據(jù)高維性的一種回歸技術(shù),。文本的高維性會形成許多待處理特征(因素),，而當(dāng)因素的數(shù)量超過樣本數(shù)量時,，常用的回歸方法就無法使用(比如用OLS無法回歸)，而且會產(chǎn)生過擬合問題,，導(dǎo)致模型在預(yù)測其他數(shù)據(jù)時表現(xiàn)不如預(yù)測原先的樣本數(shù)據(jù)(Varian 2014),。一種解決方案是正則化(regularization)，即在損失函數(shù)中添加懲罰項以減小某些參數(shù)(稱為權(quán)重(weight)或系數(shù)(coefficient))的大小,。

a) 常用的懲罰線性回歸是ridge和lasso,，后者是后來發(fā)展起來的，且現(xiàn)在比前者更受歡迎(Hindman 2015),。

b) 非線性回歸有兩種類型,。

i. 分類和回歸樹(classification and regression trees, CART)

這一模型根據(jù)可用的最佳預(yù)測特征將數(shù)據(jù)劃分為兩組，并根據(jù)剩余的最佳預(yù)測特征進(jìn)一步劃分每組,，直到剩余的特征都不能進(jìn)一步改善預(yù)測為止,。大多數(shù)的樹模型是路徑依賴的,，可能受到極端觀測值的影響，可能會過擬合,。

最新和最流行的模型是隨機森林(random forest, RF),，它通過對樣本和特征的交叉隨機抽樣來克服上面的弱點(Hindman 2015)。

ii. 支持向量機(support vector machine, SVM)

這一模型將訓(xùn)練數(shù)據(jù)作為高維空間中的數(shù)據(jù)點,，并在高維空間中找到一個超平面分類,。支持向量機在某種意義上是半?yún)?shù)的，一方面估計參數(shù),，但另一方面又允許一系列結(jié)構(gòu)可能性(Cui and Curry 2005),。SVM的一種變體是支持向量回歸(support vector regression, SVR)，其具有處理高維輸入的正則化機制,，在輸出變量連續(xù)時可以使用,。

(4) 主題建模(topic modeling)

“主題”是文本數(shù)據(jù)的一個潛在屬性(輸出)，它依賴于詞的共現(xiàn)趨勢,。在技術(shù)層面上,，主題發(fā)現(xiàn)是搜索相關(guān)詞的聚類，并將輸入數(shù)據(jù)的維數(shù)降低到這些聚類上(Schwartz and Ungar 2015),。最流行的模型是潛在狄利克雷分配(latent Dirichlet allocation, LDA),。由于LDA是一個概率模型，必須預(yù)先指定主題的數(shù)量等,，因此一個研究人員生成和解釋的主題可能與另一個研究人員生成和解釋的主題不完全相同,。這一技術(shù)也可以在檢查兩個文檔的主題相似性等不需要明確主題的情況下使用。

2.1.4 深度學(xué)習(xí)

傳統(tǒng)的機器學(xué)習(xí)方法在大多數(shù)時候可以提供解決方案,，但是當(dāng)問題的復(fù)雜性上升時,，傳統(tǒng)機器學(xué)習(xí)可能無法提供令人滿意的結(jié)果，這主要有三方面原因：(1) 傳統(tǒng)機器學(xué)習(xí)可以學(xué)習(xí)非線性關(guān)系,，但很困難甚至不可能,；(2)傳統(tǒng)機器學(xué)習(xí)需要研究人員手動標(biāo)注來作為模型輸入；(3)研究人員往往從零開始訓(xùn)練傳統(tǒng)機器學(xué)習(xí)模型,，這需要大量的數(shù)據(jù),。

深度學(xué)習(xí)可以克服上面的困難。在概念層面上,，深度學(xué)習(xí)是一種特殊的機器學(xué)習(xí),，其把世界建構(gòu)成一個概念體系，每個概念都以更簡單/不那么抽象的概念加以定義,，這樣可以實現(xiàn)更好的效果,，具有更好的靈活性(Goodfellow et al. 2016, 8)。在技術(shù)層面上，深度學(xué)習(xí)通過人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)來模仿人類的大腦,。深度學(xué)習(xí)有更多隱藏層(三個甚至更多)和更少的各層節(jié)點,，層數(shù)越大的層處理的復(fù)雜性更大。

下面,，文章詳細(xì)討論ANN和深度學(xué)習(xí)的發(fā)展,。

ANN的基本形式至少在1980年就存在，當(dāng)時被用于圖像的模式識別(Fukushima 1980),。ANN至少有三層神經(jīng)元：輸入層,，一個或多個隱藏層和一個輸出層。輸入層表示模型的輸入數(shù)據(jù),，輸出層產(chǎn)生一系列連續(xù)變量(比如句子的情感賦值),，這些連續(xù)變量可以進(jìn)一步被映射為相互獨立的分類。深度學(xué)習(xí)模型會學(xué)習(xí)如何通過在選定的激活函數(shù)(activation function)和損失函數(shù)(loss function)的基礎(chǔ)上調(diào)整每一層的權(quán)重和偏差(類似于傳統(tǒng)回歸中的斜率和截距)在輸入和輸出之間構(gòu)建映射,。研究人員要根據(jù)研究情境,、任務(wù)復(fù)雜度和模型表現(xiàn)來選擇隱藏層和每層上節(jié)點的數(shù)量，對于每一層的其他設(shè)定也可以做選擇,。

圖 1 ANN圖解

早期,，ANN被集中應(yīng)用于圖像處理。一個電子圖像就是二位的像素矩陣,；像素相對于相鄰的像素才有意義,。圖像的這種特征使得卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)被開發(fā)出來。到2000年代中期,，在訓(xùn)練技術(shù)逐步改進(jìn)以及形成多個隱藏層的基礎(chǔ)上,，術(shù)語“深度學(xué)習(xí)”被首次使用(Goodfellow et al. 2016, 18)。后來發(fā)現(xiàn)CNN可以很好地處理自然語言(LeCun et al. 2015),，但CNN在語言順序性上有限制,，因為圖像是二維的，而語言敘述的順序在技術(shù)上往往是一維的,，而且在一維上更大范圍的上下文可能更有助于理解,。

遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks, RNN)在ANN中添加時間感知循環(huán)，能夠更好地理解語言依賴性和上下文,，適用于翻譯,、詞嵌入和句子分類(Aggarwal 2018)。由于其循環(huán)特性,，RNN往往具有良好的短期“記憶”，即根據(jù)周圍的詞語進(jìn)行分析,，但隨著上下文的距離越來越遠(yuǎn),，長期記憶就會變差。長短期記憶(long short-term memory, LSTM)是對RNN循環(huán)機制的改進(jìn)，允許提高對額外上下文的認(rèn)識(Hochreiter and Schmidhuber 1997),，提高模型的“注意力”(“attention”),。后來，一個開創(chuàng)性研究(Vaswani et al. 2017)刪除了RNN中的循環(huán)機制,，并表明“注意力機制”足以讓模型表現(xiàn)優(yōu)良,。這種基于注意力機制的模型被稱為轉(zhuǎn)換器模型(transformer)，近年來主導(dǎo)了NLP的發(fā)展,。谷歌的BERT模型就是一例,，現(xiàn)在被廣泛適用。

與傳統(tǒng)機器學(xué)習(xí)相比,，深度學(xué)習(xí)有三方面的優(yōu)勢：(1)可以學(xué)習(xí)復(fù)雜關(guān)系,；(2)訓(xùn)練過程可以自動化；(3)可以遷移學(xué)習(xí),，可以使用預(yù)先訓(xùn)練過的模型,，微調(diào)也只需要相對少量的數(shù)據(jù)。

2.2 文本表示

有兩種方法可以將文本表示為NLP的輸入,。BOW通常用于簡單的轉(zhuǎn)換,、文本比較和傳統(tǒng)的機器學(xué)習(xí)模型，而詞嵌入通常用于深度學(xué)習(xí)模型,。

2.2.1 詞袋法(Bag-of-Words, BOW)

在這種方法下,，文檔由一個向量表示，向量的每個分量對應(yīng)于語料庫中的一個唯一特征詞,，1表示存在,，0表示不存在，這種編碼方式稱為獨熱編碼,。

當(dāng)研究人員對特定關(guān)鍵詞感興趣或需要比較兩個文檔的語言時,，這種方法較為適用。這種方法的問題在于,，簡單機械編碼方式可能會過度簡化語言的豐富性,，并且無法表示單詞語義之間的關(guān)系。

2.2.2 詞嵌入(Word Embedding)

這種將每個詞映射到一個特征向量(feature vector, 不是線性代數(shù)中的eigenvector),，該特征向量由抽象特征的權(quán)重組成,，具有相似含義的單詞具有相似的向量表示。

單詞嵌入方法有三個好處：(1)它相比之下更能反映單詞之間的語義關(guān)系,；(2)它將輸入的維度從數(shù)千個相互獨立的單詞減少到數(shù)百個特征,，從而提高了機器學(xué)習(xí)的效率；(3)它使特征向量的線性運算變得有意義(例如,，對于[“國王”-“男人”+“女人”]的向量操作將產(chǎn)生一個接近于“女王”的特征向量),。

目前已有三代詞嵌入模型,。第一代由Bengio et al. (2001)提出，使用基于統(tǒng)計相關(guān)性而非上下文的概率方法提出了詞嵌入的想法,。第二代詞嵌入技術(shù)使用淺神經(jīng)網(wǎng)絡(luò)(少于三個隱藏層的人工神經(jīng)網(wǎng)絡(luò))和無監(jiān)督學(xué)習(xí)來發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)中的詞關(guān)系,，例如谷歌開發(fā)的Word2Vec和斯坦福大學(xué)開發(fā)的GloVe。雖然這兩者仍然被廣泛使用,，但它們不能反映當(dāng)前文檔的上下文是一個明顯的弱點,。第三代詞嵌入技術(shù)解決了這個缺點，這是深度學(xué)習(xí)語言模型提供的一種擴(kuò)展類型的嵌入,，如ELMo和BERT,。

NLP的最新進(jìn)展主要在深度學(xué)習(xí)中，這要求研究人員跟上這一領(lǐng)域的最新發(fā)展,。

三,、NLP在會計研究中的應(yīng)用

在作者所調(diào)查的207份文獻(xiàn)中：

l 37.2% 測量了披露情緒；

l 25.6% 衡量信息披露的可讀性,；

l 18.8% 將包含關(guān)鍵詞的單詞,、句子或文章作為文本信息量的代表；

l 10.1% 比較信息披露的相似性或差異性,；

l 6.8% 識別前瞻性信息,；

l 2.4% 檢測披露主題。

圖 2 采用文本分析的文獻(xiàn)：分析

3.1 情感分析 (Sentiment Analysis)

3.1.1 字典法 (Dictionary Method)

字典法是一種非常直接的方法,，在會計研究中大量被使用(在本文所覆蓋的所有會計研究論文中,，97.4%使用了該方法)。字典是一個包含了詞語和詞語連接規(guī)則的列表,。研究人員使用一個提前設(shè)定的字典對整個文件進(jìn)行分析,，將正向詞匯出現(xiàn)的詞頻與負(fù)面詞匯出現(xiàn)的詞頻之差和全文字?jǐn)?shù)之比作為文章情感的度量。在這種度量方式中,，研究者可以看出哪個詞對于情感度量分?jǐn)?shù)的貢獻(xiàn)更多,。

這種方法簡單直接，但局限性也很大：

不考慮上下文,，而詞語在上下文中的含義可能會變化,。

例如，“public good”一詞中的“good”就不是“好”的意思,。此外,，在更長的上下文中，詞語的意思可能會發(fā)生微妙的改變,，這更不容易被注意到,。

字典法潛在假設(shè)所有的情感詞，不論正面還是負(fù)面,，都是相同權(quán)重,。

例如,，“bad”和“terrible”在字典法中是同樣的權(quán)重,，但事實上,，單就這兩個單詞看，“terrible”所表達(dá)的負(fù)面情緒自然比“bad”要強,。Bochkay et al. (2020) 制作了一個兼具情感方向和情感程度的詞庫,。

研究者必須決定否定詞和程度詞如何處理。例如“無法確認(rèn)”“更糟糕”,。
情感詞庫可能沒辦法很好適用于所有待研究的文本,。

3.1.2 機器學(xué)習(xí)方法

與字典方法相比，機器學(xué)習(xí)可以解釋語言的特殊性,，如否定詞,、強化詞和基于詞性或上下文的不同含義。

在情感分析中應(yīng)用機器學(xué)習(xí)方法,，是使用標(biāo)記的訓(xùn)練數(shù)據(jù)(例如,，分類為積極、消極或中性的句子)來發(fā)現(xiàn)輸入文本特征和輸出情感標(biāo)簽之間的關(guān)系,，然后使用訓(xùn)練過的模型來分析其他文本的情感,。這是一種監(jiān)督學(xué)習(xí)。Heitmann et al. (2020) 對216篇出版物進(jìn)行了meta分析,，發(fā)現(xiàn)傳統(tǒng)機器學(xué)習(xí)進(jìn)行情感分析的準(zhǔn)確性遠(yuǎn)超字典法,。深度學(xué)習(xí)方法進(jìn)一步優(yōu)于傳統(tǒng)機器學(xué)習(xí)方法。不過,，目前還只有少數(shù)會計研究使用傳統(tǒng)的機器學(xué)習(xí)或深度學(xué)習(xí)模型進(jìn)行情感分析,，且直到最近才開始使用轉(zhuǎn)換器。研究人員需要為監(jiān)督學(xué)習(xí)而對數(shù)據(jù)進(jìn)行標(biāo)記,，傳統(tǒng)機器學(xué)習(xí)模型通常必須從頭開始訓(xùn)練,，而遷移學(xué)習(xí)允許使用相比于傳統(tǒng)機器學(xué)習(xí)更少的訓(xùn)練數(shù)據(jù)來微調(diào)預(yù)訓(xùn)練的深度學(xué)習(xí)模型。

舉例有幾種類型的機器學(xué)習(xí)模型被用于情感分析,。傳統(tǒng)的機器學(xué)習(xí)模型包括NB (F. Li 2010b; Azimi and Agrawal 2021),、SVM (Howard and Ruder 2018)和RF (Frankel et al. 2021)。在深度學(xué)習(xí)模型中,，CNN,、LSTM和轉(zhuǎn)換器(例如BERT)都可以執(zhí)行包括情感分析在內(nèi)的各種文本分類任務(wù)(Zhang et al. 2015; Wang et al. 2016; Colón-Ruiz and Segura-Bedmar 2020)。針對金融文本的轉(zhuǎn)換器模型有FinBERT,，在BERT的架構(gòu)下使用金融文本訓(xùn)練模型,。

3.2 可讀性(Readability)

可讀性是指讀者在理解文本時所承受的認(rèn)知負(fù)擔(dān)。這受到許多因素的影響,，包括詞的復(fù)雜性,、詞的熟悉度,、語法、思想之間的內(nèi)在聯(lián)系和讀者的知識(Martinc et al. 2021)等,。

3.2.1 傳統(tǒng)方法

研究人員傾向于關(guān)注文本的詞匯和句法特征,，如復(fù)雜單詞的數(shù)量、句子的長度或整個文檔的長度,，以簡化可讀性的測量,。

會計研究中常用三種方法：

l 文本長度(F. Li 2008; Lawrence 2013)或文件大小(Loughran and McDonald 2014; Y. Li and Zhang 2015)

這是衡量可讀性的最簡單的方法，而且邏輯上也很直觀——文本越長,，負(fù)擔(dān)越重,，可讀性越低。這種方法的問題在于,，更長的文本可能有助于更好地解釋,，短文本可能反而讓人無法理解復(fù)雜問題，而且文本長可能是由于信息量大所導(dǎo)致(比如說這篇文獻(xiàn)閱讀筆記很長,，主要是因為信息量大),，這種方法難以將可讀性與信息量分開。

l 迷霧指數(shù)(Gunning Fog Index, FOG; F. Li 2008; Guay et al. 2016)

這是基于每個句子的單詞數(shù)和文本中復(fù)雜單詞(即多音節(jié)單詞)的百分比構(gòu)建的,。邏輯上也很直觀——更長的句子和更復(fù)雜的單詞會增加讀者的認(rèn)知負(fù)荷,。問題在于：一是過于簡單化(Crossley et al. 2017)；二是在特定領(lǐng)域中,，一些復(fù)雜的單詞并不一定會造成負(fù)擔(dān),，例如財務(wù)報表中的“company” “industry”等單詞的音節(jié)大于平均音節(jié)而具有高度易讀性(這和2.1.1 簡單轉(zhuǎn)換是一樣的問題)。

l 寫作錯誤(例如被動語態(tài),、重復(fù))的存在(Bonsall et al. 2017),。

Bonsall et al. (2017)提出了BOG指數(shù)，綜合考慮了文檔中的平均句子長度,、單詞復(fù)雜性(例如,，重詞、縮寫和專業(yè)術(shù)語),、單詞熟悉度和寫作錯誤等,。作者證明，BOG優(yōu)于常用的衡量方法,。然而,，如果需要使用在研究中使用BOG，需要有商用的Microsoft Word插件,。

3.2.2 機器學(xué)習(xí)方法

一些研究使用監(jiān)督機器學(xué)習(xí)來解決傳統(tǒng)方法的缺點,。研究人員使用帶有可讀性分?jǐn)?shù)標(biāo)記的訓(xùn)練數(shù)據(jù)來訓(xùn)練模型，然后用訓(xùn)練的模型來分析文本,。

例如,，Petersen and Ostendorf (2009), Vajjala and Meurers (2012)以及Madrazo Azpiazu and Pera (2020) 使用傳統(tǒng)的機器學(xué)習(xí)模型將文本轉(zhuǎn)換為一組可讀性特征的集合,，包括傳統(tǒng)特征(如FOG)、衡量語篇連貫和銜接的話語特征,、一個詞的常用程度等,。

該方法的一個主要缺點是可能無法推廣到不同的背景(例如，維基百科文本,、美國SEC文件,、財報會議)和不同的受眾(例如,，高中生與博士生,，經(jīng)驗豐富與經(jīng)驗匱乏的投資者)。Martin et al. (2021) 提出了一種基于深度學(xué)習(xí)的無監(jiān)督方法,，并證明他們這種方法生成的可讀性指標(biāo)在分析不同的語料時比傳統(tǒng)的可讀性指標(biāo)有更一致的表現(xiàn),。

3.3 披露相似度 (Disclosure Similarity)

余弦相似度是衡量披露相似度的最常見方法之一(Schütze et al. 2008)。計算余弦相似度的傳統(tǒng)方法是用詞袋法表征每個文檔,，接近1的值表示高度相似,，而接近0的值表示低相似。

基于BOW的計算方式十分直觀,，在精確匹配中表現(xiàn)出色,，例如剽竊檢測和對文檔的逐年修改(比如上市公司年報)；問題在于,，該方法將所有單詞視為相互獨立,，而不考慮單詞之間的語義關(guān)系，這樣,，當(dāng)這一方法面對兩個形式上不同但表意相同的句子時會顯得乏力,。基于BOW的計算有兩種加權(quán)方式,。一是使用原始單詞計數(shù),，即詞頻(term frequency weighting, tf)，二是使用詞頻-逆向文件頻率(term frequency–inverse document frequency, tf-idf),，它降低了在文本庫中普遍存在的單詞的權(quán)重,，從而結(jié)合了整個文本庫的信息(Salton和Buckley 1988)。有多項會計研究使用基于BOW的余弦相似性來檢驗公司披露的相似性或差異性(S. V. Brown and Tucker 2011; Peterson et al. 2015; S. V. Brown and Knechel 2016; S. V. Brown et al. 2018),。

將余弦相似度與詞嵌入相結(jié)合可以捕獲語義相似度,。一些研究使用Word2Vec和Doc2Vec(擴(kuò)展的Word2Vec)作為余弦相似度模型的輸入。

基于BOW的余弦相似度方法適用于研究人員對精確比較的需求,，而詞嵌入的余弦相似度方法可以捕獲語義相似度,。要根據(jù)研究實際來進(jìn)行選擇。

3.4 前瞻性陳述 (Forward-looking Statements)

前瞻性陳述是強制性披露的一部分,，屬美國證券交易委員會(SEC)的規(guī)定,，和中國資本市場的規(guī)定有異同,。

研究人員常常需要根據(jù)句子在時間維度上的指向(過去、現(xiàn)在,、未來)對句子進(jìn)行分類,。

3.4.1 字典法

既然是分類，用標(biāo)志詞來進(jìn)行分類是最自然不過的想法,，字典法于是再次派上用場,。和前面[3.1.1節(jié)](#3.1.1字典法_(Dictionary)的做法相似，研究人員也通過先前構(gòu)建一個包含未來指向的詞語的字典,，對文本進(jìn)行分析,。

這種方式仍然是簡單而有局限性的——尤其是在準(zhǔn)確性上有很大犧牲。這種方式會導(dǎo)致很高的I類錯誤概率(S. V. Brown et al. 2021),，也就是假陽性,，把本不屬前瞻性陳述的句子標(biāo)記為前瞻性陳述。

3.4.2 機器學(xué)習(xí)方法

前瞻性陳述分類可以通過各種監(jiān)督機器學(xué)習(xí)模型來完成,。S. V. Brown et al. (2021) 通過提供人工注釋的訓(xùn)練數(shù)據(jù)來微調(diào)預(yù)訓(xùn)練的CNN模型,，其算法在88.2%的時間里正確地識別出一個句子是否是前瞻性的，而使用Bozanic et al. (2018) 的最佳可用詞典的字典方法的準(zhǔn)確率為73.4%,。

3.5 主題探索

對于關(guān)注某個話題的文本而言,，一些詞語會在文本中頻繁出現(xiàn)，例如,，“廣告”這一主題的文本會頻繁使用“顧客”“滿意度”“市場營銷”等詞匯,。主題發(fā)現(xiàn)是將單詞分組到主題中來總結(jié)文檔。

最常見的主題模型是LDA,，它最初用于BOW文本表示方法下的單個單詞計數(shù),。Campbell et al. (2014) 首次在會計中使用LDA，以衡量公司風(fēng)險披露的數(shù)量,。A. Huang et al. (2018),、Dyer et al. (2017)、N. C. Brown et al. (2020)均使用了LDA進(jìn)行研究探索,。6.2節(jié)會進(jìn)一步介紹這一方面的最新進(jìn)展,。

四、構(gòu)建基于文本的測量的效度

會計研究人員通常使用文本分析來創(chuàng)建一個度量,，將不能直接觀察到的概念或特征可操作化,。于是，說明文本分析所創(chuàng)造的度量的效度就至關(guān)重要,。

4.1 由字典法構(gòu)建的度量的效度

大多數(shù)情況下,，研究人員必須建立自己的詞典，或者根據(jù)自己的情況修改詞典。在這種情況下,，研究人員應(yīng)該首先驗證他們所使用詞典的有效性,。最好的情況是已經(jīng)有現(xiàn)有詞典可供使用，而不必自己建立詞典,。

Carrizosa and Ryan (2017) 在其研究中需要使用單詞和上下文來識別貸款合同是否包含一種特定契約,。他們在建立詞典和識別后，將識別結(jié)果與另一個隨機選擇子樣本的人工識別結(jié)果進(jìn)行比較,，并調(diào)整字典,，直到達(dá)到所需的準(zhǔn)確性。這種做法值得借鑒,。文章建議研究人員通過其他人來檢查其測量的內(nèi)容有效性,。這里的“其他人”可以是研究助理，也可以是實驗的對象,。比如,，Bonsall et al. (2017) 通過MTurk員工對致股東的信件的可讀性進(jìn)行評級，Muslu et al. (2015) 要求MBA學(xué)生在50個隨機選擇的MD&A披露中識別前瞻性句子,。

4.2 由監(jiān)督機器學(xué)習(xí)方法構(gòu)建的度量的效度

監(jiān)督式機器學(xué)習(xí)有一個內(nèi)置的驗證機制。帶注釋的訓(xùn)練數(shù)據(jù)集通常分為訓(xùn)練,、驗證和測試樣本,。

l 訓(xùn)練樣本(training sample)用于擬合模型并確定代表數(shù)據(jù)關(guān)系的權(quán)重。

l 驗證樣本(validation sample)是用于評估擬合模型預(yù)測樣本外觀測值的能力的保留樣本,。

l 測試樣本(testing sample)是在所有訓(xùn)練完成后評估模型性能的另一個保留樣本,。

研究人員調(diào)整模型的超參數(shù)，迭代使用訓(xùn)練樣本和驗證樣本,，直到模型達(dá)到預(yù)期表現(xiàn),，此時模型為最終模型。然后進(jìn)一步對測試樣本中的未見數(shù)據(jù)使用最終模型,，并將其測量結(jié)果與通過人工判斷形成的結(jié)果進(jìn)行比較,，據(jù)此評估內(nèi)容效度。

有幾個表現(xiàn)指標(biāo)可用于量化這一比較,。首先是一般的訓(xùn)練-驗證-測試(train-valid-test validation),。

l 召回率(recall)是樣本中被正確識別的陽性項目的百分比(例如，在文檔中所有前瞻性句子中,，有多少被模型識別為這樣的),。它等于1?Type II error,。

l F-Score是精準(zhǔn)率和召回率的加權(quán)平均。許多研究使用F1-Score,，這是精準(zhǔn)率和召回率的調(diào)和平均(harmonic mean),，越接近1，則模型在兩方面的綜合表現(xiàn)越好,。

l 準(zhǔn)確率(accuracy)是正確分類的樣本數(shù)(真陽性,、真陰性)在總樣本中的比重。上面三個指標(biāo)都忽視了真陰性的存在,，準(zhǔn)確率彌補了這一缺失,。在情感分析中，準(zhǔn)確率是最常用的指標(biāo)(Heitmann et al. 2020),。需要注意的是,，準(zhǔn)確率考慮了真陰性，但對所有觀察結(jié)果賦相同權(quán)重,。如果研究人員對真陽性感興趣,，但樣本主要由“陰性樣本”組成，那么準(zhǔn)確率可能不合適,。

在訓(xùn)練-驗證-測試之外,，K折交叉驗證(K-fold cross validation)也通常用于傳統(tǒng)的機器學(xué)習(xí)。交叉驗證是把樣本數(shù)據(jù)進(jìn)行不同的切分,，形成不同的訓(xùn)練集和測試集,。在K折交叉驗證中，訓(xùn)練數(shù)據(jù)被隨機分成K等份,，然后進(jìn)行K次實驗,，每次保留一部分用于樣本外測試，剩余的K?1部分用于訓(xùn)練,，最終評估結(jié)果是K次實驗的平均值,。這種方法對于小樣本特別有用，因為所有的訓(xùn)練觀察值都參與模型學(xué)習(xí),，且可以顯示模型是否對訓(xùn)練樣本的隨機性敏感,。

需要注意的是，監(jiān)督式機器學(xué)習(xí)依賴于樣本標(biāo)注,，所以標(biāo)注的質(zhì)量對于所產(chǎn)生的度量的內(nèi)容有效性非常重要,。否則，垃圾輸入將導(dǎo)致垃圾輸出(Geiger et al. 2021),。對樣本進(jìn)行標(biāo)記的人可以是研究人員自己,，可以是研究助理，也可以是其他人(例如通過在線平臺等方式招募第三方注釋者)。文章建議至少使用兩名人工標(biāo)注員,，以便評估注釋的一致性,。一條經(jīng)驗法則是，對于二元分類,，兩個標(biāo)注員之間的一致性要達(dá)到80%,。標(biāo)注員的判斷分歧可以讓研究人員理解算法難以區(qū)分的情況，畢竟,，如果某個樣本對人類而言判斷困難,，那么對機器來說可能也很困難。這樣,，研究人員可以調(diào)整模型訓(xùn)練目標(biāo)或針對這種挑戰(zhàn)性案例提供更多的訓(xùn)練觀察,。

人工標(biāo)注樣本可能很昂貴；同時,，人工標(biāo)注樣本雖然精確,、詳細(xì)，適合研究人員的設(shè)置,，但比較主觀的,，其他人很難復(fù)制，可能導(dǎo)致樣本小,，從而導(dǎo)致訓(xùn)練無效(Frankel et al. 2021),。“間接注釋”的方法可能很有效,，同時也可能會帶來文本信息以外的其他信息，使內(nèi)容更加豐富,。例如,，一些研究使用從金融數(shù)據(jù)中收集的變量來標(biāo)記訓(xùn)練數(shù)據(jù)中的輸出變量(Siano and Wysocki 2021; Frankel et al. 2021)。

4.3 由無監(jiān)督機器學(xué)習(xí)方法構(gòu)建的度量的效度

無監(jiān)督機器學(xué)習(xí)通常用于發(fā)現(xiàn)未標(biāo)記數(shù)據(jù)中的隱藏模式,，輸出的是數(shù)據(jù)分組或聚類,，而非單一度量。效度代表著這些分組,、聚類是否代表了研究者感興趣的概念,。由于無監(jiān)督機器學(xué)習(xí)的輸出是多維而非單一的，因此建構(gòu)效度更具挑戰(zhàn)性,。

研究人員可以采用三步走的方式來建立效度：

l 表面效度(face validity),。研究人員可以檢查與聚類相關(guān)的最常見的單詞或短語，并檢查它們是否具有語義一致性,。

l 聚合效度(convergent validity),。研究人員可以選擇某些聚類，并檢查它們是否在包含預(yù)計會影響這些聚類的重要經(jīng)濟(jì)事件的時期發(fā)生變化，或者將聚類與捕獲類似結(jié)構(gòu)的變量關(guān)聯(lián)起來,。

l 區(qū)分效度(discriminant validity),。研究人員可以要求其他人員進(jìn)行“單詞入侵”(“word intrusion”)檢查。也就是說,，為檢查人員提供每個聚類的單詞列表(一個單詞在給定聚類中的概率很低,，但在不同聚類中的概率很高，而其余單詞在給定聚類中的概率很高),，并要求他們識別低概率出現(xiàn)的單詞,。

研究人員還可以要求其他人員在一小部分隨機選擇的文檔中識別聚類，然后將結(jié)果與無監(jiān)督學(xué)習(xí)的輸出進(jìn)行比較,。這種方式需要大量人力,。

五、指引：如何在研究中使用文本分析方法

本節(jié)討論文本數(shù)據(jù)采集和預(yù)處理,，模型選擇,，以及實現(xiàn)機器學(xué)習(xí)方法的關(guān)鍵步驟。原文5.4節(jié)及附錄部分推薦了編碼和數(shù)據(jù)資源,。

5.1 文本數(shù)據(jù)的獲取和預(yù)處理

文本數(shù)據(jù)的獲取研究人員通常要根據(jù)特定的網(wǎng)站和數(shù)據(jù)格式自己編寫網(wǎng)絡(luò)抓取代碼,，同時應(yīng)確保原始數(shù)據(jù)的獲取符合相關(guān)法律和限制。文本文檔的格式多種多樣,，包括純文本,、HTML和PDF等；文檔的標(biāo)記,、特殊符號,、圖像、表格可能都需要作為文本內(nèi)容,。

預(yù)處理這可能比正式進(jìn)行文本分析花費更多的時間,。文本預(yù)處理過程常常包括：

l 刪除HTML標(biāo)記和非文本字符；

l 將文本轉(zhuǎn)換為更小的文本單元(例如,，單個單詞,、單詞組合或句子)；

l 刪除最小長度標(biāo)準(zhǔn)以下的文檔,；

l 檢查拼寫錯誤,；

l 確保特殊符號(例如撇號和連字符)正確編碼；

l 如果分析需要以單個單詞為單位,，則需要刪除停頓詞(例如,，“a” “the”和“in”)以免單詞量過大，同時進(jìn)行詞干提取(stem)和詞形還原(lemmatize) (例如“increases”→“increase”,、“agreement”→“agree”),。

要注意的是,，上面進(jìn)行刪除和變換操作有時反而會起到副作用，比如,，如果研究人員對確定所用的時態(tài)或捕捉寫作風(fēng)格感興趣,，那么保留原始文本結(jié)構(gòu)就很重要；有時這種處理是沒必要的,，例如使用詞嵌入作為NLP輸入,、使用tf-idf加權(quán)、使用深度學(xué)習(xí)模型(如BERT,，其可以處理子詞(subword)),。

5.2 選擇合適的模型

選擇模型需要考慮五個因素：

(1) 功能性(functionality)。模型是否能夠?qū)崿F(xiàn)預(yù)期要求,。例如,，如果需要考察披露信息中單詞的精確相似度，那么BOW余弦相似度模型是最好的,，機器學(xué)習(xí)模型就不適用了,。

(2) 簡單性(simplicity)。如果多個模型都能達(dá)到目的,，則首選最簡單的模型,。只有當(dāng)能實現(xiàn)更大收獲時，才應(yīng)該選擇更復(fù)雜的模型,。

(3) 研究人員對技術(shù)的熟悉程度(familiarity),。研究人員可能已經(jīng)熟悉了各種傳統(tǒng)的機器學(xué)習(xí)方法，在已經(jīng)熟悉的情況下,，針對研究實際進(jìn)行改進(jìn)和跟進(jìn)最新進(jìn)展耗費精力較小,，相對也更容易開展工作。

對不熟悉傳統(tǒng)機器學(xué)習(xí)模型的研究人員來說,，深度學(xué)習(xí)是一個很好的起點,，原因在于(i)它是圍繞同一中心模型結(jié)構(gòu)(ANN)的一組變化，因此更容易作為一個整體掌握,，而傳統(tǒng)的機器學(xué)習(xí)是許多不同的模型結(jié)構(gòu)；(ii)深度學(xué)習(xí)通常比傳統(tǒng)的機器學(xué)習(xí)在文本數(shù)據(jù)上表現(xiàn)得更好,；(iii)由于模型結(jié)構(gòu)有利于遷移學(xué)習(xí),，所有深度學(xué)習(xí)方法都存在預(yù)訓(xùn)練模型，這極大便利了研究人員,。

(4) 模型的表現(xiàn)(model performance),。

(5) 計算成本(computing costs)。與傳統(tǒng)的機器學(xué)習(xí)模型相比,，訓(xùn)練深度學(xué)習(xí)模型需要更多的計算能力,。不過,，一般的會計研究人員要在預(yù)訓(xùn)練的深度學(xué)習(xí)模型和從頭開始訓(xùn)練的傳統(tǒng)機器學(xué)習(xí)模型之間做出選擇，畢竟兩者都需要很大的計算成本,。

5.3 監(jiān)督機器學(xué)習(xí)的實施

研究人員必須在剛開始時就決定是使用監(jiān)督學(xué)習(xí)還是非監(jiān)督學(xué)習(xí),，以及感興趣的輸出變量是連續(xù)的還是分類的。

5.3.1 對樣本的標(biāo)注

有兩種主要的離散注釋類型：分類(classification)和命名實體識別(named entity recognition, NER),。分類在技術(shù)上更加容易實現(xiàn),，雖然人工進(jìn)行分類并沒有那么容易。命名實體是文檔中的一個或多個單詞,，它們代表了現(xiàn)實世界中的實體(例如人,、地理位置或組織)；機器根據(jù)人的標(biāo)注來識別出這些實體,，并且嘗試總結(jié)學(xué)習(xí)過程,，以發(fā)現(xiàn)后續(xù)其他的命名實體。

對樣本的標(biāo)注可以由其他人來完成,，但研究人員了解熟悉標(biāo)注的情況是大有裨益的,。

5.3.2 訓(xùn)練數(shù)據(jù)大小和樣本分割

由于人工標(biāo)注數(shù)據(jù)的成本很高，監(jiān)督學(xué)習(xí)模型的一個關(guān)鍵是確定標(biāo)注數(shù)據(jù)的最優(yōu)數(shù)量,。如果標(biāo)注太多,，所需成本高昂；如果標(biāo)注數(shù)據(jù)太少,，則實證結(jié)果的效力有限,。簡單的任務(wù)需要的訓(xùn)練樣本量小(比如通過正則表達(dá)式進(jìn)行關(guān)鍵詞檢索，可能只需要幾百個樣本就夠了),，而復(fù)雜的任務(wù)所需要的訓(xùn)練樣本量大(比如情感分析可能需要幾千個實例來調(diào)試模型),。如果一個模型所需要的訓(xùn)練樣本量多于5000個，那可能是因為任務(wù)太過復(fù)雜,，需要簡化,，畢竟如果一個任務(wù)對人而言是有挑戰(zhàn)性的,，那對于機器而言也是有挑戰(zhàn)性的(機器只不過是做了編碼工作，代替了人類的輸入輸出過程而已)。

在為標(biāo)注準(zhǔn)備樣本時,，一個重要的因素是對于每一種類都有足夠的樣本量支撐(比如要進(jìn)行情感分析，那么情感正面,、負(fù)面,、中性的樣本都要有)。對于非平衡的數(shù)據(jù)要進(jìn)行分層抽樣,，每層都要能夠充分代表一個種類,。

可以先從標(biāo)注一小部分?jǐn)?shù)據(jù)開始，找到一點感覺,；下一步可以對每一層標(biāo)注一小部分樣本,。將這兩步標(biāo)注的數(shù)據(jù)集中起來訓(xùn)練模型,，然后評估模型的效度。繼續(xù)標(biāo)注,、訓(xùn)練,、評估，直到模型表現(xiàn)令人滿意為止,。

訓(xùn)練數(shù)據(jù)分為訓(xùn)練樣本,、驗證樣本和測試樣本(見[4.2節(jié)])，占比一般為2:1:1,，但這種比例下驗證和測試樣本可能過大,，特別是在樣本量大的情況下(Aggarwal 2018, 222)。樣本量小的情況下,，可能直接省去測試樣本,。此外，一些研究人員最后還會使用所有樣本來對模型進(jìn)行一次訓(xùn)練,，以最大化使用數(shù)據(jù),，而另一些研究人員則傾向于僅使用訓(xùn)練樣本來調(diào)試模型。

六,、未來的機遇

6.1 深度學(xué)習(xí)激發(fā)新的研究可能

深度學(xué)習(xí)提供了無限可能,。一方面，無監(jiān)督深度學(xué)習(xí)可能會學(xué)習(xí)到研究人員從未見過或者想到過的模式,，發(fā)現(xiàn)研究人員從未了解過的概念,，突破研究人員的局限；另一方面,，監(jiān)督式深度學(xué)習(xí)可以采用相對較小的手工標(biāo)注樣本,，學(xué)習(xí)復(fù)制人類做事的方式，并將其擴(kuò)展到更大的文本樣本,，省時省力,。

l 研究人員常常使用企業(yè)的運營分部(operating segment)和地區(qū)分部(geographic segment)來表示業(yè)務(wù)復(fù)雜性和地區(qū)復(fù)雜性，但不是所有公司都以相同的方式和“顆粒度”報告它們的分部,。文本分析可以提供另一種量化公司業(yè)務(wù)或地區(qū)多樣性的方法,，比如使用NER技術(shù)識別，并進(jìn)一步標(biāo)記為細(xì)分類型(如將位置進(jìn)一步標(biāo)記為配送中心,、衛(wèi)星辦公室,、商店、競爭對手位置等),。

l 統(tǒng)計監(jiān)管文件中與“競爭”相關(guān)的單詞經(jīng)常被用作感知競爭水平的代理變量(F. Li et al. 2013)。使用NER等技術(shù)對所研究公司提到的同行業(yè)公司進(jìn)行分析,，可以獲得更精確的結(jié)果,，并可以進(jìn)一步標(biāo)記為細(xì)分類型(該競爭屬于勞動力,、產(chǎn)品、供應(yīng)商市場的競爭還是其他),。同樣地,，對于企業(yè)正遭受的風(fēng)險，也可以標(biāo)記為細(xì)分類型,。

l 深度學(xué)習(xí)還可以幫助提取數(shù)據(jù),。例如使用XBRL數(shù)據(jù)訓(xùn)練模型，從公司的披露信息中提取特定信息,；在財務(wù)報告中提取風(fēng)險因素,、從管理層討論與分析(MD&A)中提取關(guān)于流動性相關(guān)的因素。

6.2 公司信息披露的主題分析

強制性和自愿性公司信息披露在會計研究中一直備受關(guān)注,，披露的主題分析能夠提供新的觀點,。目前，LDA是最流行的主題分析模型,，但有三個缺點：(1) 使用BOW作為輸入,，導(dǎo)致詞匯量大，計算成本高,；(2)模型產(chǎn)生的主題通常無法對研究有幫助,，并且由于模型是無監(jiān)督的，因此不能保證發(fā)現(xiàn)特定的主題,。(3) LDA產(chǎn)生的主題可能難以被解釋或應(yīng)用于標(biāo)注,。

為了克服(1)的問題，Dieng et al. (2020)開發(fā)了嵌入式主題模型(ETM),，使用詞嵌入作為LDA的輸入,。詞嵌入(如Word2Vec；也可以用Doc2Vec和Topic2Vec)不僅降低了高維問題,，而且還表示了詞的語義,。結(jié)構(gòu)主題模型允許包含作為一種“固定效應(yīng)”的協(xié)變量，以便主題可以與非文本信息關(guān)聯(lián)起來(Roberts et al. 2013),。

對于(2)(3)的問題,，可以預(yù)先分組成感興趣主題的單詞來對初始主題進(jìn)行引導(dǎo) (Jagarlamudi et al. 2012)，但這樣仍然不能保證預(yù)先分組的感興趣的主題能夠保留在最終模型中,。此外,，研究者還可以約束主題模型，只發(fā)現(xiàn)與研究者提供的標(biāo)簽集相對應(yīng)的主題,，這種方法被稱為標(biāo)簽LDA(Labeled LDA; Ramage et al. 2009),。如果主題發(fā)現(xiàn)的目標(biāo)是預(yù)測結(jié)果變量，那么可以應(yīng)用監(jiān)督LDA(supervised LDA, sLDA; Blei and McAuliffe 2007),，在這個模型中,，每個主題的權(quán)重由機器根據(jù)訓(xùn)練數(shù)據(jù)確定,。也有研究將LDA與信息論中的KL散度(Kullback-Leibler (KL) divergence)結(jié)合在一起來標(biāo)記主題(Lowry et al. 2020)。

七,、結(jié)語

文章在一個統(tǒng)一的框架內(nèi)討論了可用的NLP方法,，并討論了這些技術(shù)在會計研究中的可能應(yīng)用場景。

文本分析在會計研究應(yīng)用的比例正在持續(xù)增長,。在研究時,，要花時間去了解這些前沿技術(shù)以及它們可以實現(xiàn)的功能，跟上研究最新進(jìn)展,。前沿的NLP方法(如深度學(xué)習(xí)和主題建模)可能會推動會計研究的前沿發(fā)展,。

通過分析文本數(shù)據(jù)，可以識別披露中的情緒,、語氣,、前瞻性信息等，從而更全面地評估企業(yè)的風(fēng)險和機遇,。深度學(xué)習(xí)等新技術(shù)可以幫助研究者分析文本數(shù)據(jù)中的復(fù)雜語義關(guān)系,，例如識別披露主題，從而回答之前無法回答的問題,。機器學(xué)習(xí)等模型可以自動處理大量文本數(shù)據(jù),，如果能夠很好地調(diào)試模型，模型將能夠節(jié)省研究者大量的人力成本和時間,，而且可能取得更加精確,、有用的結(jié)果。

應(yīng)用文本分析技術(shù)需要在文本輸入,、模型調(diào)試等方面細(xì)致認(rèn)真,。在文本方面，要確保文本數(shù)據(jù)的準(zhǔn)確性和一致性,，并進(jìn)行必要的預(yù)處理,；在模型方面，要根據(jù)研究目標(biāo)和數(shù)據(jù)特點選擇合適的文本分析模型,，并且要建立效度,，對輸出結(jié)果做合理解釋。

一般而言,，文本分析是用來構(gòu)建新的代理變量而非直接用于假設(shè)驗證,，所以一般不會有“黑箱”問題；文本分析與計量經(jīng)濟(jì)學(xué)方法結(jié)合起來時,，能夠提供較強的置信度,。另外需要注意，對于我們自身的研究而言，在初次接觸,、應(yīng)用文本分析的時候,，復(fù)雜技術(shù)可能占用我們過多的注意力。我們?nèi)匀粦?yīng)該專注研究問題,，而非沉迷于技術(shù)本身，除非是做方法論研究,。

關(guān)于機器學(xué)習(xí),，參看：1.機器學(xué)習(xí)之KNN分類算法介紹: Stata和R同步實現(xiàn)（附數(shù)據(jù)和代碼），2.機器學(xué)習(xí)對經(jīng)濟(jì)學(xué)研究的影響研究進(jìn)展綜述,，3.回顧與展望經(jīng)濟(jì)學(xué)研究中的機器學(xué)習(xí),，4.最新: 運用機器學(xué)習(xí)和合成控制法研究武漢封城對空氣污染和健康的影響! 5.Top, 機器學(xué)習(xí)是一種應(yīng)用的計量經(jīng)濟(jì)學(xué)方法, 不懂將來面臨淘汰危險！6.Top前沿: 農(nóng)業(yè)和應(yīng)用經(jīng)濟(jì)學(xué)中的機器學(xué)習(xí), 其與計量經(jīng)濟(jì)學(xué)的比較, 不讀不懂你就out了,！7.前沿: 機器學(xué)習(xí)在金融和能源經(jīng)濟(jì)領(lǐng)域的應(yīng)用分類總結(jié),，8.機器學(xué)習(xí)方法出現(xiàn)在AER, JPE, QJE等頂刊上了！9.機器學(xué)習(xí)第一書, 數(shù)據(jù)挖掘, 推理和預(yù)測,，10.從線性回歸到機器學(xué)習(xí), 一張圖幫你文獻(xiàn)綜述,，11.11種與機器學(xué)習(xí)相關(guān)的多元變量分析方法匯總，12.機器學(xué)習(xí)和大數(shù)據(jù)計量經(jīng)濟(jì)學(xué), 你必須閱讀一下這篇,，13.機器學(xué)習(xí)與Econometrics的書籍推薦, 值得擁有的經(jīng)典,，14.機器學(xué)習(xí)在微觀計量的應(yīng)用最新趨勢: 大數(shù)據(jù)和因果推斷，15.R語言函數(shù)最全總結(jié), 機器學(xué)習(xí)從這里出發(fā),，16.機器學(xué)習(xí)在微觀計量的應(yīng)用最新趨勢: 回歸模型,，17.機器學(xué)習(xí)對計量經(jīng)濟(jì)學(xué)的影響, AEA年會獨家報道，18.回歸,、分類與聚類：三大方向剖解機器學(xué)習(xí)算法的優(yōu)缺點（附Python和R實現(xiàn)）,，19.關(guān)于機器學(xué)習(xí)的領(lǐng)悟與反思，
20.機器學(xué)習(xí),，可異于數(shù)理統(tǒng)計,，21.前沿: 比特幣, 多少罪惡假汝之手? 機器學(xué)習(xí)測算加密貨幣資助的非法活動金額! 22.利用機器學(xué)習(xí)進(jìn)行實證資產(chǎn)定價, 金融投資的前沿科學(xué)技術(shù)! 23.全面比較和概述運用機器學(xué)習(xí)模型進(jìn)行時間序列預(yù)測的方法優(yōu)劣！24.用合成控制法, 機器學(xué)習(xí)和面板數(shù)據(jù)模型開展政策評估的論文,！25.更精確的因果效應(yīng)識別: 基于機器學(xué)習(xí)的視角,，26.一本最新因果推斷書籍, 包括了機器學(xué)習(xí)因果推斷方法, 學(xué)習(xí)主流和前沿方法，27.如何用機器學(xué)習(xí)在中國股市賺錢呢? 頂刊文章告訴你方法,！28.機器學(xué)習(xí)和經(jīng)濟(jì)學(xué), 技術(shù)革命正在改變經(jīng)濟(jì)社會和學(xué)術(shù)研究,，29.世界計量經(jīng)濟(jì)學(xué)院士新作“大數(shù)據(jù)和機器學(xué)習(xí)對計量建模與統(tǒng)計推斷的挑戰(zhàn)與機遇”，30.機器學(xué)習(xí)已經(jīng)與政策評估方法, 例如事件研究法結(jié)合起來識別政策因果效應(yīng)了,！31.重磅! 漢森教授又修訂了風(fēng)靡世界的“計量經(jīng)濟(jì)學(xué)”教材, 為博士生們增加了DID, RDD, 機器學(xué)習(xí)等全新內(nèi)容,！32.幾張有趣的圖片, 各種類型的經(jīng)濟(jì)學(xué), 機器學(xué)習(xí), 科學(xué)論文像什么樣子？33.機器學(xué)習(xí)已經(jīng)用于微觀數(shù)據(jù)調(diào)查和構(gòu)建指標(biāo)了, 比較前沿！34.兩諾獎得主談計量經(jīng)濟(jì)學(xué)發(fā)展進(jìn)化, 機器學(xué)習(xí)的影響, 如何合作推動新想法,！35.前沿, 雙重機器學(xué)習(xí)方法DML用于因果推斷, 實現(xiàn)它的code是什么,？