主持人語 人文學(xué)術(shù)的發(fā)展需要辯論,,這樣才會有學(xué)術(shù)研究的進(jìn)步,。數(shù)字人文的方法與文學(xué)研究的結(jié)合(即“文化分析學(xué)” [1])尤其如此:一邊是技術(shù)和方法的抽象,一邊是非常復(fù)雜的語言修辭,。自我們于2016年開始這個學(xué)術(shù)專欄以來,,數(shù)字人文的發(fā)展似乎呈現(xiàn)出一年比一年熱鬧的跡象。有時候,,我們不免擔(dān)心,,這些熱鬧喧囂、各種各樣的學(xué)術(shù)會議,,到底提出和討論了多少有價值的學(xué)術(shù)問題?這些學(xué)者們的研究是否在真正地促進(jìn)人文學(xué)的發(fā)展?隨著時間之河的流淌,,有多少數(shù)字人文學(xué)術(shù)成果可以成為人類文化永恒的那一部分? 毫無疑問,伴隨著數(shù)字人文的發(fā)生發(fā)展,,有一種學(xué)術(shù)生產(chǎn)話語在悄悄地生長,、蔓延:數(shù)字化時代來臨了,新的計(jì)算研究方法誕生了,傳統(tǒng)的研究方法會被淘汰,,我們邁進(jìn)了人文學(xué)術(shù)研究的新紀(jì)元,。這是研究方法上的一種“新勝舊汰”的學(xué)術(shù)達(dá)爾文主義,它會扼殺人文學(xué)研究的精神和靈魂,。盡一切可能促進(jìn)數(shù)字人文的穩(wěn)健發(fā)展,,不得不警惕“DH泡沫”的可能性存在。正如本期作者之一斯坦福大學(xué)的馬克·阿爾吉-休伊特所說,,以計(jì)算的方法來研究文學(xué)和文化,,“不是要用數(shù)學(xué)嚴(yán)謹(jǐn)性取代學(xué)者們數(shù)百年來發(fā)展出的闡釋技巧的虛擬人文學(xué)科。它是增強(qiáng)的人文學(xué)科,,在最好的情況下,,能展現(xiàn)最仔細(xì)的細(xì)讀讀者往往也看不見的新類型的證據(jù)和仔細(xì)考慮過的理論觀點(diǎn),二者聯(lián)手產(chǎn)生新的批評研究,?!边@需要兩方面的工作:一方面是傳統(tǒng)人文學(xué)科研究和思想素養(yǎng)的訓(xùn)練,這包括一些學(xué)術(shù)史方面的知識,;另一方面,,是數(shù)字人文基本方法上的訓(xùn)練,這包括閱讀相關(guān)的領(lǐng)先學(xué)者們的文章和書籍,,以及掌握一定的關(guān)于統(tǒng)計(jì)學(xué),、自然語言處理、Python和(或者)R語言的基礎(chǔ)知識,。[2]目前,,鑒于部分國人趨新、趨快,、趨技術(shù)的心態(tài),,我們認(rèn)為需要極力避免的是沒有人文思想與學(xué)術(shù)史視野的數(shù)字人文文學(xué)研究,強(qiáng)調(diào)文學(xué)文化研究方面的學(xué)科訓(xùn)練,,強(qiáng)調(diào)所研究問題的人文本位,。 如果沒有人文學(xué)科研究的嚴(yán)謹(jǐn)訓(xùn)練,所實(shí)踐的數(shù)字人文必然是華而不實(shí)的,。這樣的數(shù)字人文對于人文學(xué)的發(fā)展絲毫沒有意義,,并且會成為人文學(xué)未來的“特洛伊木馬”,這是非常需要警惕的,。當(dāng)然,,問題的另外一個方面,是要警惕未經(jīng)理論思考的人文和思想與數(shù)字之間的對立關(guān)系,,這也常常是關(guān)于數(shù)字人文文學(xué)研究的討論容易意識形態(tài)化的一個原因,。并不存在超越歷史時期和社會進(jìn)程的人文研究,,人文學(xué)在近代大學(xué)體制里的發(fā)生發(fā)展是一個科學(xué)化、職業(yè)化的進(jìn)程,,也必然會與大學(xué)體制中的其他學(xué)科發(fā)生富有成效的學(xué)科關(guān)聯(lián),,正如本期作者之一澳大利亞國立大學(xué)的凱瑟琳·伯德所說:“文學(xué)的意義不是單一的,而是社會構(gòu)成性地鍛造而成,,在這個社會里,,特定時刻中特定范式(歷史的、哲學(xué)的,、心理學(xué)的,、社會學(xué)的,現(xiàn)在是統(tǒng)計(jì)學(xué))的突出地位塑造了我們所知的一切和理解這一切的方式,。任何情況下,,學(xué)科的純潔性都無法保護(hù)貧乏的方法論,跨學(xué)科性能增加方法論意識,?!?/p> 我們認(rèn)為,對文學(xué)文化研究領(lǐng)域的計(jì)算方法開展理論爭論的時機(jī)已經(jīng)成熟了,。這種理論上的探討可以在兩個層面上展開:或者是從長時段的人文學(xué)的脈絡(luò)中定位數(shù)字人文文學(xué)文化研究,;或者是以計(jì)算和統(tǒng)計(jì)的方法由具體的研究出發(fā),并進(jìn)而得出具有一般理論意義的分析,。為此,,我們這一期呈現(xiàn)給讀者的是一場發(fā)生在文學(xué)研究領(lǐng)域的辯論。一方是笪章難教授以計(jì)算和統(tǒng)計(jì)學(xué)的方式來批駁已有的數(shù)字人文文學(xué)研究學(xué)術(shù)成果,,直言這些研究從理論的預(yù)設(shè),、數(shù)據(jù)的選擇、方法的使用,,以及結(jié)論的得出等方面都充滿了謬誤,,進(jìn)而得出計(jì)算的方法并不適用于文學(xué)和文化現(xiàn)象闡釋的復(fù)雜性這樣的結(jié)論;另一方是這些研究的作者們捍衛(wèi)自己的研究,,指出批評者行文邏輯、方法預(yù)設(shè)和數(shù)據(jù)上的疏漏,,同時也認(rèn)為這次以計(jì)算方法為基礎(chǔ)的關(guān)于數(shù)字人文文學(xué)研究的辯論實(shí)際上能推動數(shù)字人文學(xué)術(shù)研究的進(jìn)展,。 除此之外,我們還附錄了有關(guān)數(shù)字人文文學(xué)研究的兩本最新的學(xué)術(shù)專著的書評,。這兩本學(xué)術(shù)專著分別出版于2018年和2019年,,兩位作者——安德魯·派博和泰德·安德伍德——是數(shù)字人文文學(xué)研究領(lǐng)域最前沿也是最資深的學(xué)者,兩位書評作者則是數(shù)字人文文學(xué)研究領(lǐng)域的青年學(xué)者,。這樣做也是為了表示我們的態(tài)度:審慎樂觀地努力推動健康的數(shù)字人文文學(xué)研究! 我們很高興地看到,,多位“數(shù)字人文:觀其大較”專欄的作者參加了這次討論,。同時,我們也希望這期專欄在國內(nèi)學(xué)術(shù)界能推動更多有關(guān)數(shù)字人文本土化,、數(shù)字人文文學(xué)研究基礎(chǔ)理論建設(shè),、文學(xué)文化闡釋歷史和方法、人文學(xué)的歷史與未來等方面的討論,,能在新的社會環(huán)境下推動人文學(xué)的發(fā)展,。 以計(jì)算的方法 反對計(jì)算文學(xué)研究[3] [美] 笪章難 撰 汪 蘅 譯 [ 摘要 ] 本文以基本統(tǒng)計(jì)原則從實(shí)證層面討論計(jì)算文學(xué)研究中的14篇學(xué)術(shù)作品,討論其中所涉及的數(shù)據(jù)的性質(zhì)以及導(dǎo)致研究結(jié)果的統(tǒng)計(jì)工具,,指出這其中一系列的技術(shù)問題,、邏輯謬誤和概念缺陷。文章將所選擇的計(jì)算文學(xué)研究分為兩種類型:一種是統(tǒng)計(jì)方法嚴(yán)謹(jǐn),,然而并沒有提出和解決有意義的學(xué)術(shù)問題,;一種是看似解決了有意義的學(xué)術(shù)問題,然而或者統(tǒng)計(jì)方法并不嚴(yán)謹(jǐn),,或者并沒有必要使用統(tǒng)計(jì)學(xué)和其他機(jī)器學(xué)習(xí)工具,。本文通過探討這些文章所使用的數(shù)據(jù)以及所使用的計(jì)算方法,試圖去神秘化計(jì)算工具在文學(xué)語料庫上的應(yīng)用,,重提文學(xué)語言修辭和闡釋的復(fù)雜性,,得出的結(jié)論是:計(jì)算文學(xué)批評的方法論和理論前提并不適用于分析文學(xué)、文學(xué)史和語言學(xué)的復(fù)雜性,。 [ 關(guān)鍵詞 ] 計(jì)算文學(xué)研究,;數(shù)字人文;數(shù)據(jù),;文學(xué)闡釋,;自然語言處理;詞頻 本文意在從實(shí)證層面找出一個日益流行的文學(xué)研究分支的一系列技術(shù)問題,、邏輯謬誤和概念缺陷,該分支有各種名稱:文化分析學(xué),、文學(xué)數(shù)據(jù)挖掘,、定量形式主義、文學(xué)文本挖掘,、計(jì)算文本分析,、計(jì)算批評、算法文學(xué)研究,、文學(xué)研究的社會計(jì)算,、計(jì)算文學(xué)研究(computational literary studies(縮略為CLS——譯者注), 我在文中使用“計(jì)算文學(xué)研究”這個說法。簡單說從現(xiàn)狀看,,計(jì)算文學(xué)分析的問題在于有力的方面很明顯(實(shí)證意義上),、不明顯的方面并不有力,,考慮到文學(xué)數(shù)據(jù)的本質(zhì)和統(tǒng)計(jì)調(diào)查的性質(zhì),這一情況不易克服,。在統(tǒng)計(jì)工具和工具應(yīng)用的對象之間存在根本性搭配失當(dāng),。 數(shù)字人文這個研究領(lǐng)域包含諸多多樣化主題:媒體史和早期計(jì)算實(shí)踐史,為開放獲取而做的文本數(shù)字化,、數(shù)字記入和媒介,、計(jì)算語言學(xué)和詞匯學(xué)、數(shù)據(jù)挖掘技術(shù)論文,;它不是我批判的對象,。我具體針對的是在大規(guī)模(或通常不那么大的規(guī)模)語料庫上運(yùn)行電腦程序,產(chǎn)出定量結(jié)果,,再繪圖,、制表、測試,,得到統(tǒng)計(jì)顯著性并用來提出關(guān)于文學(xué)或文學(xué)史的主張,,或者設(shè)計(jì)新工具、用來研究形式,、風(fēng)格,、內(nèi)容和語境。計(jì)算文學(xué)研究(CLS)另一個恰當(dāng)定義是對文本挖掘中發(fā)現(xiàn)的模式的統(tǒng)計(jì)學(xué)表達(dá),,適用于現(xiàn)存關(guān)于文學(xué),、文學(xué)史和文本生產(chǎn)的知識,以便縮小安德魯·派博在其宣言《要有數(shù)字》里所說的“證據(jù)缺口”,。[4] CLS 聲稱文學(xué)批評家不會再僅憑少量文本就提出關(guān)于文學(xué)史完整時期的未經(jīng)證實(shí)的主張,,也不會忽略大批文學(xué)生產(chǎn)——CLS(派博說)能向我們展現(xiàn)新事物,讓我們誠實(shí),,辦法是給我們一種用實(shí)證證據(jù)支持各種主張的方法,,或者利用上述證據(jù)去挑戰(zhàn)和文學(xué)史有關(guān)的各種傳統(tǒng)智慧(比如關(guān)于風(fēng)格、體裁,、歷史分期等等的主張),。 文學(xué)學(xué)者不太有辦法查驗(yàn)CLS的工作,有時是因?yàn)楂@取有問題,。還有些學(xué)科環(huán)境使得對CLS 的批判難以增加,,例如網(wǎng)絡(luò)文學(xué)社會學(xué)的主流化,把形式和形式主義的意義在語義上簡化為可追蹤單元,,以及對于可追蹤事物形成的各種模式的研究。CLS還采取了一種研究批評性貢獻(xiàn)的方法,,以節(jié)制,、補(bǔ)充或逐步升級為特征,,將挫折重構(gòu)為一種必要性,以便調(diào)整方法論,,產(chǎn)生更多檢驗(yàn),。因此,盡管派博評論道:“迄今已經(jīng)寫出大量論戰(zhàn)文章支持或反對用數(shù)據(jù)研究文學(xué),、文化,、媒體和歷史,再提出一種基本原理看起來非常不必要了” ,,他又說,,“確定無疑的是需要更多研究——研究到底為何、為何是現(xiàn)在,,文化的計(jì)算研究是必要的,。”[5] CLS聲稱要生產(chǎn)探索性工具,,就算是錯誤的工具也是內(nèi)在有價值的,,因?yàn)樘剿骶褪莾?nèi)在有價值的。錯誤歸類變成關(guān)注對象,、誤差變成理論,、異常值變?yōu)閷徝篮驼軐W(xué)探索,而這一切都值得付出更多資金和更多出版,。這種戰(zhàn)略上的逐步升級已經(jīng)使得有些最直言不諱的評論家讓自己的論辯溫和起來,,——畢竟,誰不想顯得合理,、前瞻,、開明? 現(xiàn)在已有對CLS的評論文章——值得注意的有提摩太·布倫南的《數(shù)字人文的破產(chǎn)》,、丹尼爾·阿靈頓(Danielle Allington),、莎拉·布洛萊特和大衛(wèi)·格倫比亞的《新自由主義工具(和檔案):數(shù)字文人的政治史》,[6] 對DH的政治和哲學(xué)批判已經(jīng)對我們理解該分支領(lǐng)域的制度和意識形態(tài)基礎(chǔ)做出重要貢獻(xiàn),,但它們要么相信CLS說到做到,、確實(shí)做了它號稱要做的事,要么就忽視了CLS論點(diǎn)的武斷,。的確,,同他們的貢獻(xiàn)和真正需要的計(jì)算能力(除了大規(guī)模數(shù)字研究計(jì)劃)相比,數(shù)據(jù)挖掘文本實(shí)驗(yàn)室獲得了不成比例的制度資源,。只需要一臺筆記本電腦就能在這兒再現(xiàn)幾乎所有的工作,,單單一部智能手機(jī)就能提供計(jì)算能力,這又回到這個問題:我們?yōu)槭裁葱枰皩?shí)驗(yàn)室”,、或CLS何以斂到高得離譜的資金,。不過,,由于CLS處理文本分析的方式,它能用類似的數(shù)據(jù)挖掘方法支持非常不同的立場,,也已給出理由,,認(rèn)為自己可以提供新方式、捕捉不平等,,并“閱讀”出于獲取或?qū)徝篮蛢r值判斷的理由被正典遺留在外的語料庫,。 本文并不主張“數(shù)字是新自由主義的、不道德的,、不可避免要主張客觀性,、目標(biāo)是從文學(xué)研究中清除所有細(xì)讀、不能表現(xiàn)時間,、會導(dǎo)致‘文化權(quán)威’的遺失”,,也不認(rèn)為“數(shù)字不可避免(摧毀時間/將閱讀簡化為視覺化/排除主觀性/填補(bǔ)空白)”。[7] 也不會有任何關(guān)于“數(shù)據(jù)和數(shù)據(jù)科學(xué)霸權(quán)”或者數(shù)據(jù)本身的客觀性不穩(wěn)定性的說法,。[8] 已經(jīng)有人周到而雄辯地這么做了,。認(rèn)為人類和文學(xué)現(xiàn)象不可簡化為數(shù)字、文學(xué)批評中好的闡釋和風(fēng)格和科學(xué)一樣客觀,,這是個人信念,,不會進(jìn)入這一批評。我們能用非意識形態(tài)的推理看到,,就目前情況而言CLS幾乎沒有還什么未被其實(shí)際操作抵消掉的解釋力,。 我討論的是CLS的少數(shù)幾個論點(diǎn)(選擇的原因是其顯著的布局、有代表性,、作者愿意分享數(shù)據(jù)和腳本或至少其中一部分,。)。我選擇的每一篇論文都有文學(xué),、歷史或文化批評角度的概念缺陷,,但這里我選它們完全因其自身情況——他們的樣本(經(jīng)常是唯一來自外人的爭執(zhí)點(diǎn))、檢驗(yàn),、代碼,、和真理宣稱。我利用基本統(tǒng)計(jì)原則討論這些例證,,也會討論文本挖掘的已知使用和應(yīng)用,,以及在哪些情況中,文本定量分析和信息的簡化再配置會有用,。我解釋真正應(yīng)用的簡單方式對不住它們無邊的復(fù)雜性(多半是由于我自己的局限),,但我相信這些方式仍能捕捉這些應(yīng)用的正當(dāng)功能及局限。數(shù)字人文領(lǐng)域的批評家已經(jīng)為他們的方法提供了配套的解釋,但一般而言卻因?yàn)樗麄冏屓腴T標(biāo)準(zhǔn)顯得很低或?yàn)榱俗屖鼙娔芨?,引發(fā)更多人進(jìn)入這個分支,。我相信,用直觀而有效的方式重新介紹這些方法論,,就可以開始理解驅(qū)動它們的邏輯并更好地評價CLS的效用,識別對工具和方法的次優(yōu)使用案例,、或使用原因并非預(yù)先可見的事例,。本文并不試圖處理CLS工作中所有的錯誤和疏忽。執(zhí)行中的疏忽,,缺乏魯棒性(robustness),、精度和召回率,不夠理想的測量,,這些在數(shù)據(jù)挖掘中很常見,。因此,雖然我仔細(xì)查看了技術(shù)議題,,但對CLS的反對不會建立在技術(shù)細(xì)節(jié)上,,一個人也無法承擔(dān)這么多工作,要搜尋不完整的數(shù)據(jù)工作,,調(diào)試損壞的腳本,。對CLS實(shí)際從事的計(jì)算工作的清晰解釋足以構(gòu)成對我們其他人的刺激,讓我們理解哪些環(huán)境中這種錯誤可容許,、哪些不行,。我的批判實(shí)質(zhì)非常簡單:我研究的論文分為無結(jié)果論文——數(shù)據(jù)上毫無結(jié)果可展示的論文——和的確產(chǎn)生了結(jié)果但結(jié)果錯誤的論文。我討論的是數(shù)據(jù)的性質(zhì)以及導(dǎo)致這些結(jié)果的統(tǒng)計(jì)工具,。 CLS論文組織方式基本一樣,,以詞語計(jì)數(shù)(即一元、二元,、n元語法,,一元語法的定義是兩個空格隔開的事物)為基礎(chǔ)探尋各種模式,做出六種論斷中的一種:(1)某事物的相關(guān)性,;(2)較大主體中某事物較多或較少,;(3)某事物對其他事物的影響力大小,;(4)某事物被分類的能力,;(5)體裁是否一致或混雜;(6)某事物如何變化或不變,。后面會很清楚,,所有這六種基本是同一論證,相關(guān)性、影響力,、關(guān)聯(lián)性,、連通性、體裁一致和歷時變化,,全都由同樣的事物代表,,也就是對重疊詞匯的基礎(chǔ)測量和統(tǒng)計(jì)表現(xiàn)——這些詞是所有詞匯中的很小一部分,因?yàn)楸仨氂性S多揀選,,才有可能有任何統(tǒng)計(jì)學(xué)的可操作性,。高維數(shù)的數(shù)據(jù)集用不同形式的數(shù)量縮減解壓縮(往往通過單詞矢量化),其結(jié)果用統(tǒng)計(jì)軟件繪制成圖標(biāo),、圖形和映射圖,。最后,這個模型(一種新推導(dǎo)出的工具,,用于測量文學(xué)模式或辨別文學(xué)模式)用樣本內(nèi)或子樣本檢驗(yàn),。而論證本身往往是對數(shù)據(jù)挖掘結(jié)果的描述。最嚴(yán)格概念意義上的定量分析在這項(xiàng)工作中時常缺席,。通常也缺席的還有用統(tǒng)計(jì)工具做假設(shè)檢驗(yàn)并試著表現(xiàn)因果關(guān)系(或至少表現(xiàn)特異關(guān)聯(lián)),、以及通過基本文學(xué)理論原則對上述因果關(guān)系/關(guān)聯(lián)性加以解釋。 不論統(tǒng)計(jì)轉(zhuǎn)化多炫目,,CLS論文的論據(jù)建立在x單詞或語法出現(xiàn)的次數(shù)上,。CLS對數(shù)據(jù)的處理和視覺化不是本身意義上的闡釋和解讀。如果相信它,,那就是誤以為基礎(chǔ)數(shù)據(jù)工作就是文學(xué)闡釋本身,,而這項(xiàng)數(shù)據(jù)工作也許會、也許不會導(dǎo)向好的闡釋和任何數(shù)據(jù)工作中都必須做的闡釋性選擇(也可能根本沒有數(shù)據(jù)工作),。CLS數(shù)據(jù)工作中要決定哪些詞語或標(biāo)點(diǎn)要計(jì)數(shù),、如何表現(xiàn)這些計(jì)數(shù)。就這些,。CLS研究的連續(xù)字(一元語法)的最高數(shù)字是3(三元語法),。馬克·阿爾吉—休伊特查看了二元語法的概率(一個詞語后面跟著另一個特定詞的可能性),以計(jì)算語料庫“熵”,,這只是換一個說法表達(dá)“兩個同時出現(xiàn)的詞語”(回頭我會再講到這篇文章),。讓—巴蒂斯特·米歇爾和其他人的《用數(shù)百萬本數(shù)字書做文化定量分析》追蹤五元語法(一連串5個一元語法),但結(jié)果是為了詞典學(xué)以及追蹤大規(guī)模語法轉(zhuǎn)移,,不是為了文學(xué)史或文學(xué)批評,。羅伯托·弗朗佐西號稱用三元語法標(biāo)記找到了“敘事事件”。[9] 雖然這在領(lǐng)域內(nèi)已經(jīng)過時,,但他是我知道的唯一嘗試超越基礎(chǔ)詞頻給自然語言處理加標(biāo)記的案例,。然而,,“敘事事件”只是三元語法長度的主語+動詞+賓語次序,而對 “時間”和“空間”的解釋不過是已知的計(jì)時器和地理位置(從一個由文學(xué)角度縮減而來的編碼角度來看,,這極其困難),。[10] 盡管存在相反的說法,但CLS無法超越三個詞去研究任何像情節(jié)這種問題,。這不只是讓新生領(lǐng)域成熟的問題(文學(xué)語料庫分析已經(jīng)存在半個世紀(jì)左右),,而且與其對象太少又太復(fù)雜有關(guān)。建議像克勞德·列維—斯特勞斯(Claude Lévi-Strauss)嘗試用方程fx(a) : fy(b) ? fx(b) : f(a ? 1)(y)界定神話結(jié)構(gòu)那樣,,從早期實(shí)驗(yàn)性結(jié)構(gòu)主義來定量文學(xué),,則完全不可操作,因?yàn)檫@些模式太過困難和抽象,,無法編碼并界定太少的文本,無法讓機(jī)器學(xué)習(xí)成功地編碼哪怕少量文本中的一個此種現(xiàn)象,。[11] 因此,,CLS中出現(xiàn)的一切——網(wǎng)絡(luò)分析、數(shù)字繪圖,、線性和非線性回歸,、主題模型、拓?fù)鋵W(xué),、熵——都不過是以更炫的方式談?wù)撛~頻變化,。分析CLS的錯誤就能澄清為什么盡管20世紀(jì)70年代起就存在不同的語義學(xué)和句法學(xué)標(biāo)記方法, CLS還往往堅(jiān)持?jǐn)?shù)字?jǐn)?shù),,并在更加有限的意義上被迫通過調(diào)整終止字才找到許多顯著性,。 我研究的CLS論文分為兩類:第一類將統(tǒng)計(jì)上無結(jié)果的結(jié)果展示為一種研究結(jié)果,,第二類論文得出的結(jié)論來自錯誤的研究結(jié)果,。 我最早看的一篇文章展現(xiàn)了不是結(jié)果的結(jié)果,使用的測量方式太弱,,無法捕捉確定的差異,,這篇文章也能幫我們看到通過詞頻測量所謂同源性、重復(fù)性或自我相似性的問題所在,。泰德·安德伍德的《體裁的生命周期》試圖考察體裁是否隨時間變化,,他僅以詞語同質(zhì)性為基礎(chǔ),將偵探小說體裁做成模型,,檢驗(yàn)?zāi)P途_性靠的是看它能否以區(qū)分A(1941年前的偵探小說)和C(隨機(jī)混雜的作品)的同樣方式來區(qū)分B(1941年后的偵探小說)和C,。[12] 安德伍德將A同B相比,聲稱150年來偵探小說比文學(xué)學(xué)者宣稱的要更一致,。安德伍德想要主張,,體裁并不隨著每一代而變化,它們不只是在20世紀(jì)才鞏固——其他人、也就是弗朗哥·莫雷蒂也這么說過——而是從19世紀(jì)20年代直到如今都多少保持一致,。問題是,,他的模型對他的目標(biāo)毫無助益。安德伍德應(yīng)該在1941年前的偵探小說(A)上訓(xùn)練他的模型,,和1941年前的“亂燉”(“random stew”)相比較,,再在1941年后的偵探小說(B)上訓(xùn)練,和1941年后的“亂燉”相比較,,而不是在兩組作品上用同一批“亂燉”作品,,要這樣去排除下述可能性:A和B之間的差異不足以說明一種較大趨勢(既然所有文學(xué)都可能在1941年后發(fā)生了變化)。安德伍德用詞頻同質(zhì)性將偵探小說和隨機(jī)小說區(qū)分開,,他在這其中顯示的一切就是1941年前和1941年后偵探小說間的差異沒有偵探小說和其他隨機(jī)小說之間的差異那么大,。這不是說同樣的方法能捕捉不同偵探小說類型之間的差異。畢竟,,統(tǒng)計(jì)學(xué)自動假定95%的時間里都沒有差異,,只有5%的時間里存在差異。尋找低于0.05的P值就是這個意思,??梢赃@么想:如果每個人都同意有些事情在發(fā)生變化——甚至安德伍德也讓步說體裁有進(jìn)化——但是你設(shè)計(jì)的一種方式得到結(jié)論說并沒有,這并不一定意味著你發(fā)現(xiàn)了點(diǎn)什么,。這僅僅意味著你的測量工具可能太弱——你的方法可能太無力——無法捕捉到此種變化,。 用數(shù)據(jù)挖掘把自然發(fā)生的統(tǒng)計(jì)意義呈現(xiàn)為研究結(jié)果,這個問題在馬修·喬科斯和嘉比·基里洛夫的論文《理解19世紀(jì)小說中的性別和角色能動性》里也能看到,,該論文聲稱特定動詞和數(shù)據(jù)集里的性別代詞(他,,她)高度相關(guān)。[13](性別是CLS里受青睞的解析,,很可能是因?yàn)檫@是少數(shù)能提出清晰的二階分類的內(nèi)容——分為男性/女性,。)這些作者們用語法分析程序在其數(shù)據(jù)中找到準(zhǔn)確的代詞—動詞對,建了分類器,,為給定的動詞預(yù)測正確性別,,號稱81%準(zhǔn)確率(比純隨機(jī)水平提高了30%)。他們找到了50個和男性最相關(guān)的動詞和50個和女性最相關(guān)的動詞,,每組中有10個詞是“機(jī)器發(fā)現(xiàn)在區(qū)分男性和女性代詞時最有用的”(“UG”),。拋開依存句法分析和OCR辨識中流行的錯誤以及缺乏對否定聯(lián)系的解釋(當(dāng)一個人不做某事時),有些結(jié)果顯而易見,;有些則不是,。作者自己承認(rèn),這會構(gòu)成一種落后的性別觀念(二元的,;女人哭泣/weep,,男人拿取/take),,但我將這留給別人討論。 首先,,總是有前5個,、前10個、前50個,、前100個統(tǒng)計(jì)顯著的代詞—動詞對,。這就是找出所有代詞—動詞對、按關(guān)聯(lián)度排列,、根據(jù)個人選擇截?cái)嗯帕械囊粋€功能,。在好的統(tǒng)計(jì)工作里,要顯示自然發(fā)生的雙重差分,,負(fù)擔(dān)極高,。我們這么說,你用標(biāo)準(zhǔn)5%置信度在測量兩組數(shù)據(jù)的特征重疊,;n個可能的共同特征里,,0.05n自動就是顯著的。隨便找點(diǎn)東西做數(shù)據(jù)挖掘,,總會找到顯著關(guān)聯(lián)。他們所稱的“19世紀(jì)角色性別和動詞間存在強(qiáng)相關(guān)”是自然成立的,,因?yàn)楦鶕?jù)他們給關(guān)聯(lián)下的定義,,可以就任何世紀(jì)任何一組文學(xué)做出這一斷言(“UG”)。這篇論文沒有執(zhí)行自助法,,也就是說遵循這一體裁分類的文學(xué)史意見站不住,。但我們就算它們站得住。只用找出每個性別的前10個動詞——這個方法簡單得多——在幾乎相同的語料庫上的代詞—動詞相關(guān)的單回歸——每個動詞的男性百分比在女性百分比上回歸——就能產(chǎn)生同等結(jié)果,。使用同等的語法分析程序做善意重復(fù)得到不同的結(jié)果,。[14] 那么,這里的附加值在哪里,?實(shí)際代詞類別是女性時,,他們的樣本內(nèi)模型有22%差錯率,實(shí)際類別為男性時,,16%,。作者解釋高差錯率時說,動詞的性別化在用于女性時也許較不穩(wěn)定——但你不能將預(yù)測的漏洞變成論點(diǎn),,除非你能證明你的預(yù)測的模糊性不是因?yàn)槟愕臏y量結(jié)果不夠有力,。為了將測量結(jié)果重塑為對小說體裁性別剛性的測量、從而增加擴(kuò)展貢獻(xiàn),,喬科斯和基里洛夫又說,,他們的模型在為他們的6本成長小說,、4本銀湯匙小說和3本歷史小說做正確性別分類時有58%,、63%和67%的準(zhǔn)確率,。33本哥特小說有80%準(zhǔn)確率,;6本工業(yè)小說和2本紐蓋特小說有100%準(zhǔn)確率。這沒有統(tǒng)計(jì)上的嚴(yán)謹(jǐn),,別介意,,我們談的是一批數(shù)量很小的書籍。不管你起步時的樣本規(guī)模如何,,你總是可以把它截?cái)?,讓你能得到某方面?00%準(zhǔn)確率。在純屬偶然的情況下準(zhǔn)確率也會變動,;這不意味著存在系統(tǒng)性變化或者在性別和模型的性別預(yù)測能力之間存在真正的模式,。 由于處理數(shù)據(jù)的方式問題,CLS可以做出統(tǒng)計(jì)上不提供信息的宏觀歷史斷言,??纯催@個圖,“3000本小說網(wǎng)絡(luò)”,,描述了基于詞匯的相似性,,馬修·喬科斯說這個圖揭示了一段時間以來3000本小說的某些方面(圖1)。[15] 這個網(wǎng)絡(luò)地圖中“書籍根據(jù)其計(jì)算出來的風(fēng)格相似性和主題距離被聚攏(以及分開)”,,按喬科斯說,,這個圖“不一般”,因?yàn)樗裱甏樞颍ɑ趯懽鲿r間之上的群集),,而“年代校準(zhǔn)顯示:主題和風(fēng)格確實(shí)隨時間發(fā)生了變化,。作者采用的主題和用來搭建主題框架的高頻功能詞幾乎、但不總是受限的,?!盵16] 換句話說,喬科斯說的是:由于淺色點(diǎn)和深色點(diǎn)之間有分離,、因?yàn)樗鼈儾]有全都混作一團(tuán),、因?yàn)檫@個網(wǎng)絡(luò)視覺化自身并不顯示出版年份,他就證明了較老的作品彼此更類似,、更新的作品彼此更類似:它們反映自身的年代,。盡管有樣本差錯,這個網(wǎng)絡(luò)圖還是表現(xiàn)了數(shù)據(jù)中的很小一部分,。你從這3%里了解的事是同義重復(fù)的,。 圖1 《19世紀(jì)小說網(wǎng)絡(luò)日期渲染》,摘自馬修·喬科斯《宏觀分析:數(shù)字方法和文學(xué)史》,第 165頁,。 喬科斯計(jì)算了書籍間的相似性(歐式距離),,基于578項(xiàng)特征——500項(xiàng)是從LDA主題模型(見下文)中抽取的主題,,其余是常用詞和標(biāo)點(diǎn)。LDA主題和常用詞往往會隨時間過去而群集,,這些特征有內(nèi)置的時間關(guān)聯(lián),。如果你采用類似數(shù)據(jù)集(一百年來的文本),將絕對歐式距離(基于類似確定特征)回歸到時間上的絕對距離上,,就會看到超級顯著的正相關(guān),。[17] 這并不獨(dú)特,,也沒有洞見,;你已經(jīng)機(jī)械地保證會捕捉到一種體裁的時間趨勢——及歷來討論的內(nèi)容加上語言進(jìn)化,。 計(jì)算文學(xué)批評容易跌入錯誤的過度斷言或?qū)y(tǒng)計(jì)結(jié)果的錯誤解釋,,因?yàn)樗⒆约褐糜诩兇飧鶕?jù)詞頻的位置上做出斷言,,而不考慮位置、句法,、語境和語義,。詞頻和對其差異的測量,,不管是歷時的還是作品之間的,都被要求做大量工作,,代替截然不同的事物,。 派博的論文《小說信仰:皈依閱讀、計(jì)算建模及現(xiàn)代小說》很好地示范了這個問題,。論文用一個從歷史和解釋學(xué)來說都太過具體的論斷將詞頻差異和結(jié)構(gòu)差異等同,。《小說信仰》提出兩個論斷:第一,,奧古斯丁《懺悔錄》最后3卷和前10卷顯著不同,、而后3卷之間彼此也顯著不同。[18] 換句話說,,從第10卷就開始感覺不同,,而且越來越不同。派博將此歸因于第10卷中的皈依體驗(yàn)——他認(rèn)為這一體驗(yàn)造成了詞匯輸出的真正差異,。他說,,就是這一點(diǎn)讓《懺悔錄》和受其影響的書籍以可測量的方式對讀者產(chǎn)生影響,也讓這些書“信仰”,。第二,,派博稱英語和德語小說的結(jié)構(gòu)和奧古斯丁《懺悔錄》一樣;這個文本的后半部分和小說的前半部分非常不同,,其內(nèi)部各部分之間也越來越不同,。前半部和后半部之間詞頻(每個單詞)方面的變化量、以及后半部內(nèi)部不同數(shù)據(jù)塊之間的詞頻變化量,,都通過半部間和半部內(nèi)分值分別測量,,也就是對文本1和文本2(直至文本n)之間詞頻差異的平方和的平方根的歐式測量。派博導(dǎo)出半部內(nèi)分值和半部間分值,、捕捉這一詞頻變化,,并用多維縮放(MDS)將結(jié)果視覺化,本質(zhì)上就是將20維的關(guān)系集簡化為2個,,這樣才能視覺化(圖2),。
圖2 《奧古斯丁懺悔錄的13卷》,摘自安德魯·派博《小說信仰:皈依閱讀,、計(jì)算建模及現(xiàn)代小說》,,《新文學(xué)史》46(2015年冬季刊):第72頁。 這一研究有多處錯誤,。任何讀過《懺悔錄》的人都知道,,最后3卷不同于前10卷是因?yàn)閵W古斯丁在用了10卷寫自傳之后,轉(zhuǎn)向了對《創(chuàng)世紀(jì)》的討論,,那當(dāng)然會開始出現(xiàn)不一樣的詞匯,。這和皈依沒有任何內(nèi)在聯(lián)系,。他的半部內(nèi)和半部間分值不一定代表這種變化模式,不應(yīng)被當(dāng)作擁有此種“信仰”結(jié)構(gòu)的小說的基準(zhǔn),。[19] 更技術(shù)性的問題:派博沒有將拉丁語文本作詞干(提取將詞語轉(zhuǎn)為動詞和名詞詞根),,盡管他為英語和德語文本做了詞干提取。[20] 他將拉丁語的同源變位動詞和詞尾變化的名詞計(jì)為不同單詞,,但在英語里計(jì)為相同單詞,。一旦拉丁文本被提取詞干,距離矩陣為變量按比例恰當(dāng)縮放,,我們就得到了不同于他的分值,,他的結(jié)果不再成立。我用已提取詞干的文本再現(xiàn)了派博的圖,,恰當(dāng)?shù)乜s放過(圖3),。在我的解讀中,書的第1卷和第2卷沒有和前半部中其它部分群集,,第13卷和前半部距離也不遠(yuǎn),。 圖3 我的矯正圖。 每個數(shù)字相關(guān)聯(lián)的內(nèi)容都和圖2中那些一樣:整個文本的1/20的數(shù)據(jù)塊,。 很容易看到結(jié)構(gòu)主義論證根本上和詞頻相關(guān)的問題:其中出現(xiàn)詞頻差異的各種文本和情境都和你希望它們展現(xiàn)的內(nèi)容不匹配,。派博無法阻止文本后半部在他不需要的地方在定量上不同于前半部分。要將詞頻變化定義為變化本身(而且是通過皈依的概念滑移)既是同義反復(fù),,又有風(fēng)險,。沒有理由將此過程神秘化;隨著更多概念引入文本,,更多詞隨之而來,。例如《出埃及記》的多維縮放就顯示了這一點(diǎn)(圖4)?!冻霭<坝洝返膱D顯示的展布類似于派博在奧古斯丁《懺悔錄》中發(fā)現(xiàn)的那種,,前半部分彼此更接近,后半部分不僅比前半部分更遠(yuǎn),,數(shù)據(jù)點(diǎn)彼此相距也更遠(yuǎn),。除非派博準(zhǔn)備提出希伯來圣經(jīng)也遵循奧古斯丁的懺悔結(jié)構(gòu)(如他定義的那樣),,否則他不得不承認(rèn)這一模式不限于《懺悔錄》,。基督教的皈依敘事呈現(xiàn)此種現(xiàn)象并不說明非皈依的敘事不會呈現(xiàn)此種現(xiàn)象,。關(guān)于宗教文本的這種有效論點(diǎn)需要更多證據(jù)和評論,。同時,奧古斯丁《懺悔錄》的一個中文譯本產(chǎn)生的MDS(使用派博的方法)看來完全不像他的拉丁文《懺悔錄》的圖表(圖5),。皈依體驗(yàn)在翻譯之后是否并不繼續(xù)存在,? 圖4 《出埃及記》英文譯本的MDS,,每個數(shù)字代表本書的一個1/20數(shù)據(jù)塊。前10個數(shù)據(jù)塊群集在一起,,后10個則離得較遠(yuǎn),,彼此間也離得更遠(yuǎn),和派博的《懺悔錄》MDS一樣,。 圖5 《懺悔錄》中譯本,。每個數(shù)字代表本書的1/20的數(shù)據(jù)塊。前10個數(shù)據(jù)塊并不密集,,后10個數(shù)據(jù)塊彼此相距也不遙遠(yuǎn),。 如果可能存在一種根本性解釋,既能排除你的主張,,又讓你的模型變得沒必要,,那么,將相似和差異簡化為詞頻差異就會迫使你制造研究成果,。關(guān)于這個問題,,李友仁關(guān)于不同類型中文作品差異的研究是現(xiàn)成例子。[21] 作者聲稱,,野史和小說這兩種中文作品體裁,,并不像文學(xué)史家認(rèn)為的那樣相似。他研究了3個很小的語料庫(分別有14,、126和524個文本),,比較了其詞頻(一元語法的“字”的頻率),使用分層聚類算法(HCA)做出基于“相似分值”和PCA(主分量分析)的樹狀圖,。由于他將每本書分為許多萬字?jǐn)?shù)據(jù)塊,,再從數(shù)據(jù)塊中取出1000個最常用漢字(根據(jù)簡單的詞頻確定)[22],他的PCA上的每個點(diǎn)代表一個萬字?jǐn)?shù)據(jù)塊,、而非整本書(圖6),。在比較每萬字段落中最常見的1000個字時,該作者已做出極為相似的數(shù)據(jù)點(diǎn),,并且讓PCA看起來比實(shí)際要完善得多,。也就是說,作者已經(jīng)均質(zhì)化了數(shù)據(jù)點(diǎn),,不必要地增加了它們的數(shù)量,。如此一來,PCA上數(shù)據(jù)點(diǎn)的數(shù)量似乎提出了有力的論據(jù),,但實(shí)際上,,來自每種體裁的數(shù)據(jù)點(diǎn)彼此非常接近,這只是因?yàn)樽髡咛幚頂?shù)據(jù)的方式。更勉強(qiáng)的是維爾德勒用計(jì)算方法向我們證明,,由于對正式語言的類似使用,,中國的野史其實(shí)更接近正史。這一斷言基于明顯區(qū)分文言和白話的常見字符,,但他以和主題及情節(jié)有關(guān)的常見字符為基礎(chǔ)描述了一道正史和小說之間的橋梁,。這一關(guān)系已經(jīng)為中國古典文學(xué)讀者所知曉。明清的野史和正史壓倒性地由差不多同一批文人學(xué)者或官員撰寫,。野史的差異在于內(nèi)容而非正式語言的使用,,但小說主要以白話文(或傾向于白話文的混雜文字)寫就,包含和野史一樣的主題,。如李友仁所言,,如果說野史和小說傳統(tǒng)上被歸類到一起,那是因?yàn)槎咄紒碜缘缆犕菊f,。要挑戰(zhàn)這個分類是多余的,,因?yàn)槭紫冗@個分類標(biāo)準(zhǔn)從未混淆過。 圖6 使用全文的MDS,,沒有分為千字?jǐn)?shù)據(jù)塊,,依然使用詞頻,產(chǎn)生了類似的展布,,但數(shù)據(jù)點(diǎn)少得多,。三個野史文本位于右上角灰色部分。 霍伊特·朗和蘇真的《文學(xué)模式識別:文本細(xì)讀與機(jī)器學(xué)習(xí)之間的現(xiàn)代主義》著手測量東方對西方的形式影響,,建立了樸素貝葉斯分類器,,去找到不自認(rèn)為俳句的俳句——部分提供一個分類工具,部分追蹤那些未被明確為俳句的英語詩歌,。[23] 他們在400個俳句(譯本及改編)和1900個非俳句短詩上訓(xùn)練分類器,,再在未分類的聯(lián)合數(shù)據(jù)集上跑分類器。貝葉斯定理是廣泛應(yīng)用的定理,,隨每次新觀測更新概率分布,;這個系統(tǒng)“樸素”,因?yàn)楦鞣N特征應(yīng)彼此獨(dú)立,。你并不告訴算法借以做出分類決定的準(zhǔn)確標(biāo)準(zhǔn),;你告訴它要注意什么,它根據(jù)某些基本特征學(xué)習(xí)判斷規(guī)則,,每當(dāng)新事物出現(xiàn)就改變概率分布,,因此變得越來越聰明、越來越善于將下一事物分類,。技術(shù)上,,霍伊特·朗和蘇真運(yùn)用樸素貝葉斯(N-B)改進(jìn)分類器,將檢驗(yàn)樣本中的每首詩看作一次新觀測,。但這兩位作者沒有讓N-B自己辨別截?cái)嘁艄?jié)計(jì)數(shù),,而是將該判斷規(guī)則編為硬碼寫進(jìn)腳本(如果一首詩歌是譯本,它是否在19個音節(jié)以下,,如果是改編本,,是否在30個音節(jié)以下)。分類器借以分類俳句的唯一其他依據(jù)是個體詞語出現(xiàn)的簡單可能性分值(例如sky這個詞在非俳句中出現(xiàn)的可能性變成5.7倍),。他們最后得到一個過擬合模型,,特征學(xué)得非常快,。我在長度和意象相似的中文對聯(lián)英譯本和10世紀(jì)的《和漢朗詠集》(Wakan Rōei Shū,,日本和中國歌謠選集)的200首中文短詩和非俳句日文短詩的英譯本上(比俳句形式的整合早差不多700年)跑了他們的N-B分類器。由于其標(biāo)準(zhǔn)的原始,,他們的分類器嚴(yán)重地錯誤分類了中文詩歌和前俳句詩歌,;[24] 實(shí)際上,隨著減低閾值增加(去掉發(fā)生次數(shù)不足的特征,,防止過擬合),,精確度進(jìn)一步降低。也就是說,,如果你將俳句定義為30個音節(jié)以內(nèi),、詞匯在俳句中經(jīng)常出現(xiàn)的詩歌,你實(shí)際上就瓦解了東亞詩歌諸多類型的多樣性,、將其都?xì)w于俳句形式,。 應(yīng)該說,,統(tǒng)計(jì)檢驗(yàn)的力量來自有意義的獲得,,來自信息豐富的無效假設(shè)或者備擇假設(shè)的建立,這個假設(shè)必須可以解釋人們對事物最根本的一些洞察,。在數(shù)據(jù)中找到一個模式,,拒絕了選得很糟糕的零假設(shè),例如“多數(shù)常用詞不變”/“多數(shù)常用詞確實(shí)會變”,,這是不夠的,。檢驗(yàn)可能極為有力,但檢驗(yàn)的是個錯誤問題,。它所做到的一切就是對結(jié)果的數(shù)據(jù)挖掘,。科學(xué)和社會科學(xué)研究者非常警惕此類結(jié)果,。統(tǒng)計(jì)工具設(shè)計(jì)出來是為了特定任務(wù),、解決具體問題,;它們有特定效用,不應(yīng)只是用來給詞語計(jì)數(shù)喬裝打扮,。這么說完全不是主張文學(xué)分析必須有效用——實(shí)際上我相信的正好相反——如果我們所用工具明面的目標(biāo)是功能性而非隱喻性的,,那我們必須根據(jù)其實(shí)際功能來運(yùn)用。 給敘事文本做定量,、跑基于詞頻的算法,、從形態(tài)上將文本數(shù)據(jù)視覺化,這些做法的理由不太好轉(zhuǎn)移到本學(xué)科,。文本數(shù)據(jù)挖掘的典型應(yīng)用自帶折衷:用速度換精確,、用信息范圍換細(xì)微差別。這樣的方法對工業(yè),、行業(yè)和某些學(xué)科是有效的,,比如要高速處理大量文本數(shù)據(jù),無法(也不愿)全部閱讀,,或者要從大數(shù)據(jù)集提取相對簡單信息段,,要么是切實(shí)可行的,要么能迅速根據(jù)簡單特征標(biāo)注分類,。不論人們對用確定算法處理世間萬象懷著何等感情,,數(shù)據(jù)挖掘在倫理上是中性的。在法律取證中,,那些大部分內(nèi)容相同的法律文件(例如合同)可以機(jī)器閱讀,,在標(biāo)準(zhǔn)術(shù)語和形式重復(fù)的句法模式中尋找錯誤的措辭或用字(包括誤用的特定詞語),快速識別問題或有意誤導(dǎo)的條款,。抽取出來的信息不應(yīng)語義復(fù)雜,。投資者用文本挖掘來確定一家公司發(fā)布的新聞報道或新聞稿調(diào)子是正面或負(fù)面,以便迅速做出交易決策,。每一秒都有公司發(fā)出新聞——年報,、季報、股市收益公告等等——沒人想讀這些,;也沒人有這個時間都讀完,。簡單測量那些驅(qū)動特定可測定變化的條款,這是人們能夠且愿意從這些調(diào)查模式中收集的,;速度是最重要的考慮,,因?yàn)橄鄳?yīng)的決策通常必須在數(shù)秒內(nèi)做出,如果不是納秒的話,。我們從理論上可以單獨(dú)驗(yàn)證每個報告——文本挖掘知道人類閱讀可以捕捉更多細(xì)微差異,、例外、歧義和限定條件——但為什么要這么做,?你的電子郵件服務(wù)器使用的機(jī)器學(xué)習(xí)分類器是在之前用戶標(biāo)記為垃圾郵件的所有電郵上訓(xùn)練的,,會決定新進(jìn)文件是否垃圾郵件,。有可能沒什么正當(dāng)理由就把一封電郵放到錯誤的文件夾或標(biāo)記為重要,但分類器即刻出動,、足夠精確,,你就不會愿意自己手動來做了。 要在文學(xué)中尋找同源性,,CLS必須清除許多高維數(shù)據(jù),,并統(tǒng)計(jì)顯著變化的首要動因,。這總是會有顯著的信息損失,;問題在于這種信息損失是否重要。一個很流行的解壓縮高維數(shù)據(jù)的方法是因子化,,這是一種特別儉省地解釋數(shù)字?jǐn)?shù)據(jù)中諸多差異的方法,。以派博和李友仁用于論文中的PCA或MDS等工具為例,這些工具在CLS中廣泛用于捕捉詞法并呈現(xiàn)定量研究結(jié)果,。PCA對數(shù)據(jù)做互不相干的轉(zhuǎn)化,,減少多元數(shù)據(jù)的位面量,但首先它并不確切知道要尋找怎樣的相同和不同,。PCA會將多元數(shù)據(jù)分為主成分,,并基于其對共同矢量的荷載對數(shù)據(jù)條目間差異作定量描述。如果你有30萬個多元數(shù)據(jù)的公制分布圖(例如表現(xiàn)出某種或更多病癥的病人和他們的染色體圖),,想知道他們有何共同點(diǎn)——但不是他們可能有的每個共同點(diǎn),,只需要三四個點(diǎn),同時也并不知道那些共同點(diǎn)可能為何——PCA能用這些主成分幫你整理數(shù)據(jù),。它不會描述性地告訴你這些類別叫什么,、或者共享什么主題,但會告訴你什么樣的特征(不同的染色體圖)可能導(dǎo)致了群集(都有心臟病的病人),。在文本分析中,,這意味著一篇文章、一段文學(xué)作品或一本書和另一個之間的最大差異將是它們在少數(shù)幾個共享矢量上的荷載——即定量信息,、而非描述性信息,。你不會想要走完所有矢量,因?yàn)槟堑扔趶?fù)制全部數(shù)據(jù)集(至于在哪里停則是專業(yè)選擇),;這樣一來,,就必須顯著減少信息。從統(tǒng)計(jì)上確認(rèn)醫(yī)學(xué)疾病的共同驅(qū)動因素是一回事,,要說康德的第三批判和黑格爾的《美學(xué)》之間的差異可以通過因?yàn)樵趦扇齻€詞匯表中有重疊而導(dǎo)出的兩三個數(shù)字捕獲,,那是另一回事。有許多提取因子的不同辦法,,也有大量新技術(shù)用于奇怪的數(shù)據(jù)集,,但這些都是非理論方法,,意思是,嚴(yán)格來說你使用時不能希望它們能魔法般為你產(chǎn)生有意義的解釋,,并含有由特定領(lǐng)域界定的意義和洞見,。 想一想斯坦福文學(xué)實(shí)驗(yàn)室的這幅圖(最初由邁克爾·維特摩爾和喬納森·霍普制作),該圖提出,,也許“敘事體裁可以簡化為兩個基本變量”,,也許體裁之外的某些因素驅(qū)動了威廉·莎士比亞的喜劇、悲劇,、歷史劇和晚期戲劇間的差異(“QF”)(圖7),。[25] 但沒人說過一致的詞頻是區(qū)分莎士比亞的喜劇和悲劇、悲劇和歷史劇等等的因素——也沒人會這么說,,因?yàn)檫@種區(qū)分無法以詞頻捕捉,。換言之,只有當(dāng)詞頻確被認(rèn)為驅(qū)動了體裁差異時,,這個PCA圖才能變得有意思,。也就是說,如果第一和第二主成分能精確確定悲劇和戲劇因子,。這也同樣非常不可能,,但可能統(tǒng)計(jì)上站得住。假設(shè)研究人員將每個范疇的所有作品都轉(zhuǎn)為一個矢量,,如此則PCA里只有4個數(shù)據(jù)點(diǎn),,每種體裁一個點(diǎn)。接著他們可以去查看詞頻矢量,,看哪些詞驅(qū)動著差異,。那還真能教會我們一些東西,盡管它作為文學(xué)批評依然是簡化論的,。(其實(shí),,讓CLS用戶呈現(xiàn)其矢量是不錯的實(shí)踐——它去神秘化了該程序的很多內(nèi)容,往往能揭示其中的概念缺陷,。)《定量形式主義》的作者們確實(shí)這么試過,,產(chǎn)生了多種PCA,卻只是重復(fù)發(fā)現(xiàn)PCA無法捕捉體裁差異,。然后他們研究了DocuScope 散點(diǎn)圖,,想發(fā)現(xiàn)哪些成分荷載(單詞)最能驅(qū)動差異,結(jié)果發(fā)現(xiàn)多半是終止詞,;接著他們將此現(xiàn)象表現(xiàn)為文學(xué)評論觀點(diǎn):“你想不想寫一個所有空間都會充滿驚喜的故事,?方位詞、冠詞和動詞過去式必定接踵而至,?!保ā癚F”),。不管我們是否覺得這種推斷合乎邏輯,它并不是一種啟示,,而是一種嘗試,,想要從終止詞問題中造出一些意義。 圖7 霍普和維特摩爾的莎士比亞戲劇PCA,,以體裁分類,;見莎拉·艾莉森等人的《定量形式主義:一場試驗(yàn)》,載于《斯坦福文學(xué)實(shí)驗(yàn)室》,,手冊1,,2011年1月15日。 用文本模式挖掘搞法醫(yī)文體學(xué)的障礙在于,,就算你應(yīng)用這些簡化了噪音和數(shù)據(jù)間非線性互動的模式辨認(rèn)技術(shù),,能被捕捉到的文學(xué)風(fēng)格差異也往往是被終止詞驅(qū)動的——if(如果),、but(但是),、and(和)、the(這個,、那個),、of(屬于)。為何如此,? 馬克·阿爾吉—休伊特和派博告訴我們,,“終止詞通常語義貧乏但風(fēng)格上豐富……是迄今為止決定作者身份歸屬、將文本分為不同范疇的最佳方式,?!盵26] 實(shí)際上,風(fēng)格差異歸結(jié)為終止詞,,這毫不令人驚訝,。要確定事件的統(tǒng)計(jì)差異,意味著首先要有足夠多的事件作比較,。如果“蛋糕”這個詞在一個文本中只出現(xiàn)1次,,在另一文本中出現(xiàn)4次,無法真正在統(tǒng)計(jì)學(xué)上比較這兩者,。嚴(yán)格來說,,終止詞是文本彼此間最共同的詞語,這就是為什么其差異化的使用模式會產(chǎn)生最現(xiàn)成的統(tǒng)計(jì)差異,,也是為什么不得不把它們從文本挖掘中拿走,。 終止詞的兩難——保留,會產(chǎn)生你具有的唯一的一項(xiàng)統(tǒng)計(jì)意義,;拿走,,你就會沒有真正的研究結(jié)果——在霍伊特·朗和蘇真的《湍流:世界文學(xué)的計(jì)算模型》中能看到,。這篇論文試圖提出一個用于意識流(SOC)文學(xué)現(xiàn)象的預(yù)測性算法。論文認(rèn)為,,意識流在不同國家傳播,,這種“擴(kuò)散”能夠追蹤。[27] 霍伊特·朗和蘇真基于其他學(xué)者討論過是意識流段落的內(nèi)容對比了300個包括1200個字符的意識流段落,,并在60部現(xiàn)實(shí)主義小說中重復(fù)了這個過程(既然現(xiàn)實(shí)主義小說常被認(rèn)為沒有或不用意識流),,建立了分類器,檢驗(yàn)意識流特有的13個語言特征(字符/型符比,、擬聲詞,、詞語創(chuàng)新、以名詞結(jié)尾的句子),。他們聲稱能以95%的精度預(yù)測一段意識流文學(xué)(日語文學(xué)則是97%的精度),。在檢驗(yàn)的13個特征里,作者認(rèn)為字符/型符比(一個句子中單詞的數(shù)量除以單詞類型的數(shù)量)是預(yù)測意識流的最重要因素,。這個概念學(xué)者們在20世紀(jì)70年代就提出了,,但“從未有如此精度或規(guī)模”,。[28] 當(dāng)霍伊特·朗和蘇真的分類器在對付日語文學(xué)中的意識流不那么精確時,,作者把這叫做“湍流”——當(dāng)形式的影響并未一直貫通時。 但是,,他們用于預(yù)測文章是意識流還是現(xiàn)實(shí)主義的最強(qiáng)預(yù)測器——字符/型符比——對作者們自己選擇的非標(biāo)準(zhǔn)終止詞太敏感,。如果你不移除這些終止詞,那么統(tǒng)計(jì)顯著性就朝另一頭顛倒(現(xiàn)實(shí)主義文本就有更高的字符—型符比),。移除終止詞會讓方程式顛倒,,因?yàn)橐庾R流段落中不同終止詞和全部詞匯的比率在統(tǒng)計(jì)上更高。這是因?yàn)橐庾R流終止詞是相似的,,而現(xiàn)實(shí)主義終止詞更多變,,如果我們使用的是作者自己選擇的終止詞(就算移除專有名詞,這個作者挑選的詞匯表也比標(biāo)準(zhǔn)終止詞列表多300個詞),。[29] 使用這個詞匯表時,,現(xiàn)實(shí)主義文本就會比意識流文本有多得多的終止詞。這解釋了為什么移除終止詞會改變字符/型符比,,足以讓意識流段落的字符/型符比在統(tǒng)計(jì)上比現(xiàn)實(shí)主義更高,。因此,作者為了區(qū)分現(xiàn)實(shí)主義文本和意識流文本唯一要做的一件事就是為終止詞詞頻列表格——這是他們的最強(qiáng)指標(biāo),,超過他們分離出來的四個指標(biāo)中的任何一個,;也就是說他們最強(qiáng)的解釋特征是一個不必要的測量結(jié)果。我重新跑了一遍他們的編碼,用的是標(biāo)準(zhǔn)終止詞列表,,一旦我們僅僅移除標(biāo)準(zhǔn)終止詞,,現(xiàn)實(shí)主義文本和意識流文本之間字符/型符比的差異就失去了統(tǒng)計(jì)上的意義。在其他領(lǐng)域和應(yīng)用中,,停頓詞被移除的文本能進(jìn)一步被分類——分為經(jīng)濟(jì)術(shù)語,、政治術(shù)語、女性消費(fèi)者,,等等,。必須要有簡單又足夠精確的另一層次的分類,這樣才能對比各種范疇,,而不是對比單個詞頻——這才能讓詞語的統(tǒng)計(jì)分析成為可能,。CLS 試圖這樣研究文學(xué),用不同方法將大型詞語語料庫簡化為合理的分組,,它意識到,,在執(zhí)行必要的維度簡化后——挑出不尋常的詞、移除終止詞,、不同單詞組別被矢量化為空間中的單個的點(diǎn)——剩下的只是最初標(biāo)榜要研究的內(nèi)容的小部分,,而這些內(nèi)容聚集成的分組如此普通,以至于排除了有意義的闡釋,。 為了應(yīng)對二級分類問題,,CLS通常用拓?fù)鋵W(xué)數(shù)據(jù)分析(TDA)工具,、網(wǎng)絡(luò)分析工具、和主題模型工具,,例如隱含迪利克雷分布(latent dirichlet allocation, LDA)和潛在語義分析(LSA),。這代表了CLS中對統(tǒng)計(jì)工具最成問題的應(yīng)用之一。主題模型將每個文本看作主題分布,,將每個主題看作詞語分布(因此仍然將文本當(dāng)作詞語的無序集合處理),,它被用來發(fā)現(xiàn)大量文本中無監(jiān)督的主題。它對參數(shù)化極為敏感,,容易過擬合,,作為復(fù)雜文本的“相關(guān)性”探測器,它頗不穩(wěn)定,,因?yàn)槟阒恍枰晕⒄{(diào)整小細(xì)節(jié)就能發(fā)現(xiàn)全然不同的主題,。既然LDA的召回率取決于要有通過人類決策而形成的真正主題類別,那就沒有真正能測量已發(fā)現(xiàn)主題的精確性的方法,。其效用在召回率和精度并不太重要的環(huán)境中最容易觀測到,,就和以內(nèi)容為基礎(chǔ)推薦系統(tǒng)情況一樣。 如果沒有富于意義的應(yīng)用,,主題模型看起來就像是用于文學(xué)批評的詞云生成器,。喬科斯和大衛(wèi)·米默用LDA從文學(xué)實(shí)驗(yàn)室語料庫提取主題,,發(fā)現(xiàn)女性作者有兩倍可能關(guān)注女性時尚(女性時尚的一個詞云),男性作者更可能關(guān)注有關(guān)敵人的主題(與戰(zhàn)爭有關(guān)的詞語另一個詞云),。[30] 與此相反,,安德伍德認(rèn)為,主題模型只有在它能找到“意義含糊”的群集,、而非“直觀”群集,、也就是那些清清楚楚與戰(zhàn)爭、航?;蛸Q(mào)易有關(guān)的詞語時,,才對文學(xué)研究有用。但這就意味著要依賴那些主題模型在其中該起作用時并沒有起作用的事例,。[31]真相是,,“意義含糊”、意外詞匯聚集的群集要么解釋非常平庸,,要么只是重復(fù)了作品中實(shí)際的詞語出現(xiàn)順序,。喬科斯和米默在同一篇文章里試圖延伸主題模型的用途,要找到那些將政治信息藏于宗教主題中的作者——圍繞“修道院”的詞語群集——卻發(fā)現(xiàn)匿名語料庫里的兩個文本驅(qū)動了與修道院主題有關(guān)的大部分內(nèi)容,。[32] 這只是因?yàn)橹脫Q現(xiàn)象——談?wù)撠埖臅r候其實(shí)是在談?wù)撃橙说哪赣H——并非主題模型的設(shè)計(jì)目標(biāo),,而模型是以可能同時出現(xiàn)的概率模型為基礎(chǔ)的。安德伍德在1815—1835年的女性詩歌中發(fā)現(xiàn)了主題22,,但因?yàn)樗皇侵庇^地一致——讀起來像是用詩歌語料庫最高頻的詞語拼起來的一首詩——要解釋它是無意義的,,這也是為什么他在講解主題建模概率時不見解釋。[33] 主題模型還被用于一種新型學(xué)術(shù)監(jiān)視,,學(xué)界人士就他們一直掩蓋的事互相質(zhì)問,,彼此看穿。倫理考慮不提,,還存在這種模型能否有效確定研究領(lǐng)域這個問題,。安德伍德和安德魯·戈德斯通的調(diào)研《文學(xué)研究的無聲轉(zhuǎn)變:13000名學(xué)者能告訴我們什么》,要找出1889—2016年間差不多13000篇學(xué)術(shù)文章中學(xué)者們都在“談?wù)摗笔裁?,并發(fā)現(xiàn)許多主題變得越來越流行(圖8),。[34] 例如,他們發(fā)現(xiàn)話題80——圍繞“力量”一詞群集的10個詞語——有所增加,,這是一種“文學(xué)研究特有的趨勢”,,在20世紀(jì)80年代達(dá)到頂峰。[35] 如果作者想要在期刊文章中不武斷地跨時研究主題的變化,,本來可以直接看期刊摘要,,還能節(jié)省時間。將一年內(nèi)發(fā)表的文章當(dāng)作單獨(dú)樣本(沒有將文章數(shù)據(jù)集分離為訓(xùn)練集和測試集),也沒有用先驗(yàn)概率擬合后驗(yàn)概率,,這意味著算法傾向于形成基于語料庫中連續(xù)年份的主題,。他們想論證說,有些主題在增長而其他主題在減少,,但是用這種方式操作主題模型會機(jī)械地產(chǎn)生隨著時間增加和減少的主題,。 圖8 安德伍德和戈德斯通《無聲的轉(zhuǎn)變》主題—年份分布 如果學(xué)術(shù)研究文獻(xiàn)增長,就會涌現(xiàn)更多文獻(xiàn),。所發(fā)現(xiàn)的主題(詞語同時出現(xiàn))由更新近的學(xué)術(shù)研究驅(qū)動,,因?yàn)樾陆难芯扛啵灰虼?,回采這個主題較早的學(xué)術(shù)研究很顯然會顯示該主題隨時間有增長,。作者發(fā)現(xiàn)主題80隨時間增長了、但個體詞語沒有增長(使用google n-元語法),,并認(rèn)為這反直覺,,但如果話題80在全部時間段都存在、但主要由學(xué)術(shù)研究的近期時段驅(qū)動,,那么從定義上看,,主題80中的詞語確實(shí)出現(xiàn)了,但在較早時段中并沒有共同移動,。[36] 在講述研究結(jié)果時,,作者最終為他們發(fā)現(xiàn)的主題展示了年份—主題縮放,但這并沒改變這一事實(shí):首先他們還是用全部樣本找到的這些主題,。理想情況下,,一項(xiàng)研究要么事先就選擇合理的詞語列表,一個主題相關(guān)聯(lián),,只尋找全部樣本中這些詞的趨勢,,或者,這項(xiàng)研究將更多新近文章降低權(quán)重,,避免群集效應(yīng)。如果像安德伍德和戈德斯通那樣使用全部樣本來找主題,,一位作者就無法就時間序列變化提出論證,。 用合理正確的方式使用主題模型時,只有在其他已發(fā)現(xiàn)主題(比如說50個主題中的47個)通過氣味測試時才會辨別出有趣且意外的主題,。這一研究并非如此,;基本的魯棒性檢驗(yàn)也失敗了。為了看清文章長度能如何影響發(fā)現(xiàn)的主題,,我執(zhí)行了兩個魯棒性檢驗(yàn),。在部分雙重測試(double test)中(在所有其他參數(shù)不變的情況下隨機(jī)將30%的文檔長度翻倍并且不應(yīng)影響LDA,因?yàn)樗腔谠~袋模型),所有主題都改變了,。當(dāng)我隨機(jī)移除僅僅1%的原始樣本時,,所有主題都改變了。這篇論文也沒有通過還原性檢驗(yàn),;如果方法是有效的,,有過類似訓(xùn)練的人應(yīng)能用同樣參數(shù)獲得基本一樣的結(jié)果,而不用在改過的編碼和隱藏的過濾器中劈波斬浪,。我用Python LDA腳本(縮放每個文檔長度)從他們的數(shù)據(jù)集中找了150個主題,,每個主題10個詞,完全像他們那樣,。[37] 我生成的主題全然不同,。[38] 這不是說我們當(dāng)中有人沒有盡力,但確實(shí)說明主題模型就像萬花筒,,稍微一動,,就會將某些事物變得完全不同。 這些日子,,輔助機(jī)器學(xué)習(xí)的炫目統(tǒng)計(jì)工具并不缺乏,,計(jì)算相對容易且廉價;工具存在是為了讓你跑遍每條路徑,、沿途每一步都做出決策,,并提供許多方法可以稍微改變模型以便識別不同模式。最后,,統(tǒng)計(jì)學(xué)事關(guān)在可定量的數(shù)據(jù)中確定高階結(jié)構(gòu),;如果結(jié)構(gòu)并不存在(或者從本體論上來說不同),統(tǒng)計(jì)數(shù)據(jù)無法變魔法造出一個,。例如文本挖掘常用到拓?fù)鋵W(xué),,但如果它不能維持拓?fù)鋵W(xué)的功能,即有意義地簡化復(fù)雜事物,、做出更快,、更直觀、非隨機(jī)的計(jì)算,,就失去意義了,。在對圖論很根本的數(shù)學(xué)問題“哥尼斯堡七橋問題”里,必須決定是否存在一條路徑,,能在特定的河流和地塊形態(tài)配置中一次只通過一條橋(圖9),。你可以手工計(jì)算,但如果我們要處理有更多道路交叉,、橋梁和奇形怪狀地塊的更大區(qū)域或者處理整座城市,,就會變得很費(fèi)勁,。萊昂哈德·歐拉提出的按比例復(fù)雜性規(guī)約,將每塊地塊重新規(guī)劃設(shè)為一個節(jié)點(diǎn)(第三個圖像上的藍(lán)點(diǎn)),,每個通往另一塊土地的穿越路徑作為一個關(guān)系線,產(chǎn)生了一幅只記錄節(jié)點(diǎn)和關(guān)系線的圖,。這幅圖并不是地圖的正式重新排列,而是對地圖信息的根本轉(zhuǎn)化,。河流如何蜿蜒、島嶼多大或什么形狀,、它們彼此位置如何(這都是局部的),,都不再緊要。你能拿起任何區(qū)域,,數(shù)出地塊及其退出節(jié)點(diǎn)的數(shù)量,。如果其中0個或2個節(jié)點(diǎn)的關(guān)系線是奇數(shù),這么走通就是可能的,。如果不是,,那就不能(所以在原始問題中,走通是不可能的),。 圖9 “通往哥尼斯堡的七座橋”,拓?fù)鋵W(xué)轉(zhuǎn)換 在此情況下,,簡化復(fù)雜性是必要的,,因?yàn)槟悴幌敫F盡所有路線組合就為了了解市政規(guī)劃的答案,。拓?fù)鋵W(xué)從這個問題中生發(fā)出來,,依賴于從實(shí)際布局到圖示的復(fù)雜性簡化,在持續(xù)變形中保持了兩點(diǎn)間的關(guān)系,。地鐵示意圖這種拓?fù)鋵W(xué)地圖將復(fù)雜而隨機(jī)的地理信息轉(zhuǎn)化為基本節(jié)點(diǎn)(這個地圖不必反映實(shí)際地圖里迷宮般的拓?fù)鋵W(xué)細(xì)節(jié),,甚至完全不必按比例反映——唯一重要的是交換點(diǎn))。這些例子闡明了判斷拓?fù)鋵W(xué)轉(zhuǎn)化是否有用的標(biāo)準(zhǔn),。 CLS理解拓?fù)鋵W(xué)術(shù)語宏觀和局部的方式不再充滿圖論的理論涵義——在其實(shí)踐中網(wǎng)絡(luò)繪圖和拓?fù)鋵W(xué)可以互換——并傾向于重新配置信息,,以便視覺化低維同源性(相似性并非基于全部文本而是基于非常有限的文本層面)。[39] 語料庫繪制成矢量圖,,通過測量每個術(shù)語的相對權(quán)重壓縮文檔,讓每個矢量代表一個文檔,。這個矢量空間模型生成非歐坐標(biāo)系中的數(shù)據(jù)點(diǎn)集合,,CLS繼而將其展現(xiàn)為拓?fù)鋵W(xué)信息,。例如,,拓?fù)鋵W(xué)模型被用來計(jì)算文學(xué)景觀中的社會性和社會互動,,采用的是對拓?fù)鋵W(xué)關(guān)系線極具隱喻性的闡釋。文學(xué)社會學(xué)家艾倫·劉所說的“隱性社會網(wǎng)絡(luò)”,,或者“核心環(huán)線”,,只是連接的視覺化,使用的是功能上簡化的“聯(lián)系”的定義,。[40] CLS網(wǎng)絡(luò)分析很容易就能成為推薦系統(tǒng)文學(xué)社會學(xué),,其中,客戶和話語關(guān)聯(lián)被視覺化,,而不考慮語調(diào),、語境、重點(diǎn),、修辭等等——完全就是推薦系統(tǒng)的作用方式,。在這里,詞頻重疊構(gòu)成了空間連接,,而網(wǎng)絡(luò)意味著對這些連接中的很小一部分的簡單視覺化,。這樣的圖表往往呈現(xiàn)為“為其他目的而造的現(xiàn)成社會計(jì)算工具和平臺”。[41] 但這些現(xiàn)成工具是有用的,,比如Facebook Friend Wheel(好友輪),,如果你希望通過繪制網(wǎng)絡(luò)促進(jìn)社會化或創(chuàng)業(yè)機(jī)會,你的網(wǎng)絡(luò)的復(fù)雜多變不在于所討論的連接的本質(zhì),,而在于其數(shù)量級和其中嵌入的拓?fù)鋵W(xué)信息數(shù)量,。網(wǎng)絡(luò)地圖用來計(jì)算基于方向矢量的節(jié)點(diǎn)的中心性;因此,,比如谷歌知道如何轉(zhuǎn)入最相關(guān)的搜索,,因?yàn)樗?jì)算了網(wǎng)絡(luò)中和另一網(wǎng)址相連的節(jié)點(diǎn)(網(wǎng)址)數(shù)量,這樣就能計(jì)算一個網(wǎng)址的相對中心性,。網(wǎng)絡(luò)地圖無法用其他形式的數(shù)據(jù)表現(xiàn)替代,。由于規(guī)模和連接(以2n的速率增長),它變得復(fù)雜:為婚禮上的500位賓客安排座位——有些人不能和某些人坐在一起而所有人都有個鄰近偏好遞減的名單——在賓客數(shù)升至500萬時要復(fù)雜得多得多,。捕捉到這種復(fù)雜情況——或通過研究一個其中節(jié)點(diǎn)對鏈接的度數(shù)分布既非任意,、也非有規(guī)律、而是遵循其他數(shù)學(xué)法的網(wǎng)絡(luò)而捕捉到網(wǎng)絡(luò)復(fù)雜性——不等于說,,關(guān)于莎劇中誰和誰說話了的網(wǎng)絡(luò)圖就能捕捉到莎士比亞或人物話語中連接的復(fù)雜性,。我們處理的是對復(fù)雜情況和復(fù)雜性根本不同的幾種定義。 如果給小批量數(shù)據(jù)做網(wǎng)絡(luò)圖能幫我們理解用其他方式無法理解的事物,,那就不是無意義的活動,,但這種視覺化往往并無此類回報,。艾德·芬為朱諾·迪亞茲作品《奧斯卡·沃的奇妙生活》亞馬遜頁面做了個網(wǎng)絡(luò)地圖,用“書評和網(wǎng)站推薦……為鏈接”,、“書名為節(jié)點(diǎn)”,,為了將顧客和話語關(guān)聯(lián)視覺化,[42] 芬使用的是遞歸地收集推薦的腳本,,為了做出網(wǎng)絡(luò)地圖,,他繪制了幾個月內(nèi)的(從2010年12月到2011年3月)前10條“買了這本書的顧客也買了”鏈接和每條鏈接里的前10個推薦(圖10)。但這個圖里的網(wǎng)絡(luò)分析在哪里,?中心性分值在哪里,?同配性測量在哪里?統(tǒng)計(jì)推斷呢,? 圖10 “亞馬遜推薦,,迪亞茲,2010年12月下旬”,。 恰當(dāng)?shù)囟x節(jié)點(diǎn)在此并無可操作的目的,,形成對比的是國家安全局(NSA)調(diào)查最多三個連接節(jié)點(diǎn)就在社交媒體上追蹤恐怖分子網(wǎng)站。[43] 對芬來說,,每提到另一個作者(不管是何性質(zhì)),,不管是在亞馬遜推薦系統(tǒng)里還是這些雜糅的評論中,都證明奧斯卡·沃是“從少數(shù)族裔文學(xué)體裁通往主流獲獎?wù)哒涞奈膶W(xué)出入口”,,或者證明了“文學(xué)逆向殖民化過程,、故意用另一種話語的符號去污染一種話語語言的過程”。這些想法很吸引人,,但芬并沒有做網(wǎng)絡(luò)分析(他讓奧斯卡·沃這本書成了圖中實(shí)際的中心),,因?yàn)橹挥?1個條目及其彼此的連接。這并不是網(wǎng)絡(luò)地圖,,而是網(wǎng)絡(luò)地圖非常,、非常小的一片——很容易用表格表現(xiàn)。在第一本被推薦的書和第二本之間可能存在數(shù)量級差異,,但亞馬遜不對客戶透露這一信息,。芬平等地權(quán)衡那些推薦,因?yàn)樗荒芙佑|到亞馬遜的項(xiàng)目到項(xiàng)目協(xié)作過濾算法的一部分(全部接觸意味著芬只用復(fù)制亞馬遜的已有信息) 拓?fù)鋵W(xué)洞察力和用于詞頻論證的拓?fù)鋵W(xué)結(jié)構(gòu)的視覺化工具:這不是一回事,。派博將他的拓?fù)鋵W(xué)運(yùn)用描述為“當(dāng)?shù)氐摹焙汀皡f(xié)議邏輯的”,,是一種拉圖爾的“準(zhǔn)客體”網(wǎng)絡(luò)、德勒茲的“非關(guān)系的關(guān)系”,,對“限度的氛圍”的巴迪歐式質(zhì)問,,[44] “關(guān)于遠(yuǎn)處的另一種思維”,由賈德—莫瑟瑞啟發(fā)的“激進(jìn)的交替行為”,,讓我們“以能動的方式更多地思考語言(它所做的事)”的事物,,[45] 一種??率降摹耙?guī)則的場域”,,[46] 某種“經(jīng)過話語本體論”,、但也“允許細(xì)微得多的話語存在感”。[47] 這些受啟發(fā)的對比很難和他對拓?fù)鋵W(xué)實(shí)際應(yīng)用相符,。例如他和馬克·阿爾吉—休伊特的項(xiàng)目《維特效應(yīng)》,,是一系列拓?fù)鋵W(xué)的視覺化,捕捉歌德的《少年維特的煩惱》(1774)對其后期作品(以及歌德之后其他英語和德語作品)的影響,?!坝绊憽钡囊馑际亲粉櫋渡倌昃S特的煩惱》里的91個代表性詞語以及它們在x部其他作品中的頻率,這一測量被認(rèn)為很重要,,因?yàn)楦璧略谛挤艞墶毒S特》之后的寫作應(yīng)該不同,,也因?yàn)楸娝苤毒S特》影響了后來的作品,但我們不知道如何影響,、何等程度上影響,。派博和休伊特取了詞頻測量結(jié)果的歐式距離,用來測量各種作品的詞匯相似度,,接著,,為了將矩陣視覺化,嘗試并發(fā)現(xiàn)了將矩陣信息折疊為照片的最好辦法,,因?yàn)檫@個距離矩陣很大,,信息不容易抓取。他們選擇了沃羅諾伊圖,,一種非常有用且直觀的數(shù)據(jù)視覺化形式,,能讓你從幾何上按比例看到一部作品和其他每部作品距離有多遠(yuǎn)。[48] 拓?fù)鋵W(xué)在這里是作為視覺化詞頻差異矩陣的最佳方式,;它不是我們?nèi)绾螐囊曈X上解讀的再現(xiàn),,不管它是如何隱喻地應(yīng)用的。在生成沃洛諾伊圖之外(在這種數(shù)據(jù)類型情況下的應(yīng)用并非論文作者的原創(chuàng)貢獻(xiàn)),,這些距離測量——現(xiàn)在可以一下子全都看到——代表的是91個詞在歌德全部作品中其他部分出現(xiàn)(不管位置,、順序、語境,、句法,、說話人、聲音,、語調(diào),、彼此的接近程度)的方式。[49] 最終,,那91個詞語的重復(fù)指出了《維特》對其他文本的影響,。在另一個論壇,,作為文學(xué)批評家,我們必須決定,,測量影響的精確指標(biāo)時有多少授權(quán),,A中的一組詞匯也在頻繁出現(xiàn)在B中是否意味著A影響了B; 此處足以看到,這就是我們在每篇論文里看到的那同一種論證:部分重疊的最常用詞匯即表示影響,,當(dāng)A并不完全是B時,,從定義上說B已經(jīng)逐步影響了A。 定量的視覺化是打算將復(fù)雜的數(shù)據(jù)輸出簡化為其基本特征,。CLS沒有能力捕捉文學(xué)復(fù)雜性。馬克·阿爾吉—休伊特想要超越詞頻計(jì)數(shù),,測量文學(xué)的熵,,也就是一部作品的冗余水平,這貌似一種復(fù)雜性測量,。他給斯坦福實(shí)驗(yàn)室的供稿,、多位作者的《正典/檔案:文學(xué)場域大型動力學(xué)》要論證非正典文本比正典文本更少熵(更冗余),他們用查德威克—希利公司語料庫的260本書作為正典語料庫,,用同期的949本書作為非正典語料庫,。他測量了其中詞語的連續(xù)像對數(shù)量和概率,基于這一推想:文學(xué)作品熵越高,、就越少冗余,、包含的信息就越多。[50] 熵測量聽起來很復(fù)雜精巧(而且看似和文學(xué)復(fù)雜性相似),,但它實(shí)際做的是測量不同詞對的數(shù)量以及它們在二元語法對總數(shù)量中的分布,。[51] 這不是一個神秘屬性,而是與詞語多樣性(2000個,、2萬個,、200萬個不同的詞會有巨大區(qū)別)和詞語偏差(一對詞是否那些總是出現(xiàn)的詞、或者其中一個詞是否只出現(xiàn)一次)直接相關(guān),。在二元語法對多樣,、但沒有具有優(yōu)勢的特定二元語法的情況下,熵的水平最高,,并導(dǎo)致文本中的更多信息,,就像華倫·韋弗說的:這“一定不要和意義相混淆?!盵52] 即使我們同意休伊特說的,,更多數(shù)學(xué)上的熵在某種意義上意味著更多文學(xué)的新鮮風(fēng)格或更少文學(xué)冗余,他的計(jì)算仍然是錯的。我使用356本書的檔案語料庫(因此規(guī)模接近他們的查德威克—希利公司語料庫的260本書),,重新計(jì)算了二者的熵(按比例熵值分別= 0.796391 和 0.793993),,魯棒性檢驗(yàn)后并未發(fā)現(xiàn)二者有何統(tǒng)計(jì)學(xué)差異。[53] 阿爾吉—休伊特從查德威克—希利公司語料庫中得到的更大的熵,,是由其檔案語料庫的規(guī)模(263vs 949)所驅(qū)動的,,這產(chǎn)生了查德威克和檔案的不同二元語法數(shù)量間差異的大小,導(dǎo)致檔案熵值下降,。他的發(fā)現(xiàn),,也就是《正典/檔案》中很大部分內(nèi)容的基礎(chǔ),只不過是定標(biāo)的疏忽,。 CLS在解釋類似同指涉或者語句處理方面沒有跟上語料庫語言學(xué),語句處理等問題關(guān)心的是嵌入語言結(jié)構(gòu)中的詞語(局部話語),。CLS確實(shí)用了自然語言處理(NLP)來標(biāo)注詞類和音素,,看起來超越了概要統(tǒng)計(jì),要以語義學(xué)上更有意義的方式抓住詞語,,但這些努力是半心半意的,,除了因?yàn)镹LP是近來才發(fā)展的,還另有理由,。詞類標(biāo)注對文學(xué)文本來說極其不精確,。詞法、句法和語法的歧義讓算法很難知曉一個詞是分詞還是動名詞,,是形容詞還是名詞,,整個短語是否只是作為單個詞性起作用。據(jù)說NLP有93%到95%的準(zhǔn)確率,,但這取決于你拿它做什么以及你需要的分類級別(因此,,正式評價非常難)。建造在線聊天機(jī)器人或者95%準(zhǔn)確率的基礎(chǔ)翻譯非常不同于從一段文學(xué)作品中挑出所有的詞性,。用于敘事性詞性標(biāo)注的NLP軟件也不太用戶友好,,因?yàn)樗笫謩幼⒔庥?xùn)練集。 和文學(xué)打交道,,你很快就會碰上數(shù)據(jù)不足和數(shù)據(jù)復(fù)雜性問題,。有多少不同的文學(xué)數(shù)據(jù)集——你能夠并愿意手工注解——足夠大到讓你能夠精確地在數(shù)據(jù)集的其他部分運(yùn)行NLP?你給一個文本標(biāo)注后做什么,?假設(shè)有一天所有的文學(xué)事物(包括同形【同音】異義詞,、比喻表達(dá)、一詞多義,、反語,、移情)都能精確標(biāo)注——這假設(shè)挺大的了,研究人員仍然會有一張標(biāo)注及頻率列表,不得不大大縮減其維數(shù)才能有任何可提取的統(tǒng)計(jì)學(xué)意義,。這種情況下,,語義學(xué)或基本情節(jié)仍被忽視(除非我們愿意接受其前提,即統(tǒng)計(jì)上與其他詞語同時出現(xiàn)的詞語可以有效地反映語義,、主題性或情節(jié)),。在其他研究領(lǐng)域,有命名的實(shí)體識別任務(wù)可以用來提供第二層的分類,,將標(biāo)注的詞語分為預(yù)定義范疇,,例如人名、機(jī)構(gòu),、位置,、時間表達(dá)、數(shù)量,、金錢價值,、百分比,等等,。但是為了得到可用的類別而用這種方式拓寬,,只在你有真正大型的數(shù)據(jù)集、想要迅速提取可用信息時,,才有意義,。NLP中的標(biāo)注錯誤和不精確不會充分降低其他諸多語境中的信息提取,但對文學(xué)就會,。 甚至在用于最適合它的文本類型時——NLP尤其適合那些豐富但相似的數(shù)據(jù)報道[54]——弗朗佐西花了30年時間用報刊文章手工訓(xùn)練標(biāo)簽器(“有經(jīng)驗(yàn)的程序員用頗為復(fù)雜的編碼方案,,每一頁文檔10-15分鐘”),以確定基本史實(shí)的簡化版本,。[55] 馬丁·保羅·伊夫也試圖超越終止詞詞頻,,他轉(zhuǎn)向NLP,想要證明大衛(wèi)·米切爾的《云圖》是體裁的雜燴,。[56] 這是個典型案例,,因?yàn)橐练蛑挥昧怂璧慕y(tǒng)計(jì)工具,解釋了測量結(jié)果的相對簡單,,將這些測量說成編碼包已有的內(nèi)容而不是他從零開始設(shè)計(jì)的,。伊夫在移除終止詞之后,并沒有計(jì)算同源性,,而是確保能夠通過對常見終止詞(the, a, I, to, of, in)的詞頻測量而得到一個簡單得多的分類器,,能夠精確分類《云圖》中的所有部分,除了一個用能給所有部分分類的20個常用終止詞,,他還取了5000個最常用詞語(或兩個詞)的標(biāo)準(zhǔn)分?jǐn)?shù)的曼哈頓距離及樹狀圖,,來預(yù)測《云圖》中的不同部分是由同一位作者所寫的可能性,。然后伊夫借助NLP顯示,《云圖》中路易莎·雷的部分中,,標(biāo)注的三元語法NNP+NNP+VBZ(專有名詞單數(shù)+專有名詞單數(shù)+第三人稱單數(shù)現(xiàn)在時動詞)的出現(xiàn)有統(tǒng)計(jì)意義,。但最后的解釋卻徹底乏味。伊夫所做的一切就是證明了米切爾的各個部分彼此截然不同,,就像它們和使用停止詞的其他作者之間截然不同一樣,。NLP并未提出任何額外見解。要真正解釋不同的三元語法頻率的主題基礎(chǔ),,他還得去找到副詞+形容詞+名詞的例子,,并區(qū)分“hopelessly uneven gunfire”(讓人無奈的不平衡的槍戰(zhàn))和“mostly empty wine” (酒差不多空了)。[57] 由于英國的版權(quán)法,,伊夫?qū)⑦@部小說手動打字出來,。要明確知道一章書將角色全名和行動配比另一章更多,這是大量工作,。 有個更清楚的例子,,霍伊特·朗和蘇真的俳句分類器的問題不在于它的準(zhǔn)確率,甚至也不是它的參數(shù)化,,而是其功能性。當(dāng)然,,這個分類器不必百分百準(zhǔn)確——不能僅僅因?yàn)榘l(fā)現(xiàn)了錯誤分類的情況就拒絕它,。如果對霍伊特·朗和蘇真來說,(1)“譯本和改編本”,,(2)自稱俳句的事物,,和(3)別人分類為俳句的事物實(shí)際都是同一種東西——俳句(不管差異為何)——那么,樸素貝葉斯分類器分類為英語俳句的東西無論為何,,按照他們的定義,,就是英語俳句,既然他們一開始就沒有嚴(yán)謹(jǐn)?shù)亩x,。但我們有沒有討論足夠多的涵義含糊的案例(或者非常短的詩歌的總數(shù))來為這個錯誤正名,?我們面對的情況是不是數(shù)百萬短詩出版但我們不可能有時間去讀?這兩位作者,,事先不了解去哪兒找,,自己也沒有好辦法去找到并一點(diǎn)點(diǎn)積攢所有存世短詩,因此在這件事上他們完全沒有替我們節(jié)省任何時間,。就不能有在詩歌上訓(xùn)練有素的人去尋找,、閱讀、分類,? CLS的支持者提出,,用很長時間去做我們已經(jīng)了解的事情,這無關(guān)緊要,既然創(chuàng)新在于一臺電腦居然能夠進(jìn)行基本閱讀(一條支持人工智能的論點(diǎn)),。但這其實(shí)很重要,,因?yàn)橛?jì)算在這里被用作一種調(diào)查工具,告訴你注意哪里,、或者對什么內(nèi)容隨意發(fā)表意見,,而CLS作者們一路上只是拿起影響、歷來的變化,、歷來沒有變化,、體裁一致、或體裁差異等論點(diǎn),,因?yàn)樗麄円呀?jīng)將這些等同于他們唯一會做的那種數(shù)據(jù)處理,,以便用到這些特定工具并好歹得到統(tǒng)計(jì)推斷。這不是人工智能,,而是人類在做匯總統(tǒng)計(jì),。 CLS還求助于一種折衷,原諒了自己的方法缺陷和論辯缺陷:誰能把現(xiàn)存所有文學(xué)文本都讀完呢,?機(jī)器閱讀不完美,但比什么都沒有強(qiáng),,它還能告訴我們一些任何一個讀者都看不出來的潛在模式,。文學(xué)批評家,尤其是那些研究當(dāng)代文學(xué)的,,往往會用數(shù)字人文來幫自己解釋那些他們感覺正在指數(shù)增長的文學(xué)對象,。他們很自然地假設(shè)計(jì)算方法能幫他們更快、更綜合且不武斷地解決這個規(guī)模,。如上所有例子證明的,,這是個錯覺。對“大量未讀作品”的尋找,、獲取版權(quán),、積攢、并戲劇性地將其簡化為統(tǒng)計(jì)上可操控的一堆堆數(shù)據(jù),,再用替代方案檢驗(yàn)?zāi)P湍芰Γ@些所需要的時間和武斷(無意義和錯誤的幾率也高得多)幾乎和實(shí)際閱讀它們一樣多,,如果不是多得多的話,。CLS的方法論,、前提和用于專業(yè)領(lǐng)域的那些類似(雖然更原始),,但它們對文學(xué)、文學(xué)史和語言學(xué)復(fù)雜性的極端簡化缺少經(jīng)濟(jì)或數(shù)學(xué)的正當(dāng)理由,。在其他那些領(lǐng)域里,我們是真正在處理大型數(shù)據(jù)集,,對幽微之處,、詞匯變化和語法復(fù)雜性等特征的有目的的簡化是可取的(為了該行業(yè)的標(biāo)準(zhǔn)和目標(biāo))。文學(xué)研究中,,這種簡約論沒有基本理由;事實(shí)上,,這個學(xué)科是關(guān)于減少簡約論的。就算常量分析結(jié)果本身也不會是簡約論思維的產(chǎn)物,。 至于過剩的說法,,要記住,許多關(guān)鍵例證來自那些已經(jīng)讀過的語料庫或文本,,這很重要,。CLS處理的數(shù)據(jù)量和復(fù)雜性并沒到(能為他們使用的工具正名的級別),實(shí)在不如作者們樂意相信的那么多,?;A(chǔ)數(shù)學(xué)此處也有助益:100萬單詞差不多相當(dāng)于10本小說;15億單詞代表15000本小說,,1個月讀1本小說,只用1000人讀1年,。到最后,,過剩宣稱就其本身而言并非正當(dāng)說法。在科學(xué)和社會科學(xué)里,,也有無法估量的文本,、數(shù)據(jù)集和方案未觸及,。有許多事物我們不了解,,許多問題尚未回答。這不意味著在那些未知數(shù)據(jù)中找到的任何模式,、任何之前未提出的問題的任何回答,、或任何問題,都自動值得關(guān)注,?;緲?biāo)準(zhǔn)應(yīng)該總是:不要將機(jī)械地發(fā)生的事混淆為深刻的見識,、不要無必要地將統(tǒng)計(jì)工具用于簡單得多的操作、要提出統(tǒng)計(jì)上合理,、論證上有意義的推論,,并且確保只要有人讀過文本,函數(shù)運(yùn)算就不會更快,、更精確,。[58] 可能計(jì)算文本分析有個最優(yōu)效益門檻,而文學(xué)——特別是好好地解讀文學(xué)——就是那個最優(yōu)效益門檻的界限點(diǎn)所在,。 (原載于《山東社會科學(xué)》2019年第8期) 責(zé)任編輯 | 陸曉芳 向上滑動 查看注釋: 主持人簡介 姜文濤,,美國紐約州立大學(xué)哲學(xué)博士,現(xiàn)任職于浙江大學(xué)國際聯(lián)合學(xué)院人文社會科學(xué)研究中心,,主要研究方向?yàn)橛耸兰o(jì)印刷文化及情感研究,、文藝?yán)碚摵捅容^文學(xué)、數(shù)字人文,。 戴安德(Anatoly Detwyler),,美國哥倫比亞大學(xué)哲學(xué)博士,美國威斯康星大學(xué)麥迪遜校區(qū)亞洲語言與文化系助理教授,,研究方向?yàn)橹袊F(xiàn)代文學(xué)和數(shù)字人文。 作者簡介 笪章難(Nan Z. Da),,美國圣母大學(xué)英語系助理教授,,研究方向?yàn)榕u理論、19世紀(jì)美國文學(xué)和文學(xué)史,、中國文學(xué)和文學(xué)史,、書籍和閱讀理論。 譯者簡介 汪 蘅,,畢業(yè)于北京大學(xué)英文系,,現(xiàn)為自由譯者,。 |
|
來自: 生態(tài)文明層 > 《待分類》