二,,如何尋找紅樓夢(mèng)外大數(shù)據(jù)? 正如前述,,近年來隨著網(wǎng)絡(luò)紅學(xué),、曹學(xué)資料與紅學(xué)、曹學(xué)方面數(shù)據(jù)庫(kù)的興起,,以及大量的文史資料的興起,,使得紅學(xué)、曹學(xué)領(lǐng)域正迎來一個(gè)前所未見的學(xué)術(shù)黃金期,。面對(duì)如此巨大的,,浩如煙海的數(shù)十億字的古典文獻(xiàn),,其中包括大量的平生都從未聽聞或過眼的書籍,人們有時(shí)會(huì)顯得無所適從,,不知所措,。難怪黃一農(nóng)教授曾在與媒體記者聊天時(shí)半開玩笑地稱:“‘陳寅恪先生若活在這個(gè)時(shí)代恐怕會(huì)瘋掉’,因陳氏雖以其博聞強(qiáng)記的能力為后人所樂道,,但他應(yīng)絕不僅以此為傲,,若擁有超強(qiáng)記憶力與思辨力的他,發(fā)現(xiàn)竟然還有機(jī)會(huì)搜檢并活用數(shù)十億字的古典文獻(xiàn),,其中包括大量連他都從未聽聞或過眼的書籍,,或許他會(huì)給自己莫大壓力,嘗試去躋攀學(xué)術(shù)的絕對(duì)巔峰,?!?/span> 所以才有了這樣的問題,有了上述的大量,、浩如煙海的數(shù)十億字的古典文獻(xiàn)后,,如何來尋找與紅樓夢(mèng)相關(guān)的大數(shù)據(jù),或者采用何種搜索方法呢,? 這一問,,本身應(yīng)該是沒有標(biāo)準(zhǔn)答案的。因?yàn)槊總€(gè)人都有自己的思路,,有個(gè)人網(wǎng)上沖浪的經(jīng)歷,,只要能夠找到自己所需資料的方法,就應(yīng)該是好方法,。當(dāng)然了也許對(duì)你適用的方法,,對(duì)他人不一定會(huì)適用。但是可以作為參考來思考如何尋找到適合自己,,適合目標(biāo),、適合題目的好方法。 一般來說,,確定了途徑以后,,剩下的就是具體檢索了。所謂如何尋找紅樓夢(mèng)外大數(shù)據(jù),?換言之,,就是所謂的紅樓夢(mèng)外大數(shù)據(jù)文獻(xiàn)檢索的方法,也就是查找具體文獻(xiàn)的方法,,而該方法往往與文獻(xiàn)檢索的課題,、性質(zhì)和所檢索的文獻(xiàn)類型有關(guān)。常規(guī)的的基本方法有如下一些: 常用法:常用法雙稱為工具法或直接法,,是直接利用文獻(xiàn)檢索工具來查找文獻(xiàn)的方法,。在檢索工具的選擇上,,一般應(yīng)根據(jù)課題內(nèi)容首先利用綜合性的檢索工具,然后使用專業(yè)性的檢索工具,,兩者結(jié)合,,可提高查全率和查準(zhǔn)率。常用法根據(jù)時(shí)間的范圍可分為順查法,、倒查法和抽查法,。 順查法:是以檢索課題的起始年代為起點(diǎn),按時(shí)間順序由遠(yuǎn)及近的查找,,直到查到的文獻(xiàn)信息滿足要求為止,。此法的優(yōu)點(diǎn)是查全率高,缺點(diǎn)是費(fèi)時(shí),、費(fèi)力,。 倒查法:是一種逆時(shí)間由近及遠(yuǎn)地查找文獻(xiàn)的方法。這種方法多用于新開課題或有新內(nèi)容的老課題,,需要的是近期發(fā)表的文獻(xiàn),,以便掌握最近一段時(shí)間該課題所達(dá)到的水平及研究動(dòng)向。因此,,一旦掌握了所需的文獻(xiàn)信息即可中止搜索,。此方法的優(yōu)點(diǎn)是節(jié)約時(shí)間,缺點(diǎn)是漏檢率高,。 抽查法:是針對(duì)研究課題發(fā)展的特點(diǎn),,抓住學(xué)科發(fā)展迅速、發(fā)表文獻(xiàn)較多的一段時(shí)期,,逐年進(jìn)行查找的一種方法,。此法的優(yōu)點(diǎn)是能以較少的檢索時(shí)間獲得較多的文獻(xiàn)信息,缺點(diǎn)是使用此法必須熟悉學(xué)科發(fā)展特點(diǎn)為前提,,否則難以取得預(yù)期效果,。 追溯法:追溯法又叫回溯法,是利用已有的文獻(xiàn)后面的參考文獻(xiàn),,由近及遠(yuǎn)進(jìn)行追溯查找的方法,。此法的優(yōu)點(diǎn)是直觀、方便,、不斷追溯可查到某一專題的大量參考文獻(xiàn),這是在沒有檢索工具或檢索工具不全的情況下擴(kuò)大信息源的一種好方法,。缺點(diǎn)是檢索效率低,、查全率低、漏檢率高,。 綜合法:綜合法又稱為循環(huán)法,、分段法或交替法,,是常用法和追溯法兩種方法的綜合。即利用檢索工具又利用文獻(xiàn)后邊的參考文獻(xiàn)進(jìn)行了追溯,,兩種方法交替使用,,知道滿足為止,它可得到較高的查全率和查準(zhǔn)率,。是采用較多的方法之一,。 理論上,有了檢索途徑,,了解了基本方法后,,接下來的就是具體的檢索步驟了。 所謂的文獻(xiàn)檢索就是根據(jù)課題要求,,使用檢索工具,,按照一定的步驟查找文獻(xiàn)的過程。檢索步驟的科學(xué)安排稱為檢索策略,。檢索策略是針對(duì)檢索提問,、運(yùn)用檢索訪求和技術(shù)而設(shè)計(jì)的信息檢索方案,其目的是要達(dá)到一定的查準(zhǔn)率和查全率,。文獻(xiàn)檢索一般經(jīng)過以下步驟: 分析課題,、制定檢索策略:首先要了解課題的目的、意義,,明確課題的主題和研究要點(diǎn)以及主要特征,,然后根據(jù)課題研究的特點(diǎn)和檢索要求制定檢索策略。檢索策略制定包括檢索提問,、檢索方法選擇,、檢索工具選擇以及檢索范圍(專業(yè)、時(shí)間,、語種,、文獻(xiàn)類型)的限定等,其中最關(guān)鍵的是確定檢索標(biāo)識(shí),,如關(guān)鍵詞,、主題詞、分類號(hào),、作者等,。 利用檢索工具查找文獻(xiàn)線索:根據(jù)課題檢索的需要,選擇相關(guān)的檢索工具,,然后用已構(gòu)成的檢索提問,,按照相應(yīng)的檢索途徑查找有關(guān)的索引,再根據(jù)索引指示的地址在文獻(xiàn)部分或題錄部分查得相應(yīng)的文獻(xiàn)線索,如題目,、摘要,、作者、文獻(xiàn)出處等,。 根據(jù)文獻(xiàn)出處找到原始文獻(xiàn):首先對(duì)文獻(xiàn)出處要進(jìn)行文獻(xiàn)辨識(shí),,然后再按文獻(xiàn)出處的全稱查找相應(yīng)的目錄和數(shù)據(jù)提供方,最后就是找到原文,。 正如前述,,本文所言之紅樓夢(mèng)外大數(shù)據(jù)屬于古典文獻(xiàn)、古典電子文獻(xiàn)的范圍內(nèi),,主要是歸屬于古典電子文獻(xiàn)的范圍內(nèi),。因此,就需要依據(jù)基本的檢索方法和檢索步驟,,特別是針對(duì)特定的檢索對(duì)象來規(guī)劃?rùn)z索策略,,規(guī)劃搜索范圍,同時(shí)對(duì)檢索范圍進(jìn)行管理和強(qiáng)化,。以次來解決一些基本問題,。 比如說,目前學(xué)界普遍都認(rèn)為,,紅學(xué)研究要有新發(fā)現(xiàn),,從紅樓夢(mèng)作者(曹雪芹)的朋友圈入手或許是一條重要的路徑。這是因?yàn)榧t樓夢(mèng)作品本身證明了作者(曹雪芹)本人多才多藝,,所以其朋友圈應(yīng)該是人數(shù)眾多,,范圍很廣,仔細(xì)統(tǒng)計(jì)下來約有數(shù)十人之多,,包括詩(shī)人,、書畫家、王公貴族和漢滿官員,,他們或多或少留下了一些和作者相關(guān)的作品,,其中可能提供了與他相關(guān)的一鱗半爪的信息。這應(yīng)該算是一種清晰的意識(shí),,可以作為檢索策略中的一種檢索提問或者是檢索問題方向,。 有人也許會(huì)這樣問:為什么不直接把紅樓夢(mèng)作者是誰作為檢索策略中的一種檢索提問或者是檢索問題方向呢?因?yàn)檫@是這一學(xué)科需要研究的核心問題,,而要從其朋友圈入手呢,?換言之。這種研究的價(jià)值和意義有多大呢,? 目前業(yè)界普遍認(rèn)為:經(jīng)過300年的研究,,目前寄希望于直接尋找到紅樓夢(mèng)作者或者《紅樓夢(mèng)》的直接資料中再出現(xiàn)突破性的新發(fā)現(xiàn)材料的可能性已經(jīng)較低了,盡管也不時(shí)有相關(guān)的資料被發(fā)現(xiàn),但是得到普遍認(rèn)可的資料,,直接的證據(jù)材料依然十分稀少。所以檢索方法選擇,、檢索工具選擇以及檢索范圍的確定方面應(yīng)該從如下的方面著手:也就是在有機(jī)會(huì)掌握大量的材料后,,盡管主題推進(jìn)面臨很大的困難,但是依然可以通過農(nóng)村包圍城市,、最后奪取城市的戰(zhàn)略,,經(jīng)過艱苦的探索,通過對(duì)歷史細(xì)節(jié)的探索,,最后來填補(bǔ)這樣一個(gè)歷史的缺失,。 這就是這些紅樓夢(mèng)外大數(shù)據(jù)可以起到的作用,他們可以為一些至今懸而未決的問題提供旁證和佐證,。所謂懸而未決的問題,,如包括紅樓夢(mèng)作者的人生蹤跡以及《紅樓夢(mèng)》的成書年代等,這些都可能對(duì)后世了解其生平與創(chuàng)作有著重要作用,。 此外還有,,通過規(guī)劃?rùn)z索策略,規(guī)劃搜索范圍,,對(duì)檢索范圍進(jìn)行管理和強(qiáng)化,,還可以解決諸如提高檢索結(jié)果重復(fù)性,強(qiáng)化檢索思路,,避免檢索結(jié)果重復(fù)性不高等等問題,。 下面舉兩個(gè)較為成功的例子來說明: (1),大家都知道,,在紅學(xué),、曹學(xué)界,有一個(gè)“四十年華付杳冥”,,以及“年未五旬而卒”著名的關(guān)于曹雪芹生卒年的長(zhǎng)期爭(zhēng)議,。一批學(xué)者根據(jù)“四十年華”,認(rèn)定曹雪芹只活了40歲,,并由此推斷出他生于1724年,。另有一些研究者認(rèn)為,如果這一論斷成立,,曹府被抄家時(shí)曹雪芹只有3歲,,不應(yīng)該有他在《紅樓夢(mèng)》中所表現(xiàn)出來的對(duì)于繁華生活的深刻記憶;相比之下,,如果依據(jù)“年未五旬而卒”,,即活了四十八九歲來推算,他應(yīng)生于1715年,曹家被抄時(shí)他已經(jīng)12歲,。這就比較符合“秦淮舊夢(mèng)憶繁華”的年齡,,而且和該年曹頫的奏折中提到的曹颙的遺腹子相吻合。二者的觀點(diǎn)相差近10年,,彼此難于說服,,互不相讓??墒?,通過紅學(xué)外大數(shù)據(jù)的搜索,應(yīng)該為解決這一難題提供了突破口,。 不久前在北京張家灣舉辦的紅學(xué)會(huì)上,,臺(tái)灣地區(qū)計(jì)算機(jī)專家、倡導(dǎo)e考據(jù)的黃一農(nóng)先生利用與紅樓夢(mèng)相關(guān)的大數(shù)據(jù),,以“四十年華”“五十年華”“六十年華”為關(guān)鍵詞,,搜尋了包括董邦達(dá)在內(nèi)的曹雪芹同時(shí)代人的詩(shī)作,結(jié)果發(fā)現(xiàn),,以“四十年華”來表示四十八九歲,,“五十年華”表示五十八九歲,“六十年華”表示六十八九歲,,是那個(gè)時(shí)代通行的用法,。這樣,“四十年華付杳冥”與“年未五旬而卒”,,這樣一個(gè)爭(zhēng)吵了許多年的問題,,就變得不僅不成為問題,沒有矛盾了,,可以說成是表示四十八九歲的不同表達(dá)方法,。 (2)高樹偉先生在《“e考據(jù)”視野中的裕頌廷》一文中完整地記錄了尋找裕頌廷的e考據(jù)過程,并且繪制一幅運(yùn)用“e考據(jù)”尋找裕頌廷的地圖,,見下圖: 其文章中認(rèn)為:通過表面上看似跳躍卻實(shí)有內(nèi)在關(guān)聯(lián)的關(guān)鍵詞檢索,,筆者竟能在如此短的時(shí)間內(nèi),聚攏這樣多關(guān)于裕頌廷的史料,,這實(shí)在是傳統(tǒng)考據(jù)時(shí)代無法完成的,。 其小結(jié)認(rèn)為整個(gè)考據(jù)過程:主要是由二大方面的經(jīng)驗(yàn):依賴兩個(gè)關(guān)鍵詞(關(guān)鍵詞的選擇),持續(xù)關(guān)注讀秀等庫(kù)的數(shù)據(jù)更新,,熟悉各種數(shù)據(jù)庫(kù)的性能,,由數(shù)據(jù)庫(kù)牽動(dòng)的文獻(xiàn)原件查閱(數(shù)據(jù)庫(kù)的深度功能的擴(kuò)展)。 小結(jié)總結(jié)說:發(fā)現(xiàn)“e考據(jù)”在每個(gè)研究個(gè)案中所承擔(dān)的任務(wù)是不同的,,某個(gè)成功個(gè)案的研究理路并無法直接移植到其他研究領(lǐng)域,,但不容忽視的是,,個(gè)案帶給整個(gè)“e考據(jù)”方法論的思考是有效的。 其他還有很多的成功案例,,就不一一贅言了,。 這里想談一些關(guān)于在尋找紅樓夢(mèng)外的大數(shù)據(jù),或者是在尋找古典文獻(xiàn)資料時(shí),,在搜尋檢索這些古典文獻(xiàn)數(shù)據(jù)庫(kù)時(shí)可能遇到的一些問題,,這些問題即涉及到古典文獻(xiàn)資料數(shù)據(jù)庫(kù)領(lǐng)域,又涉及到計(jì)算機(jī)領(lǐng)域,。可以這樣說,,這些問題應(yīng)該是文學(xué)藝術(shù)與科學(xué)技術(shù)結(jié)合性的問題,,而且并非大問題,但是有時(shí)小事情也會(huì)惹出大問題的,。 比如古典文獻(xiàn)資料的生僻字的錄入和顯示問題就是其一,。該問題即涉及到了古典文獻(xiàn)資料,也涉及到計(jì)算機(jī)操作系統(tǒng)的問題,。實(shí)際上有許多古典文獻(xiàn)資料都未能解決生僻字的錄入和顯示問題,。通常在遇到無法錄入和顯示的生僻字時(shí),業(yè)內(nèi)通常會(huì)用方框(如:□),、黑塊(如:■)等符號(hào)表示空缺,,或者用數(shù)字代替(如:[xx]),鏈接到字形圖片,,或者有時(shí)采用偏旁的上下左右內(nèi)外(如:左分右瓜)等方法,,這樣勢(shì)必會(huì)給閱讀利用造成障礙。解決之道則需要從根上著手,,即從古典文獻(xiàn)資料收集開始,,到計(jì)算機(jī)操作系統(tǒng)的漢字字庫(kù),需要有統(tǒng)一的解決方案,。 這里做一個(gè)實(shí)驗(yàn):證明不同的操作系統(tǒng)以及操作系統(tǒng)中不同的漢字庫(kù),,對(duì)錄入和顯示的影響。在筆者的計(jì)算機(jī)上,,“??”(左分右瓜)字可以顯示,,但是如果放到計(jì)算機(jī)版微信中時(shí),則顯示為□,,在手機(jī)則顯示不出,,不知道在您的計(jì)算機(jī)版微信上、手機(jī)微信上是否可以顯示出來,,讀者有興趣可以把結(jié)果反饋回來,。 此外,,有一些古典文獻(xiàn)資料數(shù)據(jù)庫(kù)使用的便捷性有待提高。比如有不少的大型網(wǎng)絡(luò)古典文獻(xiàn)資料數(shù)據(jù)庫(kù)需要安裝專用的瀏覽軟件,,這就給使用者造成不便,。這個(gè)問題也是文學(xué)藝術(shù)與科學(xué)技術(shù)結(jié)合程度不高所造成的,解決之道在于提高文學(xué)藝術(shù)與科學(xué)技術(shù)結(jié)合程度,。 其三,、比如大型古典文獻(xiàn)資料數(shù)據(jù)庫(kù)的檢索程序的技術(shù)水平有待提高。一個(gè)好的檢索程序不但要速度快,,還要能滿足多種條件的檢索需求,。比如按某些復(fù)雜條件檢索,如按年代,、地域或者更高級(jí)一些的條件,,這樣的檢索功能在學(xué)術(shù)研究上非常有用。這個(gè)問題也同樣是文學(xué)藝術(shù)與科學(xué)技術(shù)結(jié)合程度不高所造成的,,解決之道也在于提高文學(xué)藝術(shù)與科學(xué)技術(shù)結(jié)合程度,。 其他的還有其他的一些問題,比如象大型古典文獻(xiàn)資料數(shù)據(jù)庫(kù)中的古籍應(yīng)該用繁體字錄入顯示,,盡可能保存底本文字的原樣,,加上標(biāo)點(diǎn),能全文檢索,,并有相應(yīng)的圖版頁(yè)面可隨時(shí)對(duì)照,,但目前達(dá)到這一標(biāo)準(zhǔn)的電子古籍庫(kù)較少。再比如這些數(shù)據(jù)庫(kù)與常用字處理軟件的兼容性不盡如人意,。檢索出來的資料一般需要保留且復(fù)制到WORD等字處理軟件中使用的,,然而有些資料在復(fù)制粘貼后會(huì)發(fā)生錯(cuò)誤。這些問題也都是即與古典文獻(xiàn)資料數(shù)據(jù)庫(kù)領(lǐng)域相關(guān),,又與計(jì)算機(jī)領(lǐng)域相關(guān)的,。 諸如此類的問題,當(dāng)然也是在有了途徑后如何找尋紅樓夢(mèng)外的大數(shù)據(jù)方面存在的實(shí)際存在,。當(dāng)然了,,這些問題,對(duì)于具有網(wǎng)上沖浪經(jīng)驗(yàn)豐富,,網(wǎng)絡(luò)游歷游刃有余的人們還是可以解決的,。但是如果在古典文獻(xiàn)數(shù)據(jù)庫(kù)建設(shè)中可以事前考慮到,則對(duì)于專門搞文學(xué)藝術(shù),,網(wǎng)絡(luò)經(jīng)歷梢少一些使用者則也不失為一種功德之舉,。 這是本文對(duì)這個(gè)問題粗淺的思考,如有不妥,,敬請(qǐng)各位專家學(xué)者批評(píng)指正,。下期將介紹“如何應(yīng)用紅樓夢(mèng)外大數(shù)據(jù)”,。 |
|