拾穗靡遺,掃葉都凈,,網(wǎng)羅理董,,俾求全征獻, 名實相符,,猶有待于不恥支離事業(yè)之學士焉,。 ——錢鍾書 一.緣起 都說現(xiàn)今是大數(shù)據(jù)云計算時代,許多企業(yè),、行業(yè)都在建立自己的大數(shù)據(jù)系統(tǒng),。那么中國古典文獻的大數(shù)據(jù)又是什么狀況呢?北京掃葉的主要成果“中國古典數(shù)字工程”緣起于錢鍾書先生,。早在1985年,,錢先生就將該“工程”的構(gòu)建原則、基礎和方法交給中國社科院研究員欒貴明先生立項,,他們一起探索如何用電腦處理中國古典文獻,,同時迅速推進了第一個古典數(shù)字工程的創(chuàng)建工作,歷時14年,。經(jīng)過欒貴明先生和田奕女士的研究探索,,早期的成果有1987年的《論語數(shù)據(jù)庫》出版,1990年獲得“國家科技進步獎”的《中國古典文獻的計算機處理技術(shù)》,,1990年代的《全唐詩索引》三十大冊系列等,。 錢先生逝世之后,該“工程”建設階段,,雖幾經(jīng)波折,,但沒有停止過一天。2007年成立了“北京掃葉科技文化有限公司”,,繼續(xù)從事錢鍾書先生提出的這個課題——“中國古典數(shù)字工程”,。其宗旨,是將漢字產(chǎn)生以來的全部介質(zhì)上的文獻數(shù)字化,,搜集完整,、整理精到的中華核心文化基石,。 二.四大庫的建立 目前的古籍數(shù)據(jù)庫過于強調(diào)收集圖書的數(shù)量,盡管數(shù)據(jù)量龐大,,就實質(zhì)言之,,仍未走出電子圖書館的概念,還只是數(shù)量眾多電子圖書的堆迭,,本庫之間缺少有機聯(lián)系,,作品的版本和異文更沒有合理的設置,成為大數(shù)據(jù)時代深度挖掘和利用中國古典文獻的瓶頸,。而“中國古典數(shù)字工程”從一支小團隊,,歷經(jīng)35余年,精心制作,?!爸袊诺鋽?shù)字工程”的架構(gòu)既沒有采用傳統(tǒng)的經(jīng)史子集“四部”分類,也不采用一般圖書館分類法,。因為這兩種方法面對浩瀚的中國古典文獻,,都有局限性。錢先生給“中國古典數(shù)字工程”制定的基礎原則就是以“人”為核心,。 1.人名庫 以“人”為核心的前提是構(gòu)建了目前全世界獨一無二的“中國古代人名庫”,。從各類典籍中將涉及到的人名摘取出來,每個人物包含其主名,、輔名(輔名是指字,、號、別稱)和小傳等內(nèi)容,。這些資料均來自原經(jīng)原典,客觀羅列編纂,,不得引入任何主引觀評論,。目前“人名庫”已經(jīng)收錄40萬人,15萬條輔名,,數(shù)千萬字,。 2.作品庫 把每個人的作品歸集于其個人名下,不再按經(jīng)史子集或者其它分類法拆散,。目前作品庫已經(jīng)有10億字,。這些作品均經(jīng)過精校,采用正體漢字,,使用傳統(tǒng)斷句,,注明版本來源,并錄有異文,??梢员WC向簡化字安全轉(zhuǎn)換,。部分配有與文字對應得原版影印圖形,目前已經(jīng)收集圖形100萬余頁,。 3.日歷庫 日歷庫就是“中國歷史日歷”,。關(guān)于中西日歷之間的對照轉(zhuǎn)換,是一個很復雜的科學問題,,肯定是不能用公式來求得的,,因為在中西方歷史上都出現(xiàn)過人為干預修改歷法的情況,使得憑空就多幾天或少幾天,,這是公式絕對無法跨躍的,。所以“中國歷史日歷”采用了看似很笨拙,但是唯一有效的簡單表述方法,,是利用中國的干支法,,從夏代第一位君主大禹開始,一直到清代滅亡,,把每一天都列出來,。又考慮到同一天,在中國有可能存在多位帝王,,國號不一,,歷法更有差別,這些都同時并列出來,,故總計應是585萬天,。每天又包含帝諱、朝代,、帝號,、年號、干支以及公元年月日等13項內(nèi)容,??傆?億字。而夏朝以前太古時代的三黃五帝,,乃至上朔到遠古時代的盤古,,則以史表的方式表達。 4.地名庫 從25史和30部地理專著中,,提取出全部的地名,,每條地名下均注有文獻出處及不同年代的變更情況。目前已經(jīng)制作了800萬字,。再配合上經(jīng)緯度坐標,,就是開發(fā)“中國歷史地圖”的基礎。 以上四大庫的內(nèi)容是人類文明和文化的核心要素,它們不是孤立的,。在進行這些基礎數(shù)據(jù)制作時,,所有的關(guān)鍵點都會加上必要標引,使得四大庫之間可以相互勾連跳轉(zhuǎn),,確保將來系統(tǒng)開發(fā)無障礙,。 另外,該“工程”又建有輔助工具庫,,包括《四庫全書總目提要》《康熙字典》《中華語典》等工具書,,還有類書《北堂書鈔》《藝文類聚》《初學記》《太平御覽》《冊府元龜》《永樂大典》《通典》等,它們都含有極其豐富的資料,,是每本典籍相互關(guān)系勾聯(lián)和非常重要的補充,。 三.豐碩的成果 北京掃葉公司這個團隊近水樓臺,是“中國古典數(shù)字工程”首批使用者,,成果斐然,。已經(jīng)陸續(xù)出版了《永樂大典索引》《全唐文新編》《宋詩紀事補正》《十三經(jīng)索引》《龍藏》等巨著,還有《中國古典數(shù)字工程叢書》系列,。關(guān)于這個系列,,其基礎就是上面講到的“作品庫”。當把每個人的作品歸集于其個人名下時,,就自然形成了這個人的集子,,數(shù)量以萬計,所以又俗稱“萬人集”,。 “萬人集”的首部,,是福建人民出版社出版的《子曰》,這是欒貴明先生利用“工程”數(shù)據(jù)豐富之便,,新編而成,。《論語》是由其弟子們纂輯而成的,共1.6萬字,。欒先生輯歷代典籍所引孔子言論語錄,,近20萬字,較《論語》原書新增約10倍,。其對思想學術(shù)界之貢獻之影向,很是巨大,。 仿照《子曰》體例,,又新編輯并由新世界出版社出版了《老子集》《列子集》《莊子集》《孫子集》《鬼谷子集》等。更有以太昊,、炎帝,、黃帝為代表的《太古帝王集》《炎帝集》《黃帝集》《太古臣民集》《夏商周三代帝王集》,把這些太古、上古,、中古人物的作品言論,,搜集整理成集,是前所未有的,。再配合同時出版的《皇甫謐集》,,以及從“日歷庫”衍生出來的《中華史表》,把華夏文明實實在在確立為六千五百年,,這必將引發(fā)世人對中國文化悠久歷史之再認識,。 北京掃葉公司主要出版成果 佛門禪宗達摩、惠能等六位祖師地位超然,,他們的思想言行有如繁星般散落在浩瀚的古籍中,,從沒有進行過系統(tǒng)整理。借助“工程”之利,,和“萬人集”的成功經(jīng)驗,,40萬字的《禪宗六祖師集》即將面世。 以上出版物既是掃葉公司的團隊成果,,也是自主版權(quán)的確立,。掃葉公司團隊成員在這個過程中也受益匪淺。他們長期在香港明報旗下的著名期刊《國學新視野》上,,發(fā)表自己的文章,,已有30多篇。這些文章的資料線索,、論點論據(jù),,都源自“中國古典數(shù)字工程”這片土壤。有了這片豐沃土壤,、全新方法,,我們才可以創(chuàng)建嶄新的古典文化整理、編輯,、出版,,甚至研究的新天地。 四.工程意義 “中國古典數(shù)字工程”利用電腦技術(shù),,使用格式化的方式,,實現(xiàn)徹底梳理1912年以前上朔至太古時代的全部中華文化古籍,夯實六千年中華文化的傳承體系,,盤清文化家底,。它致力于中國古代核心文化及文獻保存、整理,、研究,、傳播,、欣賞和繼承的大啟點項目。 “中國古典數(shù)字工程”通過梳理真正做到掌握中華文化研究話語的主導權(quán),,充分體現(xiàn)當代中國“軟實力”構(gòu)建主力軍身份,,也是占領全球中華文化研究制高全新出發(fā)點。它是提升中華影響力的戰(zhàn)略性工程,。 “中國古典數(shù)字工程”是全世界數(shù)量大,,質(zhì)量高且獨一無二的文化平臺,是關(guān)系傳統(tǒng)中華文化,、科學考古發(fā)掘,、文化創(chuàng)作,、歷史研究,、自然探索,、以至方針制定,、科學規(guī)化即人類文明領域研究的必備之基礎性典范事業(yè)工程,。 “中國古典數(shù)字工程”其價值將在《永樂大典》與《四庫全書》之上,?!肮こ獭笨梢蕴峁┤鏈蚀_的中國古典文獻全文本,,將對文化,、科學,、國家建設和安全,以及國民素質(zhì)的提高發(fā)揮重要作用,,對文化走向產(chǎn)生積極影響,。 “中國古典數(shù)字工程”是中華民族文化創(chuàng)史大業(yè),它是新時代賦予我們的歷史使命,,同時也符合新時代發(fā)展要求的新成果,。 |
|