英文是世界上最普及通用的拼音文字,當前的計算機都是以它作為基礎(chǔ)語言的,。中文(漢字)是世界上使用人數(shù)最多的象形文字,,它最古老而獨特,一度曾被認為不適于信息處理而必須淘汰,,后來卻發(fā)現(xiàn)它更為有效,,將是未來應(yīng)用最廣的。我們研究比較這兩種文字,,目的是:進一步明確漢字的優(yōu)缺點以便揚長避短,,讓漢字也能作為計算機的基礎(chǔ)語言,創(chuàng)造出真正的漢字電腦。本文將從兩方面進行比較研究,。性能上的比較會使我們堅信漢字的優(yōu)越性,,結(jié)構(gòu)上的比較將幫助我們找到把漢字植根于電腦的方法。 甲,、性能上的比較: 壹,、漢字的短處 一般都認為,英文只要學會26個字母及相應(yīng)的音素,,會拼音,,就學會了讀寫,,不是文盲了,,所以學文化很容易,花一個月的工夫就夠了,。中文則不那么簡單,,至少要學會幾千個方塊漢字。而每個字形狀復(fù)雜,,沒有確切的讀音信息,,且一字多音,一音多字,,即所謂漢字有“三多五難”(字數(shù)多,,筆畫多,讀音多,;難認,、難讀、難寫,、難記,、難用)。中國孩子要花6~12年的時間學漢字,,太落后了,,以至連魯迅都說“漢字不滅,中國必亡”,。于是從二十世紀三十年代起開始推廣拼音新文字,,據(jù)試驗,也只要個把月工夫,,就可以寫信了,。 事實當然不完全象上面說的。中國兒童在中小學里并不是只學漢字,,而拼音文字也不是只要一個月工夫就可學好的,。學幾天拼音,能拼出幾句中國話,別人看了,,百分之七八十都能猜出大意,,這十可能的。但說要能基本掌握一種文字,,這是不可能的,。只要想一想,方言重的人學普通話,,中國人學英文有多么困難,,有些人花幾年幾十年時間都學不會,就可以明白了,。說英語的人,,學英文也同樣不容易。英語專業(yè)自學考試課本《綜合英語I(1)》第4課是美國著名演員悉尼談他學英文的故事,。他花了半年工夫跟人學讀英文報紙,,以后還經(jīng)常練習,才學會念臺詞,。 分析起來,,漢字是由30種左右的筆畫(遠比英文字母26*2=52種少)組成的,先組成200~600種字根(字元,、偏旁,、部首,相當于英文的字干,、前綴,、后綴),再由它們組成漢字,。漢字對應(yīng)英文字,,漢字字典收字最多的是《中華字海》,,達85000個,,而學生用英文小字典中的英文字都在2萬以上?!缎掠h字典》收字已達80000,,英文字總數(shù)應(yīng)遠遠超過漢字數(shù)目。 漢字唯一的缺點是,,缺乏讀音信息,,所以有時候會懂一個字的意義,而讀不出或讀不準發(fā)音,。英文的字母或字母組與音素也不是一一對應(yīng),,在諸多拼音文字中,,發(fā)音規(guī)則復(fù)雜,也會讀錯,,不過比漢字要好得多,。漢字只有近一半有聲旁(80%有偏旁,其中一半以上是聲旁),。漢語只有417個音節(jié)(1369個不同的音調(diào)節(jié)),,84%的音節(jié)有聲旁,但只有2成聲旁是唯一的,,8成有2個以上不同形的聲旁,,甚至有10~29個不同的聲旁。因為漢語音節(jié)總數(shù)只有400來個,,每個平均有3個聲旁,,只要認識1000來個聲旁,如果準許“秀才認字讀半邊”,,則所有字就都可以讀得出了,。但問題是有一半多漢字的偏旁不是聲旁,,硬要“讀半邊”就讀錯了,。非關(guān)鍵字讀錯了不影響交流,多數(shù)人長期錯讀,,甚至會改變該字的讀音,。所以我提議讓“讀半邊”合法化,同時盡量減少多音字,,降低錯讀率,,提高漢字的語音信息量。以前的文字改革只在簡化字形上下工夫,,沒有在讀音上動手術(shù),。我覺得在這方面也應(yīng)該有文章可做,準備在另一個地方討論,。 貳,、漢字的優(yōu)勢 除了上面這個短處外,其他都是漢字占優(yōu)勢,。在漢字輸入瓶頸解決之前,,認為漢字不適于信息處理,而現(xiàn)在看得出來的以下優(yōu)點,,主要的是第一條,、第三條,反而是在信息處理中更能顯出其優(yōu)勢: ?、?漢字含的信息量大,,效率高,。計算信息量的大小有一個數(shù)學函數(shù):熵H=-ΣPilog2Pi,這里Pi是事件集合中事件i的出現(xiàn)概率,。把漢字和英文字母作為各自的事件集合,,其信息量分別為9.71和4.03。雖然漢字高出英文一倍以上,,但將幾千漢字和幾十個字母作比較是不恰當?shù)?。對詞的概率分布進行計算。漢字詞的信息量為11.46,,英文詞(字)則為10.0,,不過漢字詞的劃分還是有人為的音素。最形象的比較是:在聯(lián)合國的同樣內(nèi)容的文件中,,中文的總比英文的薄得多,。隨便拿一本中英對照的書翻一翻,都是英文部分比中文部分厚得多。我進行過統(tǒng)計,,一般每頁的行數(shù),,中、英文是一樣的,;每行的漢字數(shù)是英文字母數(shù)的一半,;在電腦存儲時,一個漢字正好要占兩個字母的空間,。統(tǒng)計結(jié)果是,,英文的頁數(shù)是中文的1.4倍。在電腦中,,英文文件要比同內(nèi)容的中文文件大1.4倍,。這樣,中文的存儲效率高,,傳輸和處理的速度也就快,。 ②.閱讀中文比英文快,,用中文進行思考快,。按上條可知,用同等大小的字體排印的印刷品,,英文的行數(shù)比中文行數(shù)多1.4倍,。另外,英文是拼音文字,,必須把線性排列的字母在腦子里拼成聲音才能理解,。而漢字是整體的:閱讀時多不必把它化成聲音,常常掠一下字形就了解其含義,,讀得快時被形容成一目十行,。所以閱讀同樣內(nèi)容的文件,,速度應(yīng)快1.4倍以上,用中文進行思考也會快這么多(有文章說達1.6倍),。趙元任先生早就做過試驗,,用英文背九九表(乘法口訣)要花45秒,而用中文只要30秒,,快一倍半,。 由于閱讀中文快,用中文思考快,,想必電腦識別,、理解中文也應(yīng)該快。單從中文存儲,、傳輸效率高這點看就應(yīng)該如此,,雖然尚未見到試驗報告。深入分析中文的這種高效率的根源,,是在于漢字的雙字節(jié)代碼,。因為漢字不能拆分為字母來顯示,只能為每個漢字置一個顯示字模和一個兩字節(jié)的代碼(內(nèi)碼),。如果也為每個英文字置一個代碼,,常用的(大學生用字典)英文字大約有1~2萬個,所以也可以用兩個字節(jié)的代碼,。英文字平均長度是4.64個字母,,用雙字節(jié)代碼來存儲,,就可壓縮一倍以上,,這樣一來,英文的存儲傳輸效率反過來成為中文的1.4倍,。但是中文的印刷頁比英文少,,閱讀快等客觀屬性,是不能用電腦存儲機制的改變來改變的,。 ③.英文的縮略語比起中文的簡稱來,,難記,易搞混,。隨著社會的發(fā)展,,概念,因而相應(yīng)的名詞也增多,,專有名詞也越來越長,,使用起來太笨拙。英文中就用組成該專有名詞的英文字首字母形成的縮略詞來代替,,中文中則采用詞的首字形成簡稱,。因為漢字有幾千,,簡稱不易重復(fù),詞短,,音節(jié)少,,容易推出其全稱。英文首字母只有26種,,所以縮略詞易重復(fù),,詞雖短,個別情況下讀音卻不一定短,,由縮略詞難以推出正確的全稱,,容易搞錯。我隨機抽查了一本《英漢縮略語詞典》當中的532個詞條,,無重復(fù)釋義的只占67%,,即三分之一縮略詞有2個以上的釋義(全稱),10%以上的縮略詞有5個以上的釋義,,只能在特定環(huán)境,、特定上下文中才有確定的含義。奇怪的是,,現(xiàn)在中文報刊,,特別是計算機報刊,也喜歡夾用英文縮略詞,,一篇文章中這種縮略詞太多,,何況有許多縮略詞是新誕生的,沒有詞典可查,,也猜不透它的含義,,全篇文章就看不懂了。為什么不使用中文簡稱呢,? ④.漢字能無限的發(fā)展,,學漢字能提高智商。中文的簡稱與多字詞無形式上的差別,,直接變成普通詞,。英文縮略詞則難以變?yōu)槠胀ㄔ~匯,因為不是任何字母組合都可以成為有一定讀音的英文字,,而一定長度內(nèi)的英文字數(shù)是有限的,。電腦源程序中常出現(xiàn)很長的夾雜著大寫的英文字,很笨重,,只能在這特定情況下用,。縮略詞的混亂上面已說過,,這一切表明,,英文發(fā)展進程中已出現(xiàn)了困難,。中文就沒有類似情況,創(chuàng)造新詞和新字的空間還很大,。交談時,,新名字要求用短音節(jié),萬一有歧義,,可補充說明,,而寫到紙面上,則總可以用不同的詞或字。人類的感官接受信息最多的是視覺,,其次是聽覺,。聽覺可區(qū)別聲波的線性序列,視覺能鑒別形狀的平面分布,。文字的作用是把聽覺信號轉(zhuǎn)變?yōu)橐曈X信號,,本應(yīng)發(fā)展提高。但拼音文字維持信號的線性次序,,是限制了自己的提高,。據(jù)研究,幼兒早學漢字,,可以提高智商(參見《漢字優(yōu)勢與幼兒教育》),。我們的左腦管語言和邏輯思維,使用字母線性排列的拼音文字時,只使用左腦。使用中文就要同時使用管形象思維的右腦,,因為左右腦一起用,,所以效率高,智商也得到發(fā)展,。 ⑤.漢字和中文的藝術(shù)表現(xiàn)力強,。只有漢字有發(fā)達的書法藝術(shù),拼音文字幾乎沒有,。中文的詩詞歌賦等文學藝術(shù)形式,,英文中沒有哪種形式可以比得上,有些形式,,例如對聯(lián)、歇后語,、字謎等,,英文中甚至沒有類似的。有人認為,,中國之所以沒有得到諾貝爾文學獎,,不是沒有高水平得作品,而是因為難以把它們翻譯成英文,。英文譯本不能傳達中文種包含的絢麗色彩,,她所有的獨特韻味都被抹殺了,,這不無道理。 乙,、結(jié)構(gòu)的比較 文字是記錄語言的,。記錄下來的語言就成為文章。由它的最小的單位組織成的文章的過程中,,有許多不同的層次,。1985年我首次按這種結(jié)構(gòu)層次,對中英文進行了比較,,得出以下的對比表: 文種 第0級(元素) 第1級 第2級 第3 西文(拼音) 音素和形素(字母)一一對應(yīng),,數(shù)目少 音節(jié),無顯界 詞(字),,有顯界 句 ?。常啊叮白笥遥酗@界 中文(拼形) 形素(字元)和聲音非一一對應(yīng),,數(shù)目多 漢字,,有顯界 詞(2字以上者) 句 約100~600個,無顯界 無顯界 這里所說的有無顯界,,是指能否明顯而自然的分開,。漢字的字元以及多字詞的劃分會因人而異,英文的音節(jié)的劃分也有類似情況,,故定為無顯界,。這張表中,劃在同一級中的兩種文字,,都是有顯界對無顯界,,現(xiàn)在看來是很不對的。現(xiàn)改為: 文種 第0級有顯界 第1級無顯界 第2級有顯界 第3級無顯界 第4級有顯界 英文 字母共52種,,熵=4.03 字干,、前綴、后綴 英文字,,熵=10.0 詞組 句 中文 筆畫約30種,,熵=3.43 字根、偏旁,、部首 漢字,,熵=9.7 多字詞 句 這張表的對應(yīng)關(guān)系是很自然很明顯的。只有漢字的筆畫,,過去研究得較少,。對于我們中國人,筆畫的劃分是很清楚而一定的。不過筆畫的分類歸屬很不統(tǒng)一,。簡單的幾乎只劃分為5種:橫豎點撇捺,,并已用在漢字字典的檢索和電腦漢字筆畫碼輸入法中。實際上漢字筆畫有30多種,。表中所列的漢字筆畫的熵=3.43,,是我把筆畫分為25種時統(tǒng)計計算的。為了使筆畫數(shù)接近英文字母數(shù),,我把一些筆畫歸并了,,這使信息量降低了。這樣做不一定正確,。關(guān)于筆畫的研究,,我準備在另一篇文章中討論。另外,,關(guān)于發(fā)音,,英文字是多音節(jié)的。漢字是單音節(jié)的,,關(guān)于漢字的發(fā)音信息,,亦準備另寫一篇文章討論。 現(xiàn)在按這張對比表,,討論中英文的不同之處,。英文的基本元素是字母,中文的基本元素是筆畫,,筆畫遠比字母簡單,。字母組成英文字時,字母是線形排列的,。而筆畫組成漢字時,,筆畫是在平面的兩個方向上按一定規(guī)則排列。利用空間的不同排列,,簡單的筆畫組成了含信息量大,,易于快速閱讀和準確辯識的漢字。這是漢字優(yōu)勢所在之處,。我們要研究漢字直接植根于電腦的方法,,要研制功能更強的漢字電腦,就該從這里著手,。研究漢字的筆畫,,總結(jié)筆畫形成平面漢字的規(guī)律,使筆畫直接組成漢字,,不要龐大的字模字庫。 按上一節(jié)第②點后面的分析,,完全排除字庫加編碼的方法,,也是不明智的,。漢字的平均筆畫數(shù)為7.4,遠比英文字的平均長度4.64長,。如果完全用筆畫序列來存儲漢字,,則在存儲和傳輸效率上,將會比英文慢7.4/4.64=1.6倍,。而且用筆畫碼逐碼輸入,,其速度也將會變得不能容忍。所以應(yīng)該有一個常用字庫,,不過其顯示字模是由筆畫組成的,,所以占內(nèi)存很小。原來開發(fā)的各種編碼輸入法仍然有用,,只是常用字庫可以只有一級字庫那么大,,各種輸入法更可以簡化,降低重碼率,。至于對使用頻率很小的非常字,,則用筆畫輸入,并直接以筆畫碼或字元碼存儲,。這樣雙管齊下,,漢字就能保持高效率和高活力,能適應(yīng)一切情況和未來的發(fā)展,。 |
|