久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

怎樣區(qū)分中文漢字和日文漢字

 xine2009 2015-10-27
隨著GB2312時(shí)代的沒(méi)落和中國(guó)官方強(qiáng)制推行的GB18030的消沉,所有人都覺(jué)得,,無(wú)需置疑地Unicode一統(tǒng)天下的時(shí)代即將,,甚至已經(jīng)來(lái)臨了。

我也曾經(jīng)是,,現(xiàn)在仍舊是Unicode的推崇者。

推崇的理由很簡(jiǎn)單——在GB2312,ASCII的時(shí)代,,一個(gè)程序,、一個(gè)網(wǎng)頁(yè)當(dāng)中多種語(yǔ)言(除了英語(yǔ)之外的)無(wú)法并存。GB2312編碼的文章,,在BIG5下就是亂碼,;反之亦然。一篇文章中同時(shí)含有中文和日文,,或者中文和法文的事情,,更是難以做到。在程序中,,編碼的不一致就更可怕,。你用一個(gè)函數(shù)傳遞過(guò)去一句問(wèn)候,可是對(duì)方卻用了錯(cuò)誤的編碼來(lái)解析你這句問(wèn)候,,結(jié)果就是一堆亂碼,。這給開(kāi)發(fā)帶來(lái)了很大的不便。

那么,,Unicode,,在我眼里理所應(yīng)當(dāng)要解決這些問(wèn)題的。在Unicode里面,,所有語(yǔ)言的編碼互不沖突,,因此在同一篇文章里可以同時(shí)顯示所有語(yǔ)言——于是,我也毫不猶豫地在Windows編程中放棄了A結(jié)尾的API,,全部使用W結(jié)尾的API,;在網(wǎng)頁(yè)上編碼全都設(shè)置為UTF-8……

可是,事情真的是那樣嗎,?直到最近,,我才明白我想的太天真了。



仔細(xì)看看上面的兩個(gè)“直”字,,就會(huì)發(fā)現(xiàn)它們的不同——左邊是中文中的直,,右邊則是日文中的直。類似的漢字還有“才”“具”“畫(huà)”“角”“骨”等等,。

在Unicode制定過(guò)程中,,像上面這樣不同國(guó)家的同一個(gè)漢字(寫(xiě)法上稍有區(qū)別)是否應(yīng)當(dāng)編碼為同一個(gè)字時(shí), 引起了很大的爭(zhēng)議,。爭(zhēng)議的最終結(jié)果,,是上面兩個(gè)字被賦予同一個(gè)編碼。就這樣,,中文,、日文,、韓文中的所有漢字都被搜集整理到一起,填充到Unicode編碼的0×4E00到0×9FFF的龐大block當(dāng)中,。這些字按照字形排列,,不再區(qū)分哪個(gè)是中文字符,那個(gè)是日文字符,,哪個(gè)是韓文字符,,統(tǒng)一叫做“CJK Unified Ideographs”。

這樣做的問(wèn)題就是,,一個(gè)字符本身不具有了語(yǔ)言的屬性,,它到底是中文還是日文,取決于顯示它的字體,。例如上面的“直”字,,如果我們用中文字體(例如SimSun, SimHei)顯示它,就會(huì)得到圖中左邊的字,,如果用日文字體顯示它(如MS Gothic),,就會(huì)得到右邊日文的直。

這樣做會(huì)導(dǎo)致什么問(wèn)題呢,?

1,,無(wú)法利用文字的編碼來(lái)區(qū)分其屬于哪種語(yǔ)言的文字。
Unicode當(dāng)中的其他語(yǔ)言——例如阿拉伯語(yǔ),,都有其固定的編碼范圍,,例如阿拉伯語(yǔ)是0×0600到0×06FF。這樣一個(gè)字符處理軟件在處理到一個(gè)0×0600到0×06FF區(qū)間的字符時(shí),,它就知道現(xiàn)在在處理的是阿拉伯文,。可是漢字呢,?中日韓的漢字被無(wú)規(guī)律地混雜在同一個(gè)區(qū)間中,,是哪國(guó)文字以無(wú)法辨認(rèn)。

2,,一種字體無(wú)法同時(shí)表示中文,、日文和韓文
由于文字是利用字體顯示來(lái)表明它自己是哪國(guó)文字的,那么一種字體將無(wú)法同時(shí)表示中文和日文,。試想,,你在創(chuàng)造一種字體;當(dāng)你遇到“直”這個(gè)漢字時(shí),,你要么選擇中文寫(xiě)法,,要么選擇日文寫(xiě)法,兩者不可兼得,。

這會(huì)帶來(lái)什么后果呢,?輕一點(diǎn)的后果,,是中日文混用寫(xiě)成的文章中必須設(shè)置至少2種字體才能準(zhǔn)確表達(dá),因而在一些不支持混用字體的編輯器——例如Windows的記事本當(dāng)中要么中文字符變成了日語(yǔ),,要么日語(yǔ)字符變成了中文,。在日文Windows下瀏覽UTF-8中文網(wǎng)頁(yè)的朋友,,也發(fā)現(xiàn)那些中文字符都變成日文字符了吧(比如“骨”里面的橫折跑到了右面),?試想這樣“錯(cuò)字”連篇的中文能用在正式場(chǎng)合嗎?

嚴(yán)重一些的后果是什么呢,? 嚴(yán)重的后果就是,,目前很多軟件,尤其是西方歐美的字處理軟件都在試圖用同一種字體滿足所有語(yǔ)言的需要,。例如“Arial Unicode MS”字體,,就是一種非常常用的Unicode字體。很顯然,,在事實(shí)上這樣的字體在規(guī)定“直”字之類漢字的字模時(shí)也必須選擇中文寫(xiě)法還是日文寫(xiě)法,。

結(jié)果不過(guò)說(shuō)也知道——也許是日本在IT界的影響力高于中國(guó),也許是什么原因,,似乎Arial Unicode MS之類的字體中凡是中日寫(xiě)法不同的字體,,全都是日文寫(xiě)法。

換句話說(shuō),,一個(gè)使用Arial Unicode MS的老外,,即便他在用中文寫(xiě)一篇文章,即便他用的輸入法是中文拼音,,最后打出來(lái)的字符卻全都是日文漢字,。 他如果是個(gè)在學(xué)習(xí)中文的人,他學(xué)到的將是這些日文漢字,。更甚之,,如果將來(lái)這些所謂的“標(biāo)準(zhǔn)Unicode字體”一統(tǒng)天下,宋體,、黑體沒(méi)落的時(shí)候,,中國(guó)人的電腦中的中國(guó)漢字也會(huì)不知不覺(jué)地被日本漢字取代,用電腦學(xué)習(xí)的小孩子們也會(huì)把電腦上出現(xiàn)的日本漢字當(dāng)作漢字的正確寫(xiě)法,。
許多人也許會(huì)想:一定要和日本競(jìng)爭(zhēng),,爭(zhēng)取讓標(biāo)準(zhǔn)的Unicode字體里的漢字使用中文漢字——現(xiàn)在不是爭(zhēng)不爭(zhēng)的問(wèn)題,問(wèn)題是,,既然中文日文中的“直”不是完全相同的漢字,,為什么不在制定其編碼階段就把它們分開(kāi)呢?

我不知道Unicode是否制定了完全把中日韓三種語(yǔ)言孤立開(kāi)的版本,;我只知道目前最流行的Unicode是像上面這樣的,。 使用Unicode的諸位,,請(qǐng)務(wù)必提高警惕。

補(bǔ)充:并不是所有中日文里類似的漢字都像“直”字一樣被編為同一個(gè)編碼,,例如“步”和“歩”就被分別編碼了,。但是這樣的結(jié)果是,有的漢字被編為同一個(gè)編碼,,有的卻沒(méi)有,,更加混亂了。 
 

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多