前言: 通過了解字符的存儲編碼,可以解決很多由編碼不匹配引起的問題,,比如網(wǎng)頁亂碼,、郵件亂碼,本文簡單扼要地闡明了ASCII編碼,、EBCDIC編碼、GB2312編碼,、Unicode編碼,、UTF-8編碼、以及Base64編碼,。 編碼: 在顯示器上看見的文字,、圖片等信息在電腦里面其實并不是我們看見的樣子,即使你知道所有信息都存儲在硬盤里,,把它拆開也看不見里面有任何東西,,只有些盤片。假設(shè),,你用顯微鏡把盤片放大,,會看見盤片表面凹凸不平,凸起的地方被磁化,,凹的地方是沒有被磁化,;凸起的地方代表數(shù)字1,凹的地方代表數(shù)字0,。硬盤只能用0和1來表示所有文字,、圖片等信息。那么字母”A”在硬盤上是如何存儲的呢,?可能小張計算機存儲字母”A”是1100001,,而小王存儲字母”A”是11000010,這樣雙方交換信息時就會誤解,。比如小張把1100001發(fā)送給小王,,小王并不認為1100001是字母”A”,可能認為這是字母”X”,,于是小王在用記事本訪問存儲在硬盤上的1100001時,,在屏幕上顯示的就是字母”X”。也就是說,,小張和小王使用了不同的編碼表,。小張用的編碼表是ASCII,ASCII編碼表把26個字母都一一的對應(yīng)到2進制1和0上,;小王用的編碼表可能是EBCDIC,只不過EBCDIC編碼與ASCII編碼中的字母和01的對應(yīng)關(guān)系不同,。一般地說,,開放的操作系統(tǒng)(LINUX 、WINDOWS等)采用ASCII 編碼,,而大型主機系統(tǒng)(MVS ,、OS/390等)采用EBCDIC 編碼。在發(fā)送數(shù)據(jù)給對方前,,需要事先告知對方自己所使用的編碼,,或者通過轉(zhuǎn)碼,使不同編碼方案的兩個系統(tǒng)可溝通自如,。 ANSI: 為了擴充ASCII編碼,,以用于顯示本國的語言,不同的國家和地區(qū)制定了不同的標(biāo)準(zhǔn),,由此產(chǎn)生了 GB2312, BIG5, JIS 等各自的編碼標(biāo)準(zhǔn),。這些使用 2 個字節(jié)來代表一個字符的各種漢字延伸編碼方式,稱為 ANSI 編碼,,又稱為"MBCS(Muilti-Bytes Charecter Set,,多字節(jié)字符集)"。在簡體中文系統(tǒng)下,,ANSI 編碼代表 GB2312 編碼,,在日文操作系統(tǒng)下,ANSI 編碼代表 JIS 編碼,,所以在中文 windows下要轉(zhuǎn)碼成gb2312,gbk只需要把文本保存為ANSI 編碼即可,。 不同 ANSI 編碼之間互不兼容,當(dāng)信息在國際間交流時,,無法將屬于兩種語言的文字,,存儲在同一段 ANSI 編碼的文本中。一個很大的缺點是,,同一個編碼值,,在不同的編碼體系里代表著不同的字。這樣就容易造成混亂,。導(dǎo)致了unicode碼的誕生,。其中每個語言下的ANSI編碼,都有一套一對一的編碼轉(zhuǎn)換器,,Unicode變成所有編碼轉(zhuǎn)換的中間介質(zhì),。所有的編碼都有一個轉(zhuǎn)換器可以轉(zhuǎn)換到Unicode,而Unicode也可以轉(zhuǎn)換到其他所有的編碼,。
其他編碼: GB2312 也是ANSI編碼里的一種,,是一個簡體中文字符集,由6763個常用漢字和682個全角的非漢字字符組成,。 GBK即漢字內(nèi)碼擴展規(guī)范,,K為擴展的漢語拼音中“擴”字的聲母,。有些漢字用五筆和拼音都打不出來,如:溙(五筆IDWI),,須調(diào)出GBK字符集才能打出這個字,。極品五筆中可右擊輸入法圖標(biāo),設(shè)置,,屬性中選GBK字符集,。極點五筆中可點擊工具條中相關(guān)圖標(biāo)進行轉(zhuǎn)換。 BIG5(大五碼)是一種繁體中文漢字字符集,。 為了提高Unicode的編碼效率,,于是就出現(xiàn)了UTF-8編碼。UTF-8可以根據(jù)不同的符號自動選擇編碼的長短,。比如英文字母可以只用1個字節(jié)就夠了。 UNICODE: 如上ANSI編碼條例中所述,,世界上存在著多種編碼方式,,在ANSi編碼下,同一個編碼值,,在不同的編碼體系里代表著不同的字,。在簡體中文系統(tǒng)下,ANSI 編碼代表 GB2312 編碼,,在日文操作系統(tǒng)下,,ANSI 編碼代表 JIS 編碼,可能最終顯示的是中文,,也可能顯示的是日文,。在ANSI編碼體系下,要想打開一個文本文件,,不但要知道它的編碼方式,,還要安裝有對應(yīng)編碼表,否則就可能無法讀取或出現(xiàn)亂碼,。為什么電子郵件和網(wǎng)頁都經(jīng)常會出現(xiàn)亂碼,,就是因為信息的提供者可能是日文的ANSI編碼體系和信息的讀取者可能是中文的編碼體系,他們對同一個二進制編碼值進行顯示,,采用了不同的編碼,,導(dǎo)致亂碼。這個問題促使了unicode碼的誕生,。
如果有一種編碼,,將世界上所有的符號都納入其中,無論是英文,、日文,、還是中文等,,大家都使用這個編碼表,就不會出現(xiàn)編碼不匹配現(xiàn)象,。每個符號對應(yīng)一個唯一的編碼,,亂碼問題就不存在了。這就是Unicode編碼,。 |
|