大話字符編碼發(fā)展史

dbn9981 2014-10-27

展開全文

ASCII碼
    ASCII碼于1968年提出,，用于在不同計算機硬件和軟件系統(tǒng)中實現(xiàn)數(shù)據(jù)傳輸標準化,，在大多數(shù)的小型機和全部的個人計算機都使用此碼,。ASCII碼劃分為兩個集合：128個字符的標準ASCII碼和附加的128個字符的擴充和ASCII碼。比較EBCDIC,。其中95個字符可以顯示,。另外33個不可以顯示。標準ASCII碼為7位,，擴充為8位,。　
    美國(國家)信息交換標準(代)碼,，一種使用7個或8個二進制位進行編碼的方案,，最多可以給256個字符

    從描述可以看出(ASCII碼)表示 ,只是對西文字符的一個集合. [a-z][A-Z] ,其中包括95個可見字符.和33個不可見字符. 不可見字符如 “\t:9:,”\n:10”,”\r:13” 可見字符如 “A: 65”,”0:48”

Java代碼

以A為例其字符編碼表內(nèi)容如下:
A 65 41
65就是A的ASCII碼的值.41代表65的16進制結(jié)果.

GB2312編碼

但是偉大的中國人來了.拿漢語來說.比較常見的新華字典中出現(xiàn)的漢字就有10000多個.
1990年出版的《辭海》有14872個漢字；1716年編撰的《康熙字典》有47035個漢字,；郭沫若生前曾根據(jù)日本朋友的估計,我國大約有60000多個漢字.

從這里可以看出以現(xiàn)在的編碼形式一個char可以表示65535個數(shù)字..連中國的漢字都放下也剛剛好.所以有些生僻字.電腦打不出來是情有可原.罪有可赦的呵呵.

于是聰明的我們或者他們.
中國國家標準總局發(fā)布了一系列的漢字字符集國家標準編碼,，統(tǒng)稱為GB碼.(GB是國標的意思.很土吧.呵呵)

最有影響的是于1980年發(fā)布的《信息交換用漢字編碼字符集基本集》，標準號為GB 2312-1980.

也就是我們現(xiàn)在常用的GB2312.

GB 2312是一個簡體中文字符集,，由6763個常用漢字和682個全角的非漢字字符組成,。其中漢字根據(jù)使用的頻率分為兩級。一級漢字3755個,，二級漢字3008個,。

由于字符數(shù)量比較大，GB2312采用了二維矩陣編碼法對所有字符進行編碼,。首先構(gòu)造一個94行94列的方陣,，對每一行稱為一個“區(qū)”，每一列稱為一個“位”,，然后將所有字符依照下表的規(guī)律填寫到方陣中,。這樣所有的字符在方陣中都有一個唯一的位置，這個位置可以用區(qū)號,、位號合成表示,，稱為字符的區(qū)位碼。如第一個漢字“啊”出現(xiàn)在第16區(qū)的第1位上,，其區(qū)位碼為1601,。因為區(qū)位碼同字符的位置是完全對應的，因此區(qū)位碼同字符之間也是一一對應的,。這樣所有的字符都可通過其區(qū)位碼轉(zhuǎn)換為數(shù)字編碼信息,。GB2312字符的排列分布情況見表1－4。

　　表1－4 GB2312 字符編碼分布表

分區(qū)范圍	符號類型
第01區(qū)	中文標點,、數(shù)學符號以及一些特殊字符
第02區(qū)	各種各樣的數(shù)學序號
第03區(qū)	全角西文字符
第04區(qū)	日文平假名
第05區(qū)	日文片假名
第06區(qū)	希臘字母表
第07區(qū)	俄文字母表
第08區(qū)	中文拼音字母表
第09區(qū)	制表符號
第10－15區(qū)	無字符
第16－55區(qū)	一級漢字（以拼音字母排序）
第56－87區(qū)	二級漢字（以部首筆畫排序）
第88－94區(qū)	無字符

GB2312字符在計算機中存儲是以其區(qū)位碼為基礎的,，其中漢字的區(qū)碼和位碼分別占一個存儲單元，每個漢字占兩個存儲單元,。由于區(qū)碼和位碼的取值范圍都是在1－94之間,，這樣的范圍同西文的存儲表示沖突。例如漢字‘珀’在GB2312中的區(qū)位碼為7174,，其兩字節(jié)表示形式為71,，74；而兩個西文字符‘GJ’的存儲碼也是71,74,。這種沖突將導致在解釋編碼時到底表示的是一個漢字還是兩個西文字符將無法判斷,。

這也就是一些操作byte來進行漢字操作的程序員經(jīng)常分出半個漢字的原因了!

GB2312編碼用兩個字節(jié)(8位2進制)表示一個漢字，所以理論上最多可以表示256×256=65536個漢字,。但這種編碼方式也僅僅在中國行得通,，如果您的網(wǎng)頁使用的GB2312編碼,，那么很多外國人在瀏覽你的網(wǎng)頁時就可能無法正常顯示，因為其瀏覽器不支持GB2312編碼,。當然,，中國人在瀏覽外國網(wǎng)頁(比如日文)時，也會出現(xiàn)亂碼或無法打開的情況,，因為我們的瀏覽器沒有安裝日文的編碼表,。

Big5編碼

表1－5　Big5字符編碼分布表

編碼范圍	符號類別
8140H－A0FEH	保留（用作造字區(qū)）
A140H－A3BFH	標點符號、希臘字母及特殊符號
A3C0H－A3FEH	保留（未開放用于造字區(qū)）
A440H－C67EH	常用漢字（先按筆劃,，再按部首排序）
C6A1H－C8FEH	保留（用作造字區(qū)）
C940H－F9D5H	非常用漢字（先按筆劃,，再按部首排序）
F9D6H－FEFEH	保留（用作造字區(qū)）

Big5編碼的分布如表1－5所示，Big5字符主要部分集中在三個段內(nèi)：標點符號,、希臘字母及特殊符號,；常用漢字；非常用漢字,。其余部分保留給其他廠商支持,。

　Big5編碼推出后，得到了繁體中文軟件廠商的廣泛支持,，在使用繁體漢字的地區(qū)迅速普及使用,。目前，Big5編碼在臺灣,、香港,、澳門及其他海外華人中普遍使用，成為了繁體中文編碼的事實標準,。在互聯(lián)網(wǎng)中檢索繁體中文網(wǎng)站,，所打開的網(wǎng)頁中，大多都是通過Big5編碼產(chǎn)生的文檔,。

Unicode編碼(統(tǒng)一用3個字節(jié))

應為編碼方式各自為政.如果有一種編碼,，將世界上所有的符號都納入其中,，無論是英文,、日文、還是中文等,，大家都使用這個編碼表,，就不會出現(xiàn)編碼不匹配現(xiàn)象。每個符號對應一個唯一的編碼,，亂碼問題就不存在了,。這就是Unicode編碼。

Unicode當然是一個很大的集合,，現(xiàn)在的規(guī)?？梢匀菁{100多萬個符號。每個符號的編碼都不一樣，比如,，U+0639表示阿拉伯字母Ain,，U+0041表示英語的大寫字母A，“漢”這個字的Unicode編碼是U+6C49,。

Unicode固然統(tǒng)一了編碼方式,，但是它的效率不高，比如UCS-4(Unicode的標準之一)規(guī)定用4個字節(jié)存儲一個符號,，那么每個英文字母前都必然有三個字節(jié)是0,，這對存儲和傳輸來說都很耗資源。

UTF-8編碼(根據(jù)編碼的長短來自動確定占用空間.)

為了提高Unicode的編碼效率,，于是就出現(xiàn)了UTF-8編碼,。UTF-8可以根據(jù)不同的符號自動選擇編碼的長短。比如英文字母可以只用1個字節(jié)就夠了,。

　　UTF-8的編碼是這樣得出來的,，以”漢”這個字為例：

　　“漢”字的Unicode編碼是U+00006C49，然后把U+00006C49通過UTF-8編碼器進行編碼,，最后輸出的UTF-8編碼是E6B189,。

Base64編碼

有的電子郵件系統(tǒng)(比如國外信箱)不支持非英文字母(比如漢字)傳輸， Base64編碼這是歷史原因造成的(認為只有美國會使用電子郵件?),。因為一個英文字母使用ASCII編碼來存儲,，占存儲器的1個字節(jié)(8位)，實際上只用了7位2進制來存儲,，第一位并沒有使用,，設置為0，所以,，這樣的系統(tǒng)認為凡是第一位是1的字節(jié)都是錯誤的,。而有的編碼方案(比如GB2312)不但使用多個字節(jié)編碼一個字符，并且第一位經(jīng)常是1,，于是郵件系統(tǒng)就把1換成0,，這樣收到郵件的人就會發(fā)現(xiàn)郵件亂碼。

為了能讓郵件系統(tǒng)正常的收發(fā)信件,，就需要把由其他編碼存儲的符號轉(zhuǎn)換成ASCII碼來傳輸,。比如，在一端發(fā)送GB2312編碼－>根據(jù)Base64規(guī)則－>轉(zhuǎn)換成ASCII碼,，接收端收到ASCII碼－>根據(jù)Base64規(guī)則－>還原到GB2312編碼,。