UTF-16 說到 UTF 必須要提到 Unicode(Universal Code 統(tǒng)一碼),,ISO 試圖想創(chuàng)建一個全新的超語言字典,世界上所有的語言都可以通過這本字典來相互翻譯,??上攵@個字典是多么的復雜,關于 Unicode 的詳細規(guī)范可以參考相應文檔,。Unicode 是 Java 和 XML 的基礎,,下面詳細介紹 Unicode 在計算機中的存儲形式。 UTF-16 具體定義了 Unicode 字符在計算機中存取方法,。UTF-16 用兩個字節(jié)來表示 Unicode 轉化格式,,這個是定長的表示方法,不論什么字符都可以用兩個字節(jié)表示,,兩個字節(jié)是 16 個 bit,,所以叫 UTF-16。UTF-16 表示字符非常方便,,每兩個字節(jié)表示一個字符,這個在字符串操作時就大大簡化了操作,,這也是 Java 以 UTF-16 作為內存的字符存儲格式的一個很重要的原因。 UTF-8 UTF-16 統(tǒng)一采用兩個字節(jié)表示一個字符,,雖然在表示上非常簡單方便,但是也有其缺點,,有很大一部分字符用一個字節(jié)就可以表示的現在要兩個字節(jié)表示,,存儲空間放大了一倍,,在現在的網絡帶寬還非常有限的今天,這樣會增大網絡傳輸的流量,,而且也沒必要,。而 UTF-8 采用了一種變長技術,,每個編碼區(qū)域有不同的字碼長度。不同類型的字符可以是由 1~6 個字節(jié)組成。 UTF-8 有以下編碼規(guī)則:
幾種編碼格式的比較 對中文字符后面四種編碼格式都能處理,GB2312 與 GBK 編碼規(guī)則類似,,但是 GBK 范圍更大,,它能處理所有漢字字符,所以 GB2312 與 GBK 比較應該選擇 GBK,。UTF-16 與 UTF-8 都是處理 Unicode 編碼,,它們的編碼規(guī)則不太相同,相對來說 UTF-16 編碼效率最高,,字符到字節(jié)相互轉換更簡單,,進行字符串操作也更好。它適合在本地磁盤和內存之間使用,,可以進行字符和字節(jié)之間快速切換,,如 Java 的內存編碼就是采用 UTF-16 編碼。但是它不適合在網絡之間傳輸,,因為網絡傳輸容易損壞字節(jié)流,,一旦字節(jié)流損壞將很難恢復,想比較而言 UTF-8 更適合網絡傳輸,,對 ASCII 字符采用單字節(jié)存儲,另外單個字符損壞也不會影響后面其它字符,在編碼效率上介于 GBK 和 UTF-16 之間,,所以 UTF-8 在編碼效率上和編碼安全性上做了平衡,,是理想的中文編碼方式。 |
|