什么是字節(jié)序,？

靠邊一站 2023-08-29 發(fā)布于吉林

展開全文

計算機只理解二進制,。這意味著 0 和 1 構成了計算機使用的語言。

一位是 0 或 1 ,。8 位組成一個字節(jié),。從這些簡單的部分，我們可以構建極其復雜的連接計算機系統(tǒng)來渲染視頻,、顯示來自世界各地的文本并計算極其復雜的算法,。

一些數(shù)據(jù)（一些英文字符，如 a,、e,、i、o 和 u）可以用一個字節(jié)表示,，但有些數(shù)據(jù)需要多個字節(jié)來表示,。

但是字節(jié)順序是計算機如何讀取和理解字節(jié)的基本部分。

字節(jié)序（英文：byte-order 或Endianness）是指計算機存儲和傳輸鏈路中,，多字節(jié)數(shù)據(jù)的字節(jié)排列順序,。

Endianness一詞來源于Jonathan Swift的小說《格列佛游記》，小說中兩派人因為吃煮雞蛋先打破小頭還是大頭爭論不休,。丹尼·科恩(Danny Cohen)在1980年發(fā)表的一篇互聯(lián)網(wǎng)實驗筆記中,，將大端和小端這兩個術語引入計算機科學，用于描述字節(jié)排列順序,。

多字節(jié)數(shù)據(jù)字節(jié)間排列方式規(guī)則如下:

大端序（Big-Endian）將數(shù)據(jù)的低位字節(jié)存放在內存的高位地址,，高位字節(jié)存放在低位地址。這種排列方式與數(shù)據(jù)用字節(jié)表示時的書寫順序一致,，符合人類的閱讀習慣,。除了計算機的內部處理，其他的場合幾乎都是大端字節(jié)序,，比如網(wǎng)絡傳輸和文件儲存,。

小端序（Little-Endian），將多字節(jié)數(shù)據(jù)的低位放在較小的地址處,，高位放在較大的地址處,，則稱小端序,。小端序與人類的閱讀習慣相反，但更符合計算機讀取內存的方式,，因為CPU讀取內存中的數(shù)據(jù)時,，是從低地址向高地址方向進行讀取的。

舉個具體的例子：

十六進制數(shù)0x12345678,如果按大端序存儲,，沿內存增長方向順序存放,。

如果按小端序存儲，將得到下圖結果,。

這里要注意,，小端序每個字節(jié)內部還是按大端序存儲的。也就是說,，0x12345678的小端序存儲為0x78563412,，而不是0x87654321

計算機內部字節(jié)序往往由CPU架構決定。許多歷史和現(xiàn)存的處理器采用大端內存表示,。有些混合使用兩種格式,，稱為中端、混合端或pdp-11端,。

lx86,，MOS Technology 6502，Z80,，VAX,，PDP-11等處理器為Little endian。

lMotorola 6800,，Motorola 68000,，PowerPC 970，System/370,，SPARC（除V9外）等處理器為Big endian,。

lARM, PowerPC (除PowerPC 970外), DEC Alpha, SPARC V9, MIPS, PA-RISC and IA64的字節(jié)序是可配置的。

為什么小端序不太好理解,，還一定要用呢,？據(jù)說是因為計算是從低位開始的，CPU采用小端序的方式處理數(shù)據(jù)效率更高,，因此一般計算機內部處理很多都選擇小端字節(jié)序,。但是人類更容易理解大端序，網(wǎng)絡傳輸和文件儲存往往采用大端序,。其實一般用戶不用太關心字節(jié)序的問題，程序員則要關心計算機內部字節(jié)序和外部字節(jié)序之間的轉換問題,。

你有沒有注意過,，最樸實的文本編輯器在保存文件時候,，也可以選擇不同的編碼。

五種編碼相信大家都挺熟悉了,。我們在文本編輯器中寫入“讓我們測試一下吧”幾個漢字,，然后分別存為這五種編碼。然后用winhex打開,。

比較一下上圖UTF16-LE和UTF16-BE兩個文件,，文件頭分別是FFFE和FEFF。因為是UTF-16編碼,，每個漢字占兩個字節(jié),，存在字節(jié)序問題?？瓷蠄D里面的字節(jié)位置,，UTF-16LE是小端序，UTF-16BE是大端序

還有一個奇怪編碼,，就是這個”帶有BOM的UTF-8”,。BOM（byte order mark）實際上就是字節(jié)序標記的意思。但是我們都知道UTF-8不存在字節(jié)序問題,，為什么還要加BOM呢,？BOM是為 UTF-16 和 UTF-32 準備的，用于標記字節(jié)序（byte order）,。微軟在 UTF-8 中使用 BOM 是因為這樣可以把 UTF-8 和 ASCII 等編碼明確區(qū)分開,，但這樣的文件在 Windows 之外的操作系統(tǒng)里會帶來問題?！窾TF-8」和「帶 BOM 的 UTF-8」的區(qū)別就是有沒有 BOM,。即文件開頭有沒有FFBBEF。

大家如果仔細看會發(fā)現(xiàn),，同樣的數(shù)據(jù),，如果解析選擇的字節(jié)序和數(shù)據(jù)不匹配就會是亂碼，可見數(shù)據(jù)就在那里,，怎么解讀數(shù)據(jù)很重要,。

再看一個例子：

現(xiàn)代PC絕大多數(shù)采用小端字節(jié)序，我們一般成為主機字節(jié)序,。而TCP/IP協(xié)議在RFC1700中規(guī)定使用“大端”字節(jié)序為網(wǎng)絡字節(jié)序,，這與具體的CPU類型、操作系統(tǒng)等無關,，從而可以保證數(shù)據(jù)在不同主機之間傳輸時能夠被正確解釋,。

當多臺電腦進行通信時，如果雙方字節(jié)序不匹配,，會造成通信解析錯誤,。因此如果高于8位的數(shù)據(jù)要進行網(wǎng)絡傳輸,，需要先將數(shù)據(jù)轉換為大端再進行發(fā)送，對于接收到的數(shù)據(jù),，根據(jù)接收機器自身的存儲方式進行大小端轉換后再使用,。

BSD Socket提供了封裝好的轉換接口，包括四個函數(shù),，分別是htons（把unsigned short類型從主機序轉換到網(wǎng)絡序）,、htonl （把unsigned long類型從主機序轉換到網(wǎng)絡序）、ntohs （把unsigned short類型從網(wǎng)絡序轉換到主機序）和ntohl （把unsigned long類型從網(wǎng)絡序轉換到主機序）,。

這里我們看一個wireshark的抓到的ICMP協(xié)議報文,。其中Identifier（BE）、Identifier（LE）,、Sequence number(BE),、Sequence number(LE)分別代表什么含義呢？

Identifier（BE）指的是標示符（大端順序）：1（0x0100）,；

Identifier（LE）指的是標示符（小端順序）：256（0x0100）,；

Sequence number(BE)指的是序列號（大端順序）：31（0x001f）

Sequence number(LE)指的是序列號（小端順序）：7936(0x1f00)

為什么要搞這么復雜呢？原因是wireshark考慮到window系統(tǒng)與Linux系統(tǒng)發(fā)出的ping報文（主要指ping應用字段而非包含IP頭的ping包）字節(jié)順序不同,，windows發(fā)出的報文是小端序LE,，Linux為大端序BE），所以wireshark這里給出了兩種字節(jié)序數(shù)據(jù)解析結果,，實際上原始數(shù)據(jù)都是一樣的,。

實驗：判斷主機字節(jié)序的方法

確定一個多字節(jié)的值（下面使用的是4字節(jié)的整數(shù)），將其寫入內存（即賦值給一個變量）,，然后用指針取其首地址所對應的字節(jié)（即低地址的一個字節(jié)）,，判斷該字節(jié)存放的是高位還是低位，高位說明是大端序,，低位說明是小端序,。

#include

int main

{

unsigned int x = 0x12345678;

char *c = (char*)&x;

if (*c == 0x78) {

printf("Little endian");

} else {