這篇文章主要說(shuō)一下linux對(duì)于分段機(jī)制的處理,雖然都說(shuō)linux不使用分段機(jī)制,,但是分段機(jī)制屬于CPU的一個(gè)功能,,即使linux不使用,也要通過(guò)代碼想辦法繞過(guò)它,,況且linux也使用到了分段機(jī)制中的某些功能,。
分段機(jī)制主要功能只有兩點(diǎn):
對(duì)于linux內(nèi)核來(lái)說(shuō),,它僅僅只使用了分段機(jī)制中的權(quán)限控制功能,具體我們可以一起看看是如何做的,。
CPU的段寄存器在CPU中,,跟段有關(guān)的CPU寄存器一共有6個(gè):cs,ss,,ds,,es,fs,,gs,,它們保存的是段選擇符。而同時(shí)這六個(gè)寄存器每個(gè)都有一個(gè)對(duì)應(yīng)的非編程寄存器,,它們對(duì)應(yīng)的非編程寄存器中保存的是段描述符,。系統(tǒng)可以把同一個(gè)寄存器用于不同的目的,方法是先將其寄存器中的值保存到內(nèi)存中,,之后恢復(fù),。而在系統(tǒng)中最主要的是cs,ds,,ss這三個(gè)寄存器,。
在段寄存器中主要保存的是段選擇符,,它的長(zhǎng)度是16位,,具體如下:
段選擇符主要用途就是根據(jù)段索引號(hào)和TI標(biāo)志,去到GDT或者LDT中找到這個(gè)選擇符對(duì)應(yīng)的段描述符,比如我們?cè)趦?nèi)核代碼中常見(jiàn)的__KERNEL_CS,,__KERNEL_DS,,__USER_CS,__USER_DS就是段選擇符,,它們并不是段描述符,。
全局描述符表與局部描述符表全局描述符表和局部描述符表保存的都是段描述符,記住要把段描述符和段選擇符區(qū)別開(kāi)來(lái),,保存在寄存器中的是段選擇符,,這個(gè)段選擇符會(huì)到描述符表中獲取對(duì)于的段描述符,然后將段描述符保存到對(duì)應(yīng)寄存器的非編程寄存器中,。 系統(tǒng)中每個(gè)CPU有屬于自己的一個(gè)全局描述符表(GDT),,其所在內(nèi)存的基地址和其大小一起保存在CPU的gdtr寄存器中。其大小為64K,,一共可保存8192個(gè)段描述符,,不過(guò)第一個(gè)一般都會(huì)置空,也就是能保存8191個(gè)段描述符,。第一個(gè)置空的原因是防止加電后段寄存器未經(jīng)初始化就進(jìn)入保護(hù)模式而使用GDT,。 而對(duì)于局部描述符表,CPU設(shè)定是每個(gè)進(jìn)程可以創(chuàng)建屬于自己的局部描述符表(LDT),,當(dāng)前被使用的LDT的基地址和大小一起保存在ldtr寄存器中,。不過(guò)大多數(shù)用戶(hù)態(tài)的liunx程序都不使用局部描述符表,所以linux內(nèi)核只定義了一個(gè)缺省的LDT供大多數(shù)進(jìn)程共享,。描述這個(gè)局部描述符表的局部描述符表描述符保存在GDT中,。 對(duì)于表中的段描述符我們簡(jiǎn)單說(shuō)幾個(gè)特別的:
段描述符段描述符就是保存在全局描述符表或者局部描述符表中,,當(dāng)某個(gè)段寄存器試圖通過(guò)自己的段選擇符獲取對(duì)于的段描述符時(shí),會(huì)將獲取到的段描述符放到自己的非編程寄存器中,,這樣就不用每次訪(fǎng)問(wèn)段都要跑到內(nèi)存中的段描述符表中獲取,。
數(shù)據(jù)段描述符: 表示這個(gè)段描述符代表一個(gè)數(shù)據(jù)段,這種描述符可以放在GDT或者LDT,。該描述符的S標(biāo)志位為1,,也就是非系統(tǒng)段,。需要注意內(nèi)核數(shù)據(jù)段屬于數(shù)據(jù)段描述符,并不屬于系統(tǒng)段描述符,。 代碼段描述符: 表示這個(gè)段描述符代表一個(gè)數(shù)據(jù)段,,這種描述符可以放在GDT或者LDT。該描述符的S標(biāo)志位為1,,也就是非系統(tǒng)段,。需要注意內(nèi)核代碼段屬于代碼段描述符,并不屬于系統(tǒng)段描述符,。 系統(tǒng)段描述符: 此描述符代表一個(gè)系統(tǒng)段,,Type的值代表了是哪一種系統(tǒng)段,S標(biāo)志位為0,。其中以下兩種都是系統(tǒng)段 局部描述符表描述符(LDTD,,系統(tǒng)段描述符的一種): 此種描述符代表一個(gè)包含有LDT的段,它只能保存在GDT中,,相應(yīng)的Type為2,,S為0。 任務(wù)狀態(tài)段描述符(TSSD,,系統(tǒng)段描述符的一種): 這個(gè)描述符代表一個(gè)任務(wù)狀態(tài)段(TSS),,這個(gè)段用于保存部分處理器寄存器的內(nèi)容(內(nèi)核態(tài)棧地址和IO許可權(quán)限位),它只保存在GDT中,,根據(jù)相應(yīng)的進(jìn)程是否正在CPU上運(yùn)行,,其Type字段的值分別為11或9.這個(gè)描述符S標(biāo)志為0。 在所有段描述符中可能大家最關(guān)心的就是內(nèi)核代碼段描述符和內(nèi)核數(shù)據(jù)段描述符以及用戶(hù)代碼段描述符和用戶(hù)數(shù)據(jù)段描述符了,,這里也具體說(shuō)說(shuō)這幾個(gè)描述符,,它們的構(gòu)成如下: 可以看出來(lái)它們的S都是1,都是非系統(tǒng)段,,注意并不是內(nèi)核用的段就是系統(tǒng)段,,這里的系統(tǒng)段的區(qū)分不是我們用戶(hù)態(tài)和內(nèi)核態(tài)的這種劃分。所有的用戶(hù)進(jìn)程都是使用同一個(gè)用戶(hù)代碼段描述符和用戶(hù)數(shù)據(jù)段描述符,,它們是__USER_CS和__USER_DS,,也就是每個(gè)進(jìn)程處于用戶(hù)態(tài)時(shí),它們的CS寄存器和DS寄存器中的值是相同的,。當(dāng)任何進(jìn)程或者中斷異常進(jìn)入內(nèi)核后,,都是使用相同的內(nèi)核代碼段描述符和內(nèi)核數(shù)據(jù)段描述符,它們是__KERNEL_CS和__KERNEL_DS,。這里要明確記得,,內(nèi)核數(shù)據(jù)段實(shí)際上就是內(nèi)核態(tài)堆棧段。 還可以看出這幾個(gè)段的BASE都是0x00000000,,LIMIT都是0xfffff,,并且G為1,。也就是說(shuō),用戶(hù)代碼段,,用戶(hù)數(shù)據(jù)段,,內(nèi)核代碼段,內(nèi)核數(shù)據(jù)段這四個(gè)段它們的尋址地址都是0x00000000~0xffffffff,。也就是地址0到4G的大小,。這也形成了為什么所有進(jìn)程都可以使用同一個(gè)用戶(hù)代碼段和用戶(hù)數(shù)據(jù)段的條件。并且很清楚地可以看出,,內(nèi)核代碼段和內(nèi)核數(shù)據(jù)段都需要CPL為0時(shí)才能訪(fǎng)問(wèn),,而用戶(hù)代碼段和用戶(hù)數(shù)據(jù)段在CPL為0或者3時(shí)都可以訪(fǎng)問(wèn)。 再看看這4個(gè)段描述符對(duì)應(yīng)的段選擇符: 可以看出來(lái),,它們的TI為0,,表示都保存在全局段描述符表中??赡芸吹竭@里大家會(huì)有個(gè)疑問(wèn),,既然用戶(hù)段的RPL為3,那怎么去訪(fǎng)問(wèn)DPL為0的內(nèi)核段呢,,這就是linux精明的地方,,它就是禁止用戶(hù)態(tài)訪(fǎng)問(wèn)內(nèi)核態(tài)的數(shù)據(jù),但是內(nèi)核為用戶(hù)態(tài)開(kāi)了兩個(gè)小門(mén),,然用戶(hù)態(tài)能夠通過(guò)這兩個(gè)小門(mén)進(jìn)入到內(nèi)核態(tài)中,,這兩個(gè)小門(mén)就是系統(tǒng)調(diào)用與中斷和異常。
快速訪(fǎng)問(wèn)段描述符: 先看一下系統(tǒng)是如何將邏輯地址轉(zhuǎn)換為線(xiàn)性地址的: 邏輯地址是由段選擇符(16位) + 段內(nèi)偏移量offset(32位)得來(lái),。之前也說(shuō)到,,只有處于用戶(hù)態(tài),CS和DS寄存器中的值都是__USER_CS和__USER_DS,。只要處于內(nèi)核態(tài),,CS和DS寄存器中的值都是__KERNEL_CS和__KERNEL_DS。在我們編程過(guò)程中,,實(shí)際上提供的地址都是一個(gè)偏移量,,系統(tǒng)會(huì)自動(dòng)將這個(gè)偏移量與CS中的段選擇符進(jìn)行結(jié)合。也就是我們使用的邏輯地址實(shí)際上只使用了offset這一段,,段選擇符都為空,。之前也說(shuō)了這四個(gè)段描述符的BASE都為0x00000000,也得出當(dāng)邏輯地址通過(guò)這樣的分段機(jī)制轉(zhuǎn)為線(xiàn)性地址后,,實(shí)際上并沒(méi)有變化,,也就是邏輯地址=線(xiàn)性地址(其實(shí)這兩個(gè)地址都是offset的值)。 也可以看出來(lái),,每次進(jìn)行地址轉(zhuǎn)換時(shí)都要通過(guò)段描述符獲取段的基地址然后與偏移量運(yùn)算得到線(xiàn)性地址,,而段描述符是保存在內(nèi)存當(dāng)中的,這樣每次轉(zhuǎn)換難道就要訪(fǎng)問(wèn)一次內(nèi)存或者cache嗎,?當(dāng)然不是,,之前說(shuō)到一共有6種段寄存器,它們每個(gè)都有屬于自己的一個(gè)非編程寄存器,,專(zhuān)門(mén)用于存放現(xiàn)在的段描述符,,比如拿cs段寄存器說(shuō),cs寄存器存放的是段選擇符,,所以每次通過(guò)邏輯地址訪(fǎng)問(wèn)這個(gè)段里的內(nèi)容時(shí),,都要通過(guò)這個(gè)段選擇符與gdtr(段描述符保存在全局描述符表中)或者ldtr(段描述符保存在局部描述符表中)結(jié)合然后從內(nèi)存中得到對(duì)應(yīng)的段描述符,然后根據(jù)段描述符的BASE和LIMIT將邏輯地址轉(zhuǎn)換為線(xiàn)性地址,。如果進(jìn)行連續(xù)訪(fǎng)問(wèn)時(shí)(而且連續(xù)訪(fǎng)問(wèn)的概率非常高),,這樣的效率就非常低了,這個(gè)cs段寄存器對(duì)應(yīng)的非編程寄存器就是用于保存這個(gè)段描述符的,,這樣就不用每次都從內(nèi)存中獲取段描述符,,而是直接從這個(gè)CS對(duì)應(yīng)的非編程寄存器中獲取段描述符。
任務(wù)狀態(tài)段(TSS)任務(wù)狀態(tài)段的段選擇符保存在tr寄存器中,,內(nèi)核為每個(gè)CPU準(zhǔn)備了一個(gè)任務(wù)狀態(tài)段,,其主要保存的是當(dāng)前進(jìn)程的IO許可權(quán)限位和棧頂指針,其作用主要有兩個(gè):
TSS段的保存形式是一個(gè)tss_struct結(jié)構(gòu)體,,系統(tǒng)會(huì)將所有CPU的tss_struct結(jié)構(gòu)體組成一個(gè)init_tss數(shù)組的形式進(jìn)行保存,我們具體看一下tss_struct結(jié)構(gòu)體: struct tss_struct { /* * The hardware state: */ /* 存放寄存器的值的結(jié)構(gòu)體,,保存有棧頂指針SP寄存器的值 */ struct x86_hw_tss x86_tss; /* * The extra 1 is there because the CPU will access an * additional byte beyond the end of the IO permission * bitmap. The extra byte must be all 1 bits, and must * be within the limit. */ /* 當(dāng)前進(jìn)程的IO許可權(quán)限位 */ unsigned long io_bitmap[IO_BITMAP_LONGS + 1]; /* * .. and then another 0x100 bytes for the emergency kernel stack: */ /* 緊急內(nèi)核棧 */ unsigned long stack[64]; } ____cacheline_aligned; struct x86_hw_tss { u32 reserved1; u64 sp0; u64 sp1; u64 sp2; u64 reserved2; u64 ist[7]; u32 reserved3; u32 reserved4; u16 reserved5; u16 io_bitmap_base; } __attribute__((packed)) ____cacheline_aligned;
中斷或異常發(fā)生時(shí)的段切換其實(shí)發(fā)生段的切換有兩種情況,,一種是系統(tǒng)調(diào)用發(fā)生時(shí),一種是中斷或異常發(fā)生時(shí),,但是這兩種情況都大同小異,,這里我們只拿中斷異常發(fā)生的情況進(jìn)行說(shuō)明。 這里只說(shuō)明系統(tǒng)大多數(shù)發(fā)生的情況,,不討論個(gè)例,。假定當(dāng)前系統(tǒng)處于用戶(hù)態(tài)執(zhí)行代碼中,這時(shí)候各個(gè)段寄存器的值應(yīng)該是這樣的:
當(dāng)中斷或異常發(fā)生時(shí),,CPU會(huì)按照如下步驟進(jìn)行執(zhí)行:
這些步驟執(zhí)行完后,,寄存器變化為:
而內(nèi)核棧中保存的值有:用戶(hù)態(tài)CS,,用戶(hù)態(tài)SS,用戶(hù)態(tài)ESP,,用戶(hù)態(tài)EIP,,用戶(hù)態(tài)eflags。當(dāng)系統(tǒng)從中斷返回用戶(hù)態(tài)時(shí),,就會(huì)從內(nèi)核棧中將這些值還原,,最后會(huì)回到進(jìn)入時(shí)的情況。至于為什么不用修改DS寄存器的值,,我也不清楚,。 |
|
來(lái)自: 昵稱(chēng)28625772 > 《Linux編程》