M. Tim Jones ([email protected]), 顧問工程師, Emulex 2007 年 7 月 02 日 Linux® 內(nèi)核是一個(gè)龐大而復(fù)雜的操作系統(tǒng)的核心,,不過盡管龐大,,但是卻采用子系統(tǒng)和分層的概念很好地進(jìn)行了組織,。在本文中,您將探索 Linux 內(nèi)核的總體結(jié)構(gòu),,并學(xué)習(xí)一些主要的子系統(tǒng)和核心接口,。您還可以通過其他 IBM 文章的鏈接更深入地進(jìn)行學(xué)習(xí)。 由于本文的目標(biāo) 是對 Linux 內(nèi)核進(jìn)行介紹并探索其體系結(jié)構(gòu)和主要組件,,因此首先回顧一下 Linux 的簡短歷史,,然后從較高的層次審視 Linux 內(nèi)核的體系結(jié)構(gòu),最后介紹它的主要子系統(tǒng),。Linux 內(nèi)核具有超過 600 萬行的代碼,,因此本文不可能進(jìn)行完整的介紹。請使用指向其他內(nèi)容的鏈接進(jìn)一步學(xué)習(xí),。
盡 管 Linux 絕對是最流行的開源操作系統(tǒng),,但是相對于其他操作系統(tǒng)的漫長歷史來說,Linux 的歷史非常短暫,。在計(jì)算機(jī)出現(xiàn)早期,,程序員是使用硬件語言在裸硬件上進(jìn)行開發(fā)的。缺少操作系統(tǒng)就意味著在某個(gè)時(shí)間只有一個(gè)應(yīng)用程序(和一個(gè)用戶)可以使用 這些龐大而又昂貴的設(shè)備,。早期的操作系統(tǒng)是在 20 世紀(jì) 50 年代開發(fā)的,,用來提供簡單的開發(fā)體驗(yàn)。包括為 IBM 701 開發(fā)的 General Motors Operating System(GMOS)和 North American Aviation 為 IBM 709 開發(fā)的 FORTRAN Monitor System(FMS),。 在 20 世紀(jì) 60 年代,,MIT(Massachusetts Institute of Technology)和一些公司為 GE-645 開發(fā)了一個(gè)名為 Multics(Multiplexed Information and Computing Service)的實(shí)驗(yàn)性的操作系統(tǒng),。這個(gè)操作系統(tǒng)的開發(fā)者之一 AT&T 后來退出了 Multics,并在 1970 年開發(fā)了自己的名為 Unics 的操作系統(tǒng),。與這個(gè)操作系統(tǒng)一同誕生的是 C 語言,,C 語言就是為此而開發(fā)的,然后它們使用 C 語言對操作系統(tǒng)進(jìn)行了重寫,,使操作系統(tǒng)開發(fā)具有可移植性,。 二 十年后,Andrew Tanenbaum 創(chuàng)建了一個(gè)微內(nèi)核版本的 UNIX®,,名為 MINIX(代表 minimal UNIX),,它可以在小型的個(gè)人計(jì)算機(jī)上運(yùn)行。這個(gè)開源操作系統(tǒng)在 20 世紀(jì) 90 年代激發(fā)了 Linus Torvalds 開發(fā) Linux 的靈感(請參看圖 1 所示),。 圖 1. 主要 Linux 內(nèi)核發(fā)行版簡史 Linux 快速從一個(gè)個(gè)人項(xiàng)目進(jìn)化成為一個(gè)全球數(shù)千人參與的開發(fā)項(xiàng)目,。對于 Linux 來說,最為重要的決策之一是采用 GPL(GNU General Public License),。在 GPL 保護(hù)之下,,Linux 內(nèi)核可以防止商業(yè)使用,并且它還從 GNU 項(xiàng)目(Richard Stallman 開發(fā),,其源代碼要比 Linux 內(nèi)核大得多)的用戶空間開發(fā)受益,。這允許使用一些非常有用的應(yīng)用程序,例如 GCC(GNU Compiler Collection)和各種 shell 支持,。
現(xiàn)在讓我們從一個(gè)比較高的高度來審視一下 GNU/Linux 操作系統(tǒng)的體系結(jié)構(gòu),。您可以從兩個(gè)層次上來考慮操作系統(tǒng),如圖 2 所示,。 圖 2. GNU/Linux 操作系統(tǒng)的基本體系結(jié)構(gòu)
最上面是用戶(或應(yīng)用程序)空間,。這是用戶應(yīng)用程序執(zhí)行的地方,。用戶空間之下是內(nèi)核空間,Linux 內(nèi)核正是位于這里,。 GNU C Library (glibc)也在這里,。它提供了連接內(nèi)核的系統(tǒng)調(diào)用接口,還提供了在用戶空間應(yīng)用程序和內(nèi)核之間進(jìn)行轉(zhuǎn)換的機(jī)制,。這點(diǎn)非常重要,,因?yàn)閮?nèi)核和用戶空間的應(yīng) 用程序使用的是不同的保護(hù)地址空間。每個(gè)用戶空間的進(jìn)程都使用自己的虛擬地址空間,而內(nèi)核則占用單獨(dú)的地址空間,。 更多信息,,請參看 參考資料 一節(jié)中的鏈接。 Linux 內(nèi)核可以進(jìn)一步劃分成 3 層,。最上面是系統(tǒng)調(diào)用接口,,它實(shí)現(xiàn)了一些基本的功能,例如
在討論大型而復(fù)雜的系統(tǒng)的體系結(jié)構(gòu)時(shí),,可以從很多角度來審視系統(tǒng)。體系結(jié)構(gòu)分析的一個(gè)目標(biāo)是提供一種方法更好地理解源代碼,,這正是本文的目的,。 Linux 內(nèi)核實(shí)現(xiàn)了很多重要的體系結(jié)構(gòu)屬性。在或高或低的層次上,,內(nèi)核被劃分為多個(gè)子系統(tǒng),。Linux 也可以看作是一個(gè)整體,,因?yàn)樗鼤⑺羞@些基本服務(wù)都集成到內(nèi)核中,。這與微內(nèi)核的體系結(jié)構(gòu)不同,后者會提供一些基本的服務(wù),,例如通信,、I/O、內(nèi)存和進(jìn)程 管理,,更具體的服務(wù)都是插入到微內(nèi)核層中的,。每種內(nèi)核都有自己的優(yōu)點(diǎn),不過這里并不對此進(jìn)行討論,。 隨著時(shí) 間的流逝,,Linux 內(nèi)核在內(nèi)存和 CPU 使用方面具有較高的效率,并且非常穩(wěn)定,。但是對于 Linux 來說,,最為有趣的是在這種大小和復(fù)雜性的前提下,依然具有良好的可移植性,。Linux 編譯后可在大量處理器和具有不同體系結(jié)構(gòu)約束和需求的平臺上運(yùn)行,。一個(gè)例子是 Linux 可以在一個(gè)具有內(nèi)存管理單元(MMU)的處理器上運(yùn)行,也可以在那些不提供 MMU 的處理器上運(yùn)行。Linux 內(nèi)核的 uClinux 移植提供了對非 MMU 的支持,。更詳細(xì)信息請參看 參考資料 一節(jié)的內(nèi)容,。
現(xiàn)在使用圖 3 中的分類說明 Linux 內(nèi)核的主要組件。 圖 3. Linux 內(nèi)核的一個(gè)體系結(jié)構(gòu)透視圖 SCI 層提供了某些機(jī)制執(zhí)行從用戶空間到內(nèi)核的函數(shù)調(diào)用,。正如前面討論的一樣,,這個(gè)接口依賴于體系結(jié)構(gòu),甚至在相同的處理器家族內(nèi)也是如此,。SCI 實(shí)際上是一個(gè)非常有用的函數(shù)調(diào)用多路復(fù)用和多路分解服務(wù),。在 ./linux/kernel 中您可以找到 SCI 的實(shí)現(xiàn),并在 ./linux/arch 中找到依賴于體系結(jié)構(gòu)的部分,。有關(guān)這個(gè)組件的更詳細(xì)信息可以在 參考資料 一節(jié)中找到,。
進(jìn)程管理的重點(diǎn)是進(jìn)程的執(zhí)行。在內(nèi)核中,,這些進(jìn)程稱為線程,,代表了單獨(dú)的處理器虛擬化(線程代碼、數(shù)據(jù),、堆棧和 CPU 寄存器),。在用戶空間,通常使用進(jìn)程 這個(gè)術(shù)語,,不過 Linux 實(shí)現(xiàn)并沒有區(qū)分這兩個(gè)概念(進(jìn)程和線程),。內(nèi)核通過 SCI 提供了一個(gè)應(yīng)用程序編程接口(API)來創(chuàng)建一個(gè)新進(jìn)程(fork、exec 或 Portable Operating System Interface [POSIX] 函數(shù)),,停止進(jìn)程(kill,、exit),并在它們之間進(jìn)行通信和同步(signal 或者 POSIX 機(jī)制),。 進(jìn) 程管理還包括處理活動進(jìn)程之間共享 CPU 的需求,。內(nèi)核實(shí)現(xiàn)了一種新型的調(diào)度算法,不管有多少個(gè)線程在競爭 CPU,,這種算法都可以在固定時(shí)間內(nèi)進(jìn)行操作,。這種算法就稱為 O(1) 調(diào)度程序,這個(gè)名字就表示它調(diào)度多個(gè)線程所使用的時(shí)間和調(diào)度一個(gè)線程所使用的時(shí)間是相同的,。 O(1) 調(diào)度程序也可以支持多處理器(稱為對稱多處理器或 SMP),。您可以在 ./linux/kernel 中找到進(jìn)程管理的源代碼,,在 ./linux/arch 中可以找到依賴于體系結(jié)構(gòu)的源代碼。在 參考資料 一節(jié)中可以了解有關(guān)這個(gè)算法的更多內(nèi)容,。 內(nèi)核所管理的另外一個(gè)重要資源是內(nèi)存,。為了提高效率,如果由硬件管理虛擬內(nèi)存,,內(nèi)存是按照所謂的內(nèi)存頁 方式進(jìn)行管理的(對于大部分體系結(jié)構(gòu)來說都是 4KB),。Linux 包括了管理可用內(nèi)存的方式,以及物理和虛擬映射所使用的硬件機(jī)制,。 不 過內(nèi)存管理要管理的可不止 4KB 緩沖區(qū),。Linux 提供了對 4KB 緩沖區(qū)的抽象,例如 slab 分配器,。這種內(nèi)存管理模式使用 4KB 緩沖區(qū)為基數(shù),,然后從中分配結(jié)構(gòu),并跟蹤內(nèi)存頁使用情況,,比如哪些內(nèi)存頁是滿的,,哪些頁面沒有完全使用,哪些頁面為空,。這樣就允許該模式根據(jù)系統(tǒng)需要來動 態(tài)調(diào)整內(nèi)存使用,。 為了支持多個(gè)用戶使用內(nèi)存,有時(shí)會出現(xiàn)可用內(nèi)存被消耗光的情況,。由于這個(gè)原因,,頁面可以移出內(nèi)存并放入磁盤中。這個(gè)過程稱為交換,,因?yàn)轫撁鏁粡膬?nèi)存交換到硬盤上,。內(nèi)存管理的源代碼可以在 ./linux/mm 中找到。 虛擬文件系統(tǒng)(VFS)是 Linux 內(nèi)核中非常有用的一個(gè)方面,,因?yàn)樗鼮槲募到y(tǒng)提供了一個(gè)通用的接口抽象,。VFS 在 SCI 和內(nèi)核所支持的文件系統(tǒng)之間提供了一個(gè)交換層(請參看圖 4),。 圖 4. VFS 在用戶和文件系統(tǒng)之間提供了一個(gè)交換層 在 VFS 上面,,是對諸如 open、close,、read 和 write 之類的函數(shù)的一個(gè)通用 API 抽象,。在 VFS 下面是文件系統(tǒng)抽象,它定義了上層函數(shù)的實(shí)現(xiàn)方式,。它們是給定文件系統(tǒng)(超過 50 個(gè))的插件,。文件系統(tǒng)的源代碼可以在 ./linux/fs 中找到。 文件系統(tǒng)層之下是緩沖區(qū)緩存,,它為文件系統(tǒng)層提供了一個(gè)通用函數(shù)集(與具體文件系統(tǒng)無關(guān)),。這個(gè)緩存層通過將數(shù)據(jù)保留一段時(shí)間(或者隨即預(yù)先讀取數(shù)據(jù)以便在需要是就可用)優(yōu)化了對物理設(shè)備的訪問。緩沖區(qū)緩存之下是設(shè)備驅(qū)動程序,它實(shí)現(xiàn)了特定物理設(shè)備的接口,。 網(wǎng)絡(luò)堆棧在設(shè)計(jì)上遵循模擬協(xié)議本身的分層體系結(jié)構(gòu),。回想一下,,Internet Protocol (IP) 是傳輸協(xié)議(通常稱為傳輸控制協(xié)議或 TCP)下面的核心網(wǎng)絡(luò)層協(xié)議,。TCP 上面是 socket 層,它是通過 SCI 進(jìn)行調(diào)用的,。 socket 層是網(wǎng)絡(luò)子系統(tǒng)的標(biāo)準(zhǔn) API,,它為各種網(wǎng)絡(luò)協(xié)議提供了一個(gè)用戶接口。從原始幀訪問到 IP 協(xié)議數(shù)據(jù)單元(PDU),,再到 TCP 和 User Datagram Protocol (UDP),,socket 層提供了一種標(biāo)準(zhǔn)化的方法來管理連接,并在各個(gè)終點(diǎn)之間移動數(shù)據(jù),。內(nèi)核中網(wǎng)絡(luò)源代碼可以在 ./linux/net 中找到,。 Linux 內(nèi)核中有大量代碼都在設(shè)備驅(qū)動程序中,它們能夠運(yùn)轉(zhuǎn)特定的硬件設(shè)備,。Linux 源碼樹提供了一個(gè)驅(qū)動程序子目錄,,這個(gè)目錄又進(jìn)一步劃分為各種支持設(shè)備,例如 Bluetooth,、I2C,、serial 等。設(shè)備驅(qū)動程序的代碼可以在 ./linux/drivers 中找到,。 盡 管 Linux 很大程度上獨(dú)立于所運(yùn)行的體系結(jié)構(gòu),,但是有些元素則必須考慮體系結(jié)構(gòu)才能正常操作并實(shí)現(xiàn)更高效率。./linux/arch 子目錄定義了內(nèi)核源代碼中依賴于體系結(jié)構(gòu)的部分,,其中包含了各種特定于體系結(jié)構(gòu)的子目錄(共同組成了 BSP),。對于一個(gè)典型的桌面系統(tǒng)來說,使用的是 i386 目錄,。每個(gè)體系結(jié)構(gòu)子目錄都包含了很多其他子目錄,,每個(gè)子目錄都關(guān)注內(nèi)核中的一個(gè)特定方面,例如引導(dǎo),、內(nèi)核,、內(nèi)存管理等。這些依賴體系結(jié)構(gòu)的代碼可以在 ./linux/arch 中找到,。
如果 Linux 內(nèi)核的可移植性和效率還不夠好,,Linux 還提供了其他一些特性,它們無法劃分到上面的分類中,。 作 為一個(gè)生產(chǎn)操作系統(tǒng)和開源軟件,,Linux 是測試新協(xié)議及其增強(qiáng)的良好平臺,。Linux 支持大量網(wǎng)絡(luò)協(xié)議,包括典型的 TCP/IP,,以及高速網(wǎng)絡(luò)的擴(kuò)展(大于 1 Gigabit Ethernet [GbE] 和 10 GbE),。Linux 也可以支持諸如流控制傳輸協(xié)議(SCTP)之類的協(xié)議,它提供了很多比 TCP 更高級的特性(是傳輸層協(xié)議的接替者),。 Linux 還是一個(gè)動態(tài)內(nèi)核,,支持動態(tài)添加或刪除軟件組件。被稱為動態(tài)可加載內(nèi)核模塊,,它們可以在引導(dǎo)時(shí)根據(jù)需要(當(dāng)前特定設(shè)備需要這個(gè)模塊)或在任何時(shí)候由用戶插入,。 Linux 最新的一個(gè)增強(qiáng)是可以用作其他操作系統(tǒng)的操作系統(tǒng)(稱為系統(tǒng)管理程序)。最近,,對內(nèi)核進(jìn)行了修改,,稱為基于內(nèi)核的虛擬機(jī)(KVM)。這個(gè)修改為用戶空間啟 用了一個(gè)新的接口,,它可以允許其他操作系統(tǒng)在啟用了 KVM 的內(nèi)核之上運(yùn)行,。除了運(yùn)行 Linux 的其他實(shí)例之外, Microsoft® Windows® 也可以進(jìn)行虛擬化,。惟一的限制是底層處理器必須支持新的虛擬化指令,。更多信息請參看 參考資料 一節(jié)的內(nèi)容。
本文對 Linux 內(nèi)核體系結(jié)構(gòu)及其特性和功能進(jìn)行了簡要介紹。有關(guān)內(nèi)核的詳細(xì)內(nèi)容,,可以參考每個(gè) Linux 發(fā)行版中附帶的 Documentation 目錄,。請一定查看本文末尾的 參考資料 一節(jié),了解有關(guān)本文中所討論主題的更詳細(xì)信息,。 學(xué)習(xí)
獲得產(chǎn)品和技術(shù)
討論
|
|