©OldLinux論壇 -- 有關(guān)早期Linux內(nèi)核代碼發(fā)展的論壇?! z4$]) Linux操作系統(tǒng)網(wǎng)絡(luò)驅(qū)動(dòng)程序編寫 %A 一.Linux系統(tǒng)設(shè)備驅(qū)動(dòng)程序概述 u5 1.1 Linux設(shè)備驅(qū)動(dòng)程序分類 %Vp} 1.2 編寫驅(qū)動(dòng)程序的一些基本概念 *I 二.Linux系統(tǒng)網(wǎng)絡(luò)設(shè)備驅(qū)動(dòng)程序 "[`]K 2.1 網(wǎng)絡(luò)驅(qū)動(dòng)程序的結(jié)構(gòu) H 2.2 網(wǎng)絡(luò)驅(qū)動(dòng)程序的基本方法 U?+ 2.3 網(wǎng)絡(luò)驅(qū)動(dòng)程序中用到的數(shù)據(jù)結(jié)構(gòu) IKo 2.4 常用的系統(tǒng)支持 v[ZEeu 三.編寫Linux網(wǎng)絡(luò)驅(qū)動(dòng)程序中可能遇到的問題 /oY 3.1 中斷共享 l@FZkg 3.2 硬件發(fā)送忙時(shí)的處理 pZw 3.3 流量控制(flow control) $:p. 3.4 調(diào)試 W!07 四.進(jìn)一步的閱讀 ]G_0Q 五.雜項(xiàng) Z!h ©OldLinux論壇 -- 有關(guān)早期Linux內(nèi)核代碼發(fā)展的論壇,。 ")e ©OldLinux論壇 -- 有關(guān)早期Linux內(nèi)核代碼發(fā)展的論壇,?! ej$ ©OldLinux論壇 -- 有關(guān)早期Linux內(nèi)核代碼發(fā)展的論壇?! 12.2 ©OldLinux論壇 -- 有關(guān)早期Linux內(nèi)核代碼發(fā)展的論壇,。 c‘<ae 一.Linux系統(tǒng)設(shè)備驅(qū)動(dòng)程序概述 c 1.1 Linux設(shè)備驅(qū)動(dòng)程序分類 eiD)|w Linux設(shè)備驅(qū)動(dòng)程序在Linux的內(nèi)核源代碼中占有很大的比例,,源代碼的長度日益增加,,主要是驅(qū)動(dòng)程序的增加。在Linux內(nèi)核的不斷升級(jí)過程中,驅(qū)動(dòng)程序的結(jié)構(gòu)還是相對(duì)穩(wěn)定,。在2.0.xx到2.2.xx的變動(dòng)里,,驅(qū)動(dòng)程序的編寫做了一些改變,但是從2.0.xx的驅(qū)動(dòng)到2.2.xx的移植只需做少量的工作,。 ASy Linux系統(tǒng)的設(shè)備分為字符設(shè)備(char device),,塊設(shè)備(block device)和網(wǎng)絡(luò)設(shè)備(network device)三種。字符設(shè)備是指存取時(shí)沒有緩存的設(shè)備,。塊設(shè)備的讀寫都有緩存來支持,,并且塊設(shè)備必須能夠隨機(jī)存取(random access),字符設(shè)備則沒有這個(gè)要求,。典型的字符設(shè)備包括鼠標(biāo),,鍵盤,串行口等,。塊設(shè)備主要包括硬盤軟盤設(shè)備,,CD-ROM等。一個(gè)文件系統(tǒng)要安裝進(jìn)入操作系統(tǒng)必須在塊設(shè)備上,。 "0}}} 網(wǎng)絡(luò)設(shè)備在Linux里做專門的處理,。Linux的網(wǎng)絡(luò)系統(tǒng)主要是基于BSD unix的socket機(jī)制。在系統(tǒng)和驅(qū)動(dòng)程序之間定義有專門的數(shù)據(jù)結(jié)構(gòu)(sk_buff)進(jìn)行數(shù)據(jù)的傳遞,。系統(tǒng)里支持對(duì)發(fā)送數(shù)據(jù)和接收數(shù)據(jù)的緩存,,提供流量控制機(jī)制,提供對(duì)多協(xié)議的支持,。 (r) ©OldLinux論壇 -- 有關(guān)早期Linux內(nèi)核代碼發(fā)展的論壇,。 ^Ctk 1.2 編寫驅(qū)動(dòng)程序的一些基本概念 Xl‘A! 無論是什么操作系統(tǒng)的驅(qū)動(dòng)程序,,都有一些通用的概念,。操作系統(tǒng)提供給驅(qū)動(dòng)程序的支持也大致相同。下面簡(jiǎn)單介紹一下網(wǎng)絡(luò)設(shè)備驅(qū)動(dòng)程序的一些基本要求,。 , 1.2.1 發(fā)送和接收 Ry 這是一個(gè)網(wǎng)絡(luò)設(shè)備最基本的功能,。一塊網(wǎng)卡所做的無非就是收發(fā)工作。所以驅(qū)動(dòng)程序里要告訴系統(tǒng)你的發(fā)送函數(shù)在哪里,,系統(tǒng)在有數(shù)據(jù)要發(fā)送時(shí)就會(huì)調(diào)用你的發(fā) 送程序,。還有驅(qū)動(dòng)程序由于是直接操縱硬件的,所以網(wǎng)絡(luò)硬件有數(shù)據(jù)收到最先能得到這個(gè)數(shù)據(jù)的也就是驅(qū)動(dòng)程序,,它負(fù)責(zé)把這些原始數(shù)據(jù)進(jìn)行必要的處理然后送給系統(tǒng),。這里,操作系統(tǒng)必須要提供兩個(gè)機(jī)制,,一個(gè)是找到驅(qū)動(dòng)程序的發(fā)送函數(shù),,一個(gè)是驅(qū)動(dòng)程序把收到的數(shù)據(jù)送給系統(tǒng)。 -2T 1.2.2 中斷 d#`T 中斷在現(xiàn)代計(jì)算機(jī)結(jié)構(gòu)中有重要的地位。操作系統(tǒng)必須提供驅(qū)動(dòng)程序響應(yīng)中斷的能力,。一般是把一個(gè)中斷處理程序注冊(cè)到系統(tǒng)中去,。操作系統(tǒng)在硬件中斷發(fā)生后 調(diào)用驅(qū)動(dòng)程序的處理程序。Linux支持中斷的共享,,即多個(gè)設(shè)備共享一個(gè)中斷,。 U- ="G 1.2.3 時(shí)鐘 " 在實(shí)現(xiàn)驅(qū)動(dòng)程序時(shí),很多地方會(huì)用到時(shí)鐘,。如某些協(xié)議里的超時(shí)處理,,沒有中斷機(jī)制的硬件的輪詢等。操作系統(tǒng)應(yīng)為驅(qū)動(dòng)程序提供定時(shí)機(jī)制,。一般是在預(yù)定的時(shí) 間過了以后回調(diào)注冊(cè)的時(shí)鐘函數(shù),。在網(wǎng)絡(luò)驅(qū)動(dòng)程序中,如果硬件沒有中斷功能,,定時(shí)器可以提供輪詢(poll)方式對(duì)硬件進(jìn)行存取,。或者是實(shí)現(xiàn)某些協(xié)議時(shí)需要的超時(shí)重傳等,。 ]_-Ggs 二.Linux系統(tǒng)網(wǎng)絡(luò)設(shè)備驅(qū)動(dòng)程序 -zwM 2.1 網(wǎng)絡(luò)驅(qū)動(dòng)程序的結(jié)構(gòu) V6 所有的Linux網(wǎng)絡(luò)驅(qū)動(dòng)程序遵循通用的接口。設(shè)計(jì)時(shí)采用的是面向?qū)ο蟮姆椒?。一個(gè)設(shè)備就是一個(gè)對(duì)象(device 結(jié)構(gòu)),,它內(nèi)部有自己的數(shù)據(jù)和方法。每一個(gè)設(shè)備的方法被調(diào)用時(shí)的第一個(gè)參數(shù)都是這個(gè)設(shè)備對(duì)象本身,。這樣這個(gè)方法就可以存取自身的數(shù)據(jù)(類似面向?qū)ο蟪绦蛟O(shè)計(jì)時(shí)的this引用),。 .<^ 一個(gè)網(wǎng)絡(luò)設(shè)備最基本的方法有初始化、發(fā)送和接收,。 nX|?N ------------------- --------------------- -:J |deliver packets | |receive packets queue| s9b |(dev_queue_xmit()) | |them(netif_rx()) | Q ------------------- --------------------- %\ | | / } / | | j^TU ------------------------------------------------------- 199 | methods and variables(initialize,open,close,hard_xmit,| LjUqf4 | interrupt handler,config,resources,status...) | 0X ------------------------------------------------------- 4 | | / ?HD / | | i ----------------- ---------------------- *\7R |send to hardware | |receivce from hardware| ;^i:v ----------------- ---------------------- #2X | | / "& / | | ?HJ ----------------------------------------------------- 1,{8] | hardware media | <pH ----------------------------------------------------- ]1 初始化程序完成硬件的初始化,、device中變量的初始化和系統(tǒng)資源的申請(qǐng)。發(fā)送程序是在驅(qū)動(dòng)程序的上層協(xié)議層有數(shù)據(jù)要發(fā)送時(shí)自動(dòng)調(diào)用的,。一般驅(qū)動(dòng)程序中不對(duì)發(fā)送數(shù)據(jù)進(jìn)行緩存,,而是直接使用硬件的發(fā)送功能把數(shù)據(jù)發(fā)送出去。接收數(shù)據(jù)一般是通過硬件中斷來通知的,。在中斷處理程序里,,把硬件幀信息填入一個(gè)skbuff結(jié)構(gòu)中,然后調(diào)用netif_rx()傳遞給上層處理,。 nZg"5 ©OldLinux論壇 -- 有關(guān)早期Linux內(nèi)核代碼發(fā)展的論壇,。 b 2.2 網(wǎng)絡(luò)驅(qū)動(dòng)程序的基本方法 U 網(wǎng)絡(luò)設(shè)備做為一個(gè)對(duì)象,,提供一些方法供系統(tǒng)訪問,。正是這些有統(tǒng)一接口的方法,掩蔽了硬件的具體細(xì)節(jié),讓系統(tǒng)對(duì)各種網(wǎng)絡(luò)設(shè)備的訪問都采用統(tǒng)一的形式,,做到硬件無關(guān)性,。 m3RFY 下面解釋最基本的方法。 S 2.2.1 初始化(initialize) S@36`l 驅(qū)動(dòng)程序必須有一個(gè)初始化方法,。在把驅(qū)動(dòng)程序載入系統(tǒng)的時(shí)候會(huì)調(diào)用這個(gè)初始化程序,。它做以下幾方面的工作。檢測(cè)設(shè)備,。在初始化程序里你可以根據(jù)硬件的特征檢查硬件是否存在,,然后決定是否啟動(dòng)這個(gè)驅(qū)動(dòng)程序。配置和初始化硬件,。在初始化程序里你可以完成對(duì)硬件資源的配置,,比如即插即用的硬件就可以在這個(gè)時(shí)候進(jìn)行配置(Linux內(nèi)核對(duì)PnP功能沒有很好的支持,可以在驅(qū)動(dòng)程序里完成這個(gè)功能),。配置或協(xié)商好硬件占用的資源以后,,就可以向系統(tǒng)申請(qǐng)這些資源。有些資源是可以和別的設(shè)備共享的,,如中斷,。有些是不能共享的,如IO,、DMA,。接下來你要初始化device結(jié)構(gòu)中的變量。最后,,你可以讓硬件正式開始工作,。 Izv5m 2.2.2 打開(open) \lo open這個(gè)方法在網(wǎng)絡(luò)設(shè)備驅(qū)動(dòng)程序里是網(wǎng)絡(luò)設(shè)備被激活的時(shí)候被調(diào)用(即設(shè)備狀態(tài)由down-->up)。所以實(shí)際上很多在initialize中的工作可以放到這里來做,。比如資源的申請(qǐng),,硬件的激活。如果dev->open返回非0(error),,則硬件的狀態(tài)還是down,。 0 open方法另一個(gè)作用是如果驅(qū)動(dòng)程序做為一個(gè)模塊被裝入,則要防止模塊卸載時(shí)設(shè)備處于打開狀態(tài),。在open方法里要調(diào)用MOD_INC_USE_COUNT宏,。 Y4-]9T 2.2.3 關(guān)閉(stop) 5 close方法做和open相反的工作??梢葬尫拍承┵Y源以減少系統(tǒng)負(fù)擔(dān),。close是在設(shè)備狀態(tài)由up轉(zhuǎn)為down時(shí)被調(diào)用的。另外如果是做為模塊裝入的驅(qū)動(dòng)程序,,close里應(yīng)該調(diào)用MOD_DEC_USE_COUNT,,減少設(shè)備被引用的次數(shù),,以使驅(qū)動(dòng)程序可以被卸載。 k,!0W3 另外close方法必須返回成功(0==success),。 V1$?Xt 2.2.4 發(fā)送(hard_start_xmit) E 所有的網(wǎng)絡(luò)設(shè)備驅(qū)動(dòng)程序都必須有這個(gè)發(fā)送方法。在系統(tǒng)調(diào)用驅(qū)動(dòng)程序的xmit時(shí),,發(fā)送的數(shù)據(jù)放在一個(gè)sk_buff結(jié)構(gòu)中,。一般的驅(qū)動(dòng)程序把數(shù)據(jù)傳給硬件發(fā)出去。也有一些特殊的設(shè)備比如loopback把數(shù)據(jù)組成一個(gè)接收數(shù)據(jù)再回送給系統(tǒng),,或者dummy設(shè)備直接丟棄數(shù)據(jù),。 FF6$j 如果發(fā)送成功,hard_start_xmit方法里釋放sk_buff,,返回0(發(fā)送成功),。如果設(shè)備暫時(shí)無法處理,比如硬件忙,,則返回1,。這時(shí)如果dev->tbusy置為非0,則系統(tǒng)認(rèn)為硬件忙,,要等到dev->tbusy置0以后才會(huì)再次發(fā)送,。tbusy的置0任務(wù)一般由中斷完成。硬件在發(fā)送結(jié)束后產(chǎn)生中斷,,這時(shí)可以把tbusy置0,,然后用mark_bh()調(diào)用通知系統(tǒng)可以再次發(fā)送。在發(fā)送不成功的情況下,,也可以不置dev->tbusy為非0,這樣系統(tǒng)會(huì)不斷嘗試重發(fā),。如果hard_start_xmit發(fā)送不成功,,則不要釋放sk_buff,。傳送下來的sk_buff中的數(shù)據(jù)已經(jīng)包含硬件需要的幀頭,。所以在發(fā)送方法里不需要再填充硬件幀頭,,數(shù)據(jù)可以直接提交給硬件發(fā)送,。sk_buff是被鎖住的(locked),確保其他程序不會(huì)存取它,。 \I 2.2.5 接收(reception) :k 驅(qū)動(dòng)程序并不存在一個(gè)接收方法。有數(shù)據(jù)收到應(yīng)該是驅(qū)動(dòng)程序來通知系統(tǒng)的,。一般設(shè)備收到數(shù)據(jù)后都會(huì)產(chǎn)生一個(gè)中斷,,在中斷處理程序中驅(qū)動(dòng)程序申請(qǐng)一塊sk_buff(skb),從硬件讀出數(shù)據(jù)放置到申請(qǐng)好的緩沖區(qū)里,。接下來填充sk_buff中 的一些信息。skb->dev = dev,,判斷收到幀的協(xié)議類型,,填入skb->protocol(多協(xié) 議的支持)。把指針skb->mac.raw指向硬件數(shù)據(jù)然后丟棄硬件幀頭(skb_pull),。還要設(shè)置skb->pkt_type,,標(biāo)明第二層(鏈路層)數(shù)據(jù)類型??梢允且韵骂愋停?)Cc< PACKET_BROADCAST : 鏈路層廣播 D* PACKET_MULTICAST : 鏈路層組播 %vq PACKET_SELF : 發(fā)給自己的幀 z5WN PACKET_OTHERHOST : 發(fā)給別人的幀(監(jiān)聽模式時(shí)會(huì)有這種幀) M!]a2G 最后調(diào)用netif_rx()把數(shù)據(jù)傳送給協(xié)議層,。netif_rx()里數(shù)據(jù)放入處理隊(duì)列然后返回,真正的處理是在中斷返回以后,,這樣可以減少中斷時(shí)間,。調(diào)用netif_rx()以后, ]<8VI‘ 驅(qū)動(dòng)程序就不能再存取數(shù)據(jù)緩沖區(qū)skb,。 mI2qO 2.2.6 硬件幀頭(hard_header) {VKQ 硬件一般都會(huì)在上層數(shù)據(jù)發(fā)送之前加上自己的硬件幀頭,,比如以太網(wǎng)(Ethernet)就有14字節(jié)的幀頭。這個(gè)幀頭是加在上層ip,、ipx等數(shù)據(jù)包的前面的,。驅(qū)動(dòng)程序提供一個(gè)hard_header方法,,協(xié)議層(ip,、ipx、arp等)在發(fā)送數(shù)據(jù)之前會(huì)調(diào)用這段程序,。 g 硬件幀頭的長度必須填在dev->hard_header_len,,這樣協(xié)議層回在數(shù)據(jù)之前保留好硬件幀頭的空間。這樣hard_header程序只要調(diào)用skb_push然后正確填入硬件幀頭就可以了,。 Mrs 在協(xié)議層調(diào)用hard_header時(shí),,傳送的參數(shù)包括(2.0.xx):數(shù)據(jù)的sk_buff,device指針,,protocol,,目的地址(daddr),源地址(saddr),,數(shù)據(jù)長度(len),。數(shù)據(jù)長度不要使用sk_buff中的參數(shù),因?yàn)檎{(diào)用hard_header時(shí)數(shù)據(jù)可能還沒完全組織好,。saddr是NULL的話是使用缺省地址(default),。daddr是NULL表明協(xié)議層不知道硬件目的地址,。如果hard_header完全填好了硬件幀頭,則返回添加的字節(jié)數(shù),。如果硬件幀頭中的信息還不完全(比如daddr為NULL,,但是幀頭中需要目的硬件地址。典型的情況是以太網(wǎng)需要地址解析(arp)),,則返回負(fù)字節(jié)數(shù),。hard_header返回負(fù)數(shù)的情況下,協(xié)議層會(huì)做進(jìn)一步的build header的工作,。目前Linux系統(tǒng)里就是做arp (如果hard_header返回正,,dev->arp=1,表明不需要做arp,,返回負(fù),,dev->arp=0,做arp),。 t#‘G6s 對(duì)hard_header的調(diào)用在每個(gè)協(xié)議層的處理程序里,。如ip_output。 / 2.2.7 地址解析(xarp) Yr 有些網(wǎng)絡(luò)有硬件地址(比如Ethernet),,并且在發(fā)送硬件幀時(shí)需要知道目的硬件地址,。這樣就需要上層協(xié)議地址(ip、ipx)和硬件地址的對(duì)應(yīng),。這個(gè)對(duì)應(yīng)是通過地址解析完成的,。需要做arp的的設(shè)備在發(fā)送之前會(huì)調(diào)用驅(qū)動(dòng)程序的rebuild_header方法。調(diào)用的主要參數(shù)包括指向硬件幀頭的指針,,協(xié)議層地址,。如果驅(qū)動(dòng)程序能夠解析硬件地址,就返回1,,如果不能,,返回0。 3P 對(duì)rebuild_header的調(diào)用在net/core/dev.c的do_dev_queue_xmit()里,。 @+&q 2.2.8 參數(shù)設(shè)置和統(tǒng)計(jì)數(shù)據(jù) ‘?gP 在驅(qū)動(dòng)程序里還提供一些方法供系統(tǒng)對(duì)設(shè)備的參數(shù)進(jìn)行設(shè)置和讀取信息。一般只有超級(jí)用戶(root)權(quán)限才能對(duì)設(shè)備參數(shù)進(jìn)行設(shè)置,。設(shè)置方法有: } dev->set_mac_address() rDoB< 當(dāng)用戶調(diào)用ioctl類型為SIOCSIFHWADDR時(shí)是要設(shè)置這個(gè)設(shè)備的mac地址,。一般對(duì)mac地址的設(shè)置沒有太大意義的。 [Z9e dev->set_config() q{n 當(dāng)用戶調(diào)用ioctl時(shí)類型為SIOCSIFMAP時(shí),,系統(tǒng)會(huì)調(diào)用驅(qū)動(dòng)程序的set_config方法,。用戶會(huì)傳遞一個(gè)ifmap結(jié)構(gòu)包含需要的I/O、中斷等參數(shù),。 2 dev->do_ioctl() vX7i 如果用戶調(diào)用ioctl時(shí)類型在SIOCDEVPRIVATE和SIOCDEVPRIVATE+15之間,,系統(tǒng)會(huì)調(diào)用驅(qū)動(dòng)程序的這個(gè)方法,。一般是設(shè)置設(shè)備的專用數(shù)據(jù)。 V!q 讀取信息也是通過ioctl調(diào)用進(jìn)行,。除次之外驅(qū)動(dòng)程序還可以提供一個(gè) Vo4‘6 dev->get_stats方法,,返回一個(gè)enet_statistics結(jié)構(gòu),包含發(fā)送接收的統(tǒng)計(jì)信息,。ioctl的處理在net/core/dev.c的dev_ioctl()和dev_ifsioc()里,。 g ©OldLinux論壇 -- 有關(guān)早期Linux內(nèi)核代碼發(fā)展的論壇?! ?E]+2 [email protected] N2%0sM .3 網(wǎng)絡(luò)驅(qū)動(dòng)程序中用到的數(shù)據(jù)結(jié)構(gòu) H0}? 最重要的是網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)結(jié)構(gòu),。定義在include/linux/netdevice.h里。它的注釋已經(jīng)足夠詳盡,。 Cz*)YX struct device IK { ©OldLinux論壇 -- 有關(guān)早期Linux內(nèi)核代碼發(fā)展的論壇,。 M%&M$$ /* ©OldLinux論壇 -- 有關(guān)早期Linux內(nèi)核代碼發(fā)展的論壇,?! E> * This is the first field of the "visible" part of this structure TM*pg * (i.e. as seen by users in the "Space.c" file). It is the name JN AV * the interface. Wd */ ©OldLinux論壇 -- 有關(guān)早期Linux內(nèi)核代碼發(fā)展的論壇?! F$G char *name; O|O^w /* I/O specific fields - FIXME: Merge these and struct ifmap into one */ `+*>2 unsigned long rmem_end; /* shmem "recv" end */ ^: unsigned long rmem_start; /* shmem "recv" start */ 0yA3 unsigned long mem_end; /* shared mem end */ |
|