VC++中使用內(nèi)存映射文件處理大文件 摘要: 本文給出了一種方便實(shí)用的解決大文件的讀取,、存儲(chǔ)等處理的方法,并結(jié)合相關(guān)程序代碼對(duì)具體的實(shí)現(xiàn)過(guò)程進(jìn)行了介紹,。 引言 文件操作是應(yīng)用程序最為基本的功能之一,,Win32 API和MFC均提供有支持文件處理的函數(shù)和類,,常用的有Win32 API的CreateFile()、WriteFile(),、ReadFile()和MFC提供的CFile類等,。一般來(lái)說(shuō),以上這些函數(shù)可以滿足大多數(shù) 場(chǎng)合的要求,,但是對(duì)于某些特殊應(yīng)用領(lǐng)域所需要的動(dòng)輒幾十GB,、幾百GB、乃至幾TB的海量存儲(chǔ),,再以通常的文件處理方法進(jìn)行處理顯然是行不通的,。目前,對(duì) 于上述這種大文件的操作一般是以內(nèi)存映射文件的方式來(lái)加以處理的,,本文下面將針對(duì)這種Windows核心編程技術(shù)展開(kāi)討論,。 內(nèi)存映射文件 內(nèi)存映射文件與虛擬內(nèi)存有些類似,通過(guò)內(nèi)存映射文件可以保留一個(gè)地址空間的區(qū)域,,同時(shí)將物理存儲(chǔ)器提交給此區(qū)域,,只是內(nèi)存文件映射的物理存儲(chǔ)器來(lái)自一個(gè) 已經(jīng)存在于磁盤上的文件,而非系統(tǒng)的頁(yè)文件,,而且在對(duì)該文件進(jìn)行操作之前必須首先對(duì)文件進(jìn)行映射,,就如同將整個(gè)文件從磁盤加載到內(nèi)存。由此可以看出,,使用 內(nèi)存映射文件處理存儲(chǔ)于磁盤上的文件時(shí),,將不必再對(duì)文件執(zhí)行I/O操作,這意味著在對(duì)文件進(jìn)行處理時(shí)將不必再為文件申請(qǐng)并分配緩存,,所有的文件緩存操作均 由系統(tǒng)直接管理,,由于取消了將文件數(shù)據(jù)加載到內(nèi)存、數(shù)據(jù)從內(nèi)存到文件的回寫(xiě)以及釋放內(nèi)存塊等步驟,,使得內(nèi)存映射文件在處理大數(shù)據(jù)量的文件時(shí)能起到相當(dāng)重要 的作用,。另外,實(shí)際工程中的系統(tǒng)往往需要在多個(gè)進(jìn)程之間共享數(shù)據(jù),,如果數(shù)據(jù)量小,,處理方法是靈活多變的,如果共享數(shù)據(jù)容量巨大,,那么就需要借助于內(nèi)存映射 文件來(lái)進(jìn)行,。實(shí)際上,內(nèi)存映射文件正是解決本地多個(gè)進(jìn)程間數(shù)據(jù)共享的最有效方法,。 內(nèi)存映射文件并不是簡(jiǎn)單的文件I/O操作,,實(shí)際用到 了Windows的核心編程技術(shù)--內(nèi)存管理。所以,,如果想對(duì)內(nèi)存映射文件有更深刻的認(rèn)識(shí),,必須對(duì)Windows操作系統(tǒng)的內(nèi)存管理機(jī)制有清楚的認(rèn)識(shí),,內(nèi) 存管理的相關(guān)知識(shí)非常復(fù)雜,超出了本文的討論范疇,,在此就不再贅述,,感興趣的讀者可以參閱其他相關(guān)書(shū)籍。下面給出使用內(nèi)存映射文件的一般方法: 首先要通過(guò)CreateFile()函數(shù)來(lái)創(chuàng)建或打開(kāi)一個(gè)文件內(nèi)核對(duì)象,,這個(gè)對(duì)象標(biāo)識(shí)了磁盤上將要用作內(nèi)存映射文件的文件,。在用CreateFile ()將文件映像在物理存儲(chǔ)器的位置通告給操作系統(tǒng)后,只指定了映像文件的路徑,,映像的長(zhǎng)度還沒(méi)有指定,。為了指定文件映射對(duì)象需要多大的物理存儲(chǔ)空間還需要 通過(guò)CreateFileMapping()函數(shù)來(lái)創(chuàng)建一個(gè)文件映射內(nèi)核對(duì)象以告訴系統(tǒng)文件的尺寸以及訪問(wèn)文件的方式。在創(chuàng)建了文件映射對(duì)象后,,還必須為 文件數(shù)據(jù)保留一個(gè)地址空間區(qū)域,,并把文件數(shù)據(jù)作為映射到該區(qū)域的物理存儲(chǔ)器進(jìn)行提交。由MapViewOfFile()函數(shù)負(fù)責(zé)通過(guò)系統(tǒng)的管理而將文件映 射對(duì)象的全部或部分映射到進(jìn)程地址空間,。此時(shí),,對(duì)內(nèi)存映射文件的使用和處理同通常加載到內(nèi)存中的文件數(shù)據(jù)的處理方式基本一樣,在完成了對(duì)內(nèi)存映射文件的使 用時(shí),,還要通過(guò)一系列的操作完成對(duì)其的清除和使用過(guò)資源的釋放,。這部分相對(duì)比較簡(jiǎn)單,可以通過(guò)UnmapViewOfFile()完成從進(jìn)程的地址空間撤 消文件數(shù)據(jù)的映像,、通過(guò)CloseHandle()關(guān)閉前面創(chuàng)建的文件映射對(duì)象和文件對(duì)象,。 內(nèi)存映射文件相關(guān)函數(shù) 在使用內(nèi)存映射文件時(shí),所使用的API函數(shù)主要就是前面提到過(guò)的那幾個(gè)函數(shù),,下面分別對(duì)其進(jìn)行介紹:
函數(shù)CreateFile()即使是在普通的文件操作時(shí)也經(jīng)常用來(lái)創(chuàng)建,、打開(kāi)文件,在處理內(nèi)存映射文件時(shí),,該函數(shù)來(lái)創(chuàng)建/打開(kāi)一個(gè)文件內(nèi)核對(duì)象,,并將其 句柄返回,在調(diào)用該函數(shù)時(shí)需要根據(jù)是否需要數(shù)據(jù)讀寫(xiě)和文件的共享方式來(lái)設(shè)置參數(shù)dwDesiredAccess和dwShareMode,,錯(cuò)誤的參數(shù)設(shè)置 將會(huì)導(dǎo)致相應(yīng)操作時(shí)的失敗,。
CreateFileMapping()函數(shù)創(chuàng)建一個(gè)文件映射內(nèi)核對(duì)象,,通過(guò)參數(shù)hFile指定待映射到進(jìn)程地址空間的文件句柄(該句柄由 CreateFile()函數(shù)的返回值獲?。S捎趦?nèi)存映射文件的物理存儲(chǔ)器實(shí)際是存儲(chǔ)于磁盤上的一個(gè)文件,,而不是從系統(tǒng)的頁(yè)文件中分配的內(nèi)存,,所以系統(tǒng) 不會(huì)主動(dòng)為其保留地址空間區(qū)域,也不會(huì)自動(dòng)將文件的存儲(chǔ)空間映射到該區(qū)域,,為了讓系統(tǒng)能夠確定對(duì)頁(yè)面采取何種保護(hù)屬性,,需要通過(guò)參數(shù)flProtect來(lái) 設(shè)定,,保護(hù)屬性PAGE_READONLY、PAGE_READWRITE和PAGE_WRITECOPY分別表示文件映射對(duì)象被映射后,,可以讀取,、讀寫(xiě) 文件數(shù)據(jù)。在使用PAGE_READONLY時(shí),,必須確保CreateFile()采用的是GENERIC_READ參數(shù),;PAGE_READWRITE 則要求CreateFile()采用的是GENERIC_READ|GENERIC_WRITE參數(shù);至于屬性PAGE_WRITECOPY則只需要確保 CreateFile()采用了GENERIC_READ和GENERIC_WRITE其中之一即可,。DWORD型的參數(shù) dwMaximumSizeHigh和dwMaximumSizeLow也是相當(dāng)重要的,,指定了文件的最大字節(jié)數(shù),由于這兩個(gè)參數(shù)共64位,,因此所支持的 最大文件長(zhǎng)度為16EB,,幾乎可以滿足任何大數(shù)據(jù)量文件處理場(chǎng)合的要求。
MapViewOfFile()函數(shù)負(fù)責(zé)把文件數(shù)據(jù)映射到進(jìn)程的地址空間,,參數(shù)hFileMappingObject為 CreateFileMapping()返回的文件映像對(duì)象句柄,。參數(shù)dwDesiredAccess則再次指定了對(duì)文件數(shù)據(jù)的訪問(wèn)方式,而且同樣要與 CreateFileMapping()函數(shù)所設(shè)置的保護(hù)屬性相匹配,。雖然這里一再對(duì)保護(hù)屬性進(jìn)行重復(fù)設(shè)置看似多余,,但卻可以使應(yīng)用程序能更多的對(duì)數(shù)據(jù)的 保護(hù)屬性實(shí)行有效控制。MapViewOfFile()函數(shù)允許全部或部分映射文件,,在映射時(shí),,需要指定數(shù)據(jù)文件的偏移地址以及待映射的長(zhǎng)度。其中,,文件 的偏移地址由DWORD型的參數(shù)dwFileOffsetHigh和dwFileOffsetLow組成的64位值來(lái)指定,,而且必須是操作系統(tǒng)的分配粒度 的整數(shù)倍,對(duì)于Windows操作系統(tǒng),,分配粒度固定為64KB,。當(dāng)然,也可以通過(guò)如下代碼來(lái)動(dòng)態(tài)獲取當(dāng)前操作系統(tǒng)的分配粒度:
參數(shù)dwNumberOfBytesToMap指定了數(shù)據(jù)文件的映射長(zhǎng)度,,這里需要特別指出的是,,對(duì)于Windows 9x操作系統(tǒng),如果MapViewOfFile()無(wú)法找到足夠大的區(qū)域來(lái)存放整個(gè)文件映射對(duì)象,,將返回空值(NULL),;但是在Windows 2000下,MapViewOfFile()只需要為必要的視圖找到足夠大的一個(gè)區(qū)域即可,,而無(wú)須考慮整個(gè)文件映射對(duì)象的大小,。 在完成對(duì)映射到進(jìn)程地址空間區(qū)域的文件處理后,需要通過(guò)函數(shù)UnmapViewOfFile()完成對(duì)文件數(shù)據(jù)映像的釋放,,該函數(shù)原型聲明如下:
唯一的參數(shù)lpBaseAddress指定了返回區(qū)域的基地址,,必須將其設(shè)定為MapViewOfFile()的返回值,。在使用了函數(shù) MapViewOfFile()之后,必須要有對(duì)應(yīng)的UnmapViewOfFile()調(diào)用,,否則在進(jìn)程終止之前,,保留的區(qū)域?qū)o(wú)法釋放。除此之外,,前 面還曾由CreateFile()和CreateFileMapping()函數(shù)創(chuàng)建過(guò)文件內(nèi)核對(duì)象和文件映射內(nèi)核對(duì)象,,在進(jìn)程終止之前有必要通過(guò) CloseHandle()將其釋放,否則將會(huì)出現(xiàn)資源泄漏的問(wèn)題,。 除了前面這些必須的API函數(shù)之外,,在使用內(nèi)存映射文件時(shí)還要根 據(jù)情況來(lái)選用其他一些輔助函數(shù)。例如,,在使用內(nèi)存映射文件時(shí),,為了提高速度,系統(tǒng)將文件的數(shù)據(jù)頁(yè)面進(jìn)行高速緩存,,而且在處理文件映射視圖時(shí)不立即更新文件 的磁盤映像,。為解決這個(gè)問(wèn)題可以考慮使用FlushViewOfFile()函數(shù),該函數(shù)強(qiáng)制系統(tǒng)將修改過(guò)的數(shù)據(jù)部分或全部重新寫(xiě)入磁盤映像,,從而可以確 保所有的數(shù)據(jù)更新能及時(shí)保存到磁盤,。 使用內(nèi)存映射文件處理大文件應(yīng)用示例 下面結(jié)合一個(gè)具體的實(shí)例來(lái)進(jìn)一步講述內(nèi)存映射文件的使用方法。該實(shí)例從端口接收數(shù)據(jù),,并實(shí)時(shí)將其存放于磁盤,,由于數(shù)據(jù)量大(幾十GB),在此選用內(nèi)存映 射文件進(jìn)行處理,。下面給出的是位于工作線程MainProc中的部分主要代碼,,該線程自程序運(yùn)行時(shí)啟動(dòng),當(dāng)端口有數(shù)據(jù)到達(dá)時(shí)將會(huì)發(fā)出事件hEvent [0],,WaitForMultipleObjects()函數(shù)等待到該事件發(fā)生后將接收到的數(shù)據(jù)保存到磁盤,,如果終止接收將發(fā)出事件hEvent [1],事件處理過(guò)程將負(fù)責(zé)完成資源的釋放和文件的關(guān)閉等工作,。下面給出此線程處理函數(shù)的具體實(shí)現(xiàn)過(guò)程:
在終止事件觸發(fā)處理過(guò)程中如果只簡(jiǎn)單的執(zhí)行UnmapViewOfFile()和CloseHandle()函數(shù)將無(wú)法正確標(biāo)識(shí)文件的實(shí)際大小,,即如果 開(kāi)辟的內(nèi)存映射文件為30GB,,而接收的數(shù)據(jù)只有14GB,,那么上述程序執(zhí)行完后,,保存的文件長(zhǎng)度仍是30GB,。也就是說(shuō),在處理完成后還要再次通過(guò)內(nèi)存 映射文件的形式將文件恢復(fù)到實(shí)際大小,,下面是實(shí)現(xiàn)此要求的主要代碼:
結(jié)論 經(jīng)實(shí)際測(cè)試,,內(nèi)存映射文件在處理大數(shù)據(jù)量文件時(shí)表現(xiàn)出了良好的性能,比通常使用CFile類和ReadFile()和WriteFile()等函數(shù)的文 件處理方式具有明顯的優(yōu)勢(shì),。本文所述代碼在Windows 98下由Microsoft Visual C++ 6.0編譯通過(guò),。 |
|