如何將繁體豎排掃描版pdf電子圖書轉(zhuǎn)化為可編輯的文本文件
一,、背景 酷暑難熬,,心情煩躁,讀書是最好的“清涼飲料”,。最近,,閑暇時(shí)間正在讀春秋左傳。我讀的版本為李夢(mèng)生撰,、上海古籍出版社出版的《左傳譯注》,。在讀的過程中,總是感覺有的地方?jīng)]有注釋,,只能看譯文幫助理解,。于是,就想找其它的版本作參考,。該書“前言”中提到:“特別需要說明的是,,楊伯峻先生的《春秋左傳注》一書,對(duì)我的幫助尤大,?!彼裕驮诰W(wǎng)上下載了此書(修訂本)的電子文檔,。
楊伯峻先生的《春秋左傳注》一書是春秋左傳的經(jīng)典必讀之書,。遺憾的是,此書為繁體豎排,,注釋插在正文中,,并且沒有譯文。此書對(duì)于大陸讀者來說,,可能很不習(xí)慣,。能不能將此書重新排版,采用更適合大陸讀者閱讀習(xí)慣的格式,,重新出版呢,?這或許是我的一個(gè)夢(mèng)想,因?yàn)闂畈壬呀?jīng)去世,,而且全書有1800多頁,。
我一時(shí)沖動(dòng)居然想實(shí)現(xiàn)這個(gè)夢(mèng)想,。我在網(wǎng)上下載的版本是掃描圖像制成的pdf格式,要想重新排版,,需要可以編輯的文檔,。我在網(wǎng)上還沒有找到此書可編輯的版本。所以,,我就試著自己將這本書的掃描版本轉(zhuǎn)化為可編輯的版本,。
二、方法 我在網(wǎng)上看了一些相關(guān)的資料,,借鑒了別人的一些經(jīng)驗(yàn),,通過反復(fù)試驗(yàn),終于找到了將繁體豎排掃描圖像的pdf電子圖書轉(zhuǎn)化為可編輯文本的方法,。
1,、將掃描版pdf圖書轉(zhuǎn)化為圖像文件 由于掃描后制成pdf格式的圖書,內(nèi)部的每頁都是一個(gè)圖像,,所以必須把其中的圖像文件提取出來,,采用OCR識(shí)別的方法,才能轉(zhuǎn)化為可編輯的文本格式,。
轉(zhuǎn)化為圖像文件,,有兩種方法:
(1)直接由Adobe Acrobat導(dǎo)出圖像文件。 我采用的是Adobe Acrobat Pro 9,。選擇“文件—導(dǎo)出—圖像—TIFF”功能即可從掃描圖像的pdf文中提取出多個(gè)掃描文檔(每頁一個(gè))。這種方法非常簡(jiǎn)單適用,,推薦使用,。之所以要轉(zhuǎn)化成TIFF格式的圖像文件,是因?yàn)橛薪榻B說TIFF格式的圖像文件,,OCR的識(shí)別率高,。
(2)用Microsoft Office Document Image Writer打印生成pdf文檔的圖像文件。 Microsoft Office Document Image Writer是Office中帶的一個(gè)工具,。如果在安裝Office時(shí)沒有安裝,,對(duì)于2003和2007版本的Office,只須重新安裝一遍即可,。在需要安裝的內(nèi)容中,,在“工具”中選擇后安裝即可。我使用的是Office 2010,,在安裝內(nèi)容選項(xiàng)中沒有找到這個(gè)工具,。不知道是版本問題,還是2010版本本身就沒有這個(gè)工具,。我用Office 2007安裝了此工具,,使用正常,。因?yàn)檫@就是一個(gè)虛擬打印機(jī),所以可以采用以前版本的,。安裝時(shí),,只選擇此工具,其它內(nèi)容全部不選,。這樣安裝后,,可以保證Office 2010的正常使用。
Microsoft Office Document Image Writer安裝正常后,,在Adobe Acrobat Pro 9中打印時(shí),,選擇此打印機(jī)即可將pdf格式的圖書轉(zhuǎn)化為一個(gè)TIFF文檔。
2,、對(duì)提取到的圖像文件進(jìn)行處理,。 此項(xiàng)工作的主要目的是,提高OCR識(shí)別率,,減少校對(duì)編輯時(shí)間,。如果掃描文件的質(zhì)量很高,可以不進(jìn)行此項(xiàng)工作,。
我之所以要進(jìn)行此項(xiàng)工作,,并不是因?yàn)閽呙栉募馁|(zhì)量不高,而是因?yàn)楸緯鵀榉斌w豎排,,而且專有名詞下面都帶了下劃線,。就是這些下劃線影響了識(shí)別率。我在沒進(jìn)行圖像處理前進(jìn)行識(shí)別,,識(shí)別出來的文本錯(cuò)誤很多,,需要花費(fèi)很長(zhǎng)時(shí)間來進(jìn)行校對(duì)。去掉下劃線后,,識(shí)別率顯著提高,。花了時(shí)間去掉下劃線,,節(jié)約了校對(duì)時(shí)間,,但是效率卻大幅提高了。
我采用的圖像處理軟件為PhotoFiltre Studio X 10.2.1,。這個(gè)軟件能夠滿足對(duì)掃描文件的處理,。我最初采用的是Windows自帶的“畫筆”軟件,但是存盤后,,發(fā)現(xiàn)分辨率降低了,,以致識(shí)別率極低。所以我最后才選定PhotoFiltre Studio X這個(gè)軟件。使用其中的選擇工具,,把下劃線和所有污點(diǎn)去掉,。
3、OCR識(shí)別 經(jīng)過比較,,我選定了“漢王文本王 文豪7600”(專業(yè)版)這個(gè)軟件,。這個(gè)軟件對(duì)于繁體豎排的掃描文件識(shí)別率很高(去掉掃描文件中的下劃線后),而且校對(duì)功能很方便,。這是我沒有想到的,,說明漢王的技術(shù)確實(shí)不錯(cuò),不愧為“漢王”,。
最好一頁一頁地識(shí)別,。打開需要識(shí)別的掃描文件,(1)在工具欄中選擇選項(xiàng)“豎排”,、“簡(jiǎn)繁”等配置項(xiàng),;(2)選擇工具欄中的“版面分析”分析掃描文件的版面??梢詫⒉恍枰R(shí)別的版面去掉,。版面會(huì)影響識(shí)別后的排版格式。(3)選擇工具欄中的“識(shí)別”進(jìn)行OCR識(shí)別,。(4)校對(duì),。在校對(duì)窗口中校對(duì)文本。(5)文本輸出,??梢詫⒆R(shí)別后的文本輸出到Word 2003,輸出到2010可能有些問題,。所以我直接將文本復(fù)制到Word 2010中,,在其中重新編輯排版。
4,、繁體字的輸入 對(duì)于繁體書,在OCR識(shí)別后的校對(duì)過程中,,需要輸入繁體字,,特別一些生僻的繁體字。對(duì)于大陸讀者來講,,輸入和處理繁體字非常令人頭痛,。
(1)繁體字庫。要處理繁體字,,最好還是裝一些繁體字庫,。我裝的有:PMingLiU-Fixed.ttf、方正蘭亭字庫5.0繁體和UniFonts.exe,這些字庫在網(wǎng)上搜索下載安裝即可,,安裝到Windows的Fonts目錄下,。UniFonts.exe字庫是為了采用海峰五筆而安裝的。
(2)繁體字的輸入 網(wǎng)上介紹了很多種輸入繁體字的方法,,采用哪種方法取決于你所熟悉的輸入法?,F(xiàn)在,很多輸入法,,輸入簡(jiǎn)體可以自動(dòng)轉(zhuǎn)換輸出繁體,。因?yàn)槲也捎玫氖俏骞P,所以采用了萬能五筆和海峰五筆,。
萬能五筆對(duì)于一般的繁體字輸入是沒有問題的,,但是對(duì)于生僻一點(diǎn)的繁體字就無法輸入了。為此,,我發(fā)現(xiàn)了可以支持大字庫Unicode編碼的海峰五筆,,可以解決繁體生僻字的輸入問題。但是對(duì)于此書中的個(gè)別生僻繁體字,,仍然無法輸入,。
(3)生僻繁體字的輸入 生僻繁體字的輸入讓我傷透了腦筋,總算有了比較好的解決方法,。① 采用海峰五筆可以解決絕大多數(shù)繁體字的輸入,。② 對(duì)于海峰五筆無法輸入或不會(huì)拆字的生僻字,我采用的是Word中的插入字符的方法,。先在Word中寫一個(gè)相似的字(部首相同),,選擇這個(gè)字,選擇“插入—符號(hào)”,,即可找到與這個(gè)字相似的漢字,,在其中查找,找到后插入,。在一個(gè)字庫中找不到,,就只能在另外的繁體字庫中查找了,相當(dāng)費(fèi)時(shí)間,,不過沒辦法,,這是最后一招了。③ 最麻煩的是字庫中沒有的生僻繁體字,,就只能采用造字或其它方法了,。
三、效果 經(jīng)過一段時(shí)間的摸索,,上述方法解決了將繁體豎排掃描版pdf圖書轉(zhuǎn)化為可編輯的文本文件,。目前,我已成功將楊伯峻先生的《春秋左傳注》一書的“前言”部分(近60頁,3萬多字)轉(zhuǎn)化為可編輯的文本文件,。
如果有時(shí)間,,我準(zhǔn)備完成全書的轉(zhuǎn)化工作,并對(duì)全書進(jìn)行重新編輯排版,,以表達(dá)對(duì)楊先生的崇敬,。當(dāng)然,著作權(quán)仍然歸楊先生所有,,轉(zhuǎn)化后的文檔只能用于學(xué)習(xí),,我們要充分尊重楊先生的著作權(quán)。為了表示我對(duì)楊先生著作權(quán)和版權(quán)的尊重,,我已購買了此書,,中華書局的一套四本修訂版。
|
|