如何將繁體豎排掃描版pdf電子圖書轉(zhuǎn)化為可編輯的文本

易學(xué)的探索 2019-05-11

展開全文

如何將繁體豎排掃描版pdf電子圖書轉(zhuǎn)化為可編輯的文本文件

一,、背景

酷暑難熬,，心情煩躁，讀書是最好的“清涼飲料”,。最近,，閑暇時(shí)間正在讀春秋左傳。我讀的版本為李夢(mèng)生撰,、上海古籍出版社出版的《左傳譯注》,。在讀的過程中，總是感覺有的地方?jīng)]有注釋,，只能看譯文幫助理解,。于是，就想找其它的版本作參考,。該書“前言”中提到：“特別需要說明的是,，楊伯峻先生的《春秋左傳注》一書，對(duì)我的幫助尤大,?！彼裕驮诰W(wǎng)上下載了此書（修訂本）的電子文檔,。

楊伯峻先生的《春秋左傳注》一書是春秋左傳的經(jīng)典必讀之書,。遺憾的是，此書為繁體豎排,，注釋插在正文中,，并且沒有譯文。此書對(duì)于大陸讀者來說,，可能很不習(xí)慣,。能不能將此書重新排版，采用更適合大陸讀者閱讀習(xí)慣的格式,，重新出版呢,？這或許是我的一個(gè)夢(mèng)想，因?yàn)闂畈壬呀?jīng)去世,，而且全書有1800多頁,。

我一時(shí)沖動(dòng)居然想實(shí)現(xiàn)這個(gè)夢(mèng)想,。我在網(wǎng)上下載的版本是掃描圖像制成的pdf格式，要想重新排版,，需要可以編輯的文檔,。我在網(wǎng)上還沒有找到此書可編輯的版本。所以,，我就試著自己將這本書的掃描版本轉(zhuǎn)化為可編輯的版本,。

二、方法

我在網(wǎng)上看了一些相關(guān)的資料,，借鑒了別人的一些經(jīng)驗(yàn),，通過反復(fù)試驗(yàn)，終于找到了將繁體豎排掃描圖像的pdf電子圖書轉(zhuǎn)化為可編輯文本的方法,。

1,、將掃描版pdf圖書轉(zhuǎn)化為圖像文件

由于掃描后制成pdf格式的圖書，內(nèi)部的每頁都是一個(gè)圖像,，所以必須把其中的圖像文件提取出來,，采用OCR識(shí)別的方法，才能轉(zhuǎn)化為可編輯的文本格式,。

轉(zhuǎn)化為圖像文件,，有兩種方法：

（1）直接由Adobe Acrobat導(dǎo)出圖像文件。

我采用的是Adobe Acrobat Pro 9,。選擇“文件—導(dǎo)出—圖像—TIFF”功能即可從掃描圖像的pdf文中提取出多個(gè)掃描文檔（每頁一個(gè)）。這種方法非常簡(jiǎn)單適用,，推薦使用,。之所以要轉(zhuǎn)化成TIFF格式的圖像文件，是因?yàn)橛薪榻B說TIFF格式的圖像文件,，OCR的識(shí)別率高,。

（2）用Microsoft Office Document Image Writer打印生成pdf文檔的圖像文件。

Microsoft Office Document Image Writer是Office中帶的一個(gè)工具,。如果在安裝Office時(shí)沒有安裝,，對(duì)于2003和2007版本的Office，只須重新安裝一遍即可,。在需要安裝的內(nèi)容中,，在“工具”中選擇后安裝即可。我使用的是Office 2010,，在安裝內(nèi)容選項(xiàng)中沒有找到這個(gè)工具,。不知道是版本問題，還是2010版本本身就沒有這個(gè)工具,。我用Office 2007安裝了此工具,，使用正常,。因?yàn)檫@就是一個(gè)虛擬打印機(jī)，所以可以采用以前版本的,。安裝時(shí),，只選擇此工具，其它內(nèi)容全部不選,。這樣安裝后,，可以保證Office 2010的正常使用。

Microsoft Office Document Image Writer安裝正常后,，在Adobe Acrobat Pro 9中打印時(shí),，選擇此打印機(jī)即可將pdf格式的圖書轉(zhuǎn)化為一個(gè)TIFF文檔。

2,、對(duì)提取到的圖像文件進(jìn)行處理,。

此項(xiàng)工作的主要目的是，提高OCR識(shí)別率,，減少校對(duì)編輯時(shí)間,。如果掃描文件的質(zhì)量很高，可以不進(jìn)行此項(xiàng)工作,。

我之所以要進(jìn)行此項(xiàng)工作,，并不是因?yàn)閽呙栉募馁|(zhì)量不高，而是因?yàn)楸緯鵀榉斌w豎排,，而且專有名詞下面都帶了下劃線,。就是這些下劃線影響了識(shí)別率。我在沒進(jìn)行圖像處理前進(jìn)行識(shí)別,，識(shí)別出來的文本錯(cuò)誤很多,，需要花費(fèi)很長(zhǎng)時(shí)間來進(jìn)行校對(duì)。去掉下劃線后,，識(shí)別率顯著提高,。花了時(shí)間去掉下劃線,，節(jié)約了校對(duì)時(shí)間,，但是效率卻大幅提高了。

我采用的圖像處理軟件為PhotoFiltre Studio X 10.2.1,。這個(gè)軟件能夠滿足對(duì)掃描文件的處理,。我最初采用的是Windows自帶的“畫筆”軟件，但是存盤后,，發(fā)現(xiàn)分辨率降低了,，以致識(shí)別率極低。所以我最后才選定PhotoFiltre Studio X這個(gè)軟件。使用其中的選擇工具,，把下劃線和所有污點(diǎn)去掉,。

3、OCR識(shí)別

經(jīng)過比較,，我選定了“漢王文本王文豪7600”（專業(yè)版）這個(gè)軟件,。這個(gè)軟件對(duì)于繁體豎排的掃描文件識(shí)別率很高（去掉掃描文件中的下劃線后），而且校對(duì)功能很方便,。這是我沒有想到的,，說明漢王的技術(shù)確實(shí)不錯(cuò)，不愧為“漢王”,。

最好一頁一頁地識(shí)別,。打開需要識(shí)別的掃描文件，（1）在工具欄中選擇選項(xiàng)“豎排”,、“簡(jiǎn)繁”等配置項(xiàng),；（2）選擇工具欄中的“版面分析”分析掃描文件的版面?？梢詫⒉恍枰R(shí)別的版面去掉,。版面會(huì)影響識(shí)別后的排版格式。（3）選擇工具欄中的“識(shí)別”進(jìn)行OCR識(shí)別,。（4）校對(duì),。在校對(duì)窗口中校對(duì)文本。（5）文本輸出,?？梢詫⒆R(shí)別后的文本輸出到Word 2003，輸出到2010可能有些問題,。所以我直接將文本復(fù)制到Word 2010中,，在其中重新編輯排版。

4,、繁體字的輸入

對(duì)于繁體書，在OCR識(shí)別后的校對(duì)過程中,，需要輸入繁體字,，特別一些生僻的繁體字。對(duì)于大陸讀者來講,，輸入和處理繁體字非常令人頭痛,。

（1）繁體字庫。要處理繁體字,，最好還是裝一些繁體字庫,。我裝的有：PMingLiU-Fixed.ttf、方正蘭亭字庫5.0繁體和UniFonts.exe，這些字庫在網(wǎng)上搜索下載安裝即可,，安裝到Windows的Fonts目錄下,。UniFonts.exe字庫是為了采用海峰五筆而安裝的。

（2）繁體字的輸入

網(wǎng)上介紹了很多種輸入繁體字的方法,，采用哪種方法取決于你所熟悉的輸入法?，F(xiàn)在，很多輸入法,，輸入簡(jiǎn)體可以自動(dòng)轉(zhuǎn)換輸出繁體,。因?yàn)槲也捎玫氖俏骞P，所以采用了萬能五筆和海峰五筆,。

萬能五筆對(duì)于一般的繁體字輸入是沒有問題的,，但是對(duì)于生僻一點(diǎn)的繁體字就無法輸入了。為此,，我發(fā)現(xiàn)了可以支持大字庫Unicode編碼的海峰五筆,，可以解決繁體生僻字的輸入問題。但是對(duì)于此書中的個(gè)別生僻繁體字,，仍然無法輸入,。

（3）生僻繁體字的輸入

生僻繁體字的輸入讓我傷透了腦筋，總算有了比較好的解決方法,。① 采用海峰五筆可以解決絕大多數(shù)繁體字的輸入,。② 對(duì)于海峰五筆無法輸入或不會(huì)拆字的生僻字，我采用的是Word中的插入字符的方法,。先在Word中寫一個(gè)相似的字（部首相同）,，選擇這個(gè)字，選擇“插入—符號(hào)”,，即可找到與這個(gè)字相似的漢字,，在其中查找，找到后插入,。在一個(gè)字庫中找不到,，就只能在另外的繁體字庫中查找了，相當(dāng)費(fèi)時(shí)間,，不過沒辦法,，這是最后一招了。③ 最麻煩的是字庫中沒有的生僻繁體字,，就只能采用造字或其它方法了,。

三、效果

經(jīng)過一段時(shí)間的摸索,，上述方法解決了將繁體豎排掃描版pdf圖書轉(zhuǎn)化為可編輯的文本文件,。目前，我已成功將楊伯峻先生的《春秋左傳注》一書的“前言”部分（近60頁，3萬多字）轉(zhuǎn)化為可編輯的文本文件,。

如果有時(shí)間,，我準(zhǔn)備完成全書的轉(zhuǎn)化工作，并對(duì)全書進(jìn)行重新編輯排版,，以表達(dá)對(duì)楊先生的崇敬,。當(dāng)然，著作權(quán)仍然歸楊先生所有,，轉(zhuǎn)化后的文檔只能用于學(xué)習(xí),，我們要充分尊重楊先生的著作權(quán)。為了表示我對(duì)楊先生著作權(quán)和版權(quán)的尊重,，我已購買了此書,，中華書局的一套四本修訂版。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：易學(xué)的探索 > 《綜合》

舉報(bào)/認(rèn)領(lǐng)