像一些直接網(wǎng)上下載來的PDF文件,譬如下圖的這個(gè)PDF文檔,,它的原始格式就是word,。 其實(shí)也就是跟圖片差不多吧,無法復(fù)制不可編輯,。 一般像這種文字居多的或者摻雜圖片較少的PDF文檔,,要轉(zhuǎn)換成可編輯的word文檔還是比較容易也比較多方法可以實(shí)現(xiàn)的。 新版的office是支持直接打開并轉(zhuǎn)換PDF的,,不過往往會(huì)有這個(gè)提示,。超出word支持的頁面大小,無法打開,。你可以先試試,。 word打開不行,那用acrobat的文字識(shí)別功能,。先識(shí)別一下文檔,。 基本上這種都能直接識(shí)別出文字,識(shí)別率還是蠻高(因?yàn)槲臋n文字居多,,也沒啥難度)咱們直接復(fù)制到記事本去一下格式,,再粘貼到word里面。效果還是蠻不錯(cuò),。 但就不要識(shí)別后直接用acrobat直接另存為word了,,這樣沒有效果。 會(huì)出現(xiàn)一些識(shí)別錯(cuò)誤的現(xiàn)象,,這當(dāng)然也在所難免的,。還是需要對比原文檔來修改更正一下。另外字體原格式和排版肯定是要犧牲了,。 我們來將難度提高一下,。掃描件PDF。 一樣還是上面的識(shí)別文檔再到word,。然后是下圖這樣子,。 文檔復(fù)雜時(shí)acrobat便不行了,畢竟OCR文字識(shí)別并不是acrobat的強(qiáng)項(xiàng),。 這里我們可以用ABBYY這個(gè)軟件來進(jìn)行PDF轉(zhuǎn)換,,就目前來說它可算是OCR文字識(shí)別界中的佼佼者。 直接拖拽進(jìn)來讓它自動(dòng)識(shí)別就可以了,有三百多頁,,過程有點(diǎn)久,。它會(huì)直接掃描PDF文檔的圖片識(shí)別出文字。并且此工具還較大程度上保留原始格式的樣式和編排,。 識(shí)別完成后直接將它另存為word文檔下,。 效果還是非常的好。 |
|