對(duì)于pdf文檔,大家平時(shí)在工作的時(shí)候,,可能會(huì)遇到很多的問(wèn)題,,比如不知道文字提取功能是怎么操作的,所以很多時(shí)候都浪費(fèi)了時(shí)間,。那么pdf文字提取是怎么操作的?pdf的作用及基本特征是什么?萬(wàn)興PDF專家將為您詳細(xì)介紹,。 PDF文檔 PDF是由Adobe公司所開(kāi)發(fā)的獨(dú)特的跨平臺(tái)文件格式。是便攜文檔格式的外語(yǔ)簡(jiǎn)稱,,同時(shí)也是該格式的擴(kuò)展名,。它可把文檔的文本、格式,、字體,、顏色,、分辨率、鏈接及圖形圖像,、聲音,、動(dòng)態(tài)影像等所有的信息封裝在一個(gè)特殊的整合文件中。它在技術(shù)上起點(diǎn)高,,功能全,,功能大大的強(qiáng)過(guò)了現(xiàn)有的各種流行文本格式;又有大名鼎鼎、實(shí)力超群Adobe公司的極力推廣,,現(xiàn)在已經(jīng)成為了新一代電子文本的不可爭(zhēng)議的行業(yè)標(biāo)準(zhǔn),。 pdf的作用及基本特征 PDF文件不管是在Windows,Unix還是在蘋(píng)果公司的Mac OS操作系統(tǒng)中都是通用的,。這一特點(diǎn)使它成為在Internet上進(jìn)行電子文檔發(fā)行和數(shù)字化信息傳播的理想文檔格式,。越來(lái)越多的電子圖書(shū)、產(chǎn)品說(shuō)明,、公司文告,、網(wǎng)絡(luò)資料、電子郵件開(kāi)始使用PDF格式文件,。PDF格式文件目前已成為數(shù)字化信息事實(shí)上的一個(gè)工業(yè)標(biāo)準(zhǔn),。 Adobe公司設(shè)計(jì)PDF文件格式的目的是為了支持跨平臺(tái)上的,多媒體集成的信息出版和發(fā)布,,尤其是提供對(duì)網(wǎng)絡(luò)信息發(fā)布的支持,。為了達(dá)到此目的, PDF具有許多其他電子文檔格式無(wú)法相比的優(yōu)點(diǎn),。PDF文件格式可以將文字,、字型、格式,、顏色及獨(dú)立于設(shè)備和分辨率的圖形圖像等封裝在一個(gè)文件中,。該格式文件還可以包含超文本鏈接、聲音和動(dòng)態(tài)影像等電子信息,,支持特長(zhǎng)文件,,集成度和安全可靠性都較高。 PDF文件使用了工業(yè)標(biāo)準(zhǔn)的壓縮算法,,通常比PostScript文件小,,易于傳輸與儲(chǔ)存。 pdf文字提取怎么操作,? 1. 第一步:先用Adobe Reader打開(kāi)想轉(zhuǎn)換的PDF文件,,接下來(lái)選擇“文件→打印”菜單,在打開(kāi)的“打印”窗口中將“打印機(jī)”欄中的“名稱”設(shè)置為“Microsoft Office Document Image Writer”,,確認(rèn)后將該PDF文件輸出為MDI格式的虛擬打印文件,。 第二步:運(yùn)行Microsoft Office Document Imaging,并利用它來(lái)打開(kāi)剛才保存的MDI文件,,選擇“工具→將文本發(fā)送到Word”菜單,,在彈出的窗口中選中“在輸出時(shí)保持圖片版式不變”,確認(rèn)后系統(tǒng)會(huì)提示“必須在執(zhí)行此操作前重新運(yùn)行OCR,。這可能需要一些時(shí)間”,,不管它,確認(rèn)即可,。 2. 情況一:如果pdf文檔本身就是用pagemaker或word轉(zhuǎn)換而來(lái)的(文字非常清晰銳利,,很容易識(shí)別),那你就方便了,。你可以先用acrobat打開(kāi),,然后點(diǎn)文件——>另存為——>把他保存成rtf文檔,這樣將把所有的pdf頁(yè)保存成rtf文檔,,在用word打開(kāi),。注意最好保存成rtf文檔,要不很有可能產(chǎn)生亂碼,。小技巧:如果你只想識(shí)別pdf文件中的其中幾頁(yè),,那你可以現(xiàn)把那幾頁(yè)另存為新的pdf文檔,再進(jìn)行識(shí)別,。Ny1
pdf文字提取 情況二:如果你所得到的pdf文檔是用掃描儀掃進(jìn)去的圖片轉(zhuǎn)換的,,那么就麻煩了,不過(guò)還是比手輸入快多了,,所以繼續(xù)往下看,。首先你用acrobat把pdf文件打開(kāi),然后點(diǎn)文件——>另存為——>把他保存成圖片格式*.tiff(這是無(wú)壓縮圖片格式,,以便識(shí)別),,然后到網(wǎng)上下載文字識(shí)別軟件,建議用尚書(shū)六號(hào)(現(xiàn)在好像出到七號(hào)了,,很有名,,隨處都可以下到),安裝好后,,打開(kāi)轉(zhuǎn)換好的tiff圖片,,點(diǎn)擊識(shí)別,看,,文字出來(lái)了吧,,尚書(shū)系列文字識(shí)別軟件功能十分強(qiáng)大,你可以在里面把文字都編輯好了,,再保存成rtf或txt文件,,然后粘貼到word里就可以使用了,,注意過(guò)濾回車符。 以上就是關(guān)于pdf文字提取的詳細(xì)介紹,??赐晡恼拢蠹覍?duì)如何提取文字是不是清楚了很多,,相信大家在以后的工作之中也會(huì)感到輕松,,推薦使用萬(wàn)興PDF專家。 |
|
來(lái)自: 慕文思靜 > 《我的圖書(shū)館》