本教程將展示如何使用PdgCntEditor工具軟件輕松完成這項任務。
一般操作步驟
-
在PdgCntEditor軟件中打開PDF文件(如果無法保存目錄,請查看Debug1部分的解決方法),。
-
從書籍目錄頁中復制目錄內容,。
-
粘貼復制的目錄內容到PdgCntEditor軟件中(如果多復制了目錄頁的羅馬數字頁碼,請查看Debug2部分的解決方法),。
-
在PdgCntEditor中,,全選文本。
-
依次點擊上面的三個按鈕:
- 自動分割頁碼按鈕(標有"g"圖標),。
- 自動縮進按鈕(標有"1."圖標),。
- 設置起始頁按鈕(標有"pdf"圖標)。
-
去除多余的"....."(可以在Sublime Text中執(zhí)行此操作,,操作前會自動高亮顯示待處理內容,,不易出錯)。
- 執(zhí)行正則查找:\s.{3,}\s(\d+),,替換為\t\1(具體說明見備注1),。
-
保存即可。
參考鏈接
- 軟件原作者鏈接(老馬的原創(chuàng)空間)
- 找目錄
- 當當網
- 京東
- 還可以使用軟件作者提供的其它軟件工具或者Adobe PDF自帶掃描功能對目錄頁進行OCR后直接復制,。
- 其它教程:
小技巧
- 如果書籍有缺失,,可以選擇從某一目錄下的頁碼自動加減某個數字(選中內容后軟件里也有自動加減頁碼數的按鈕),,進行更新。
- 可以使用Sublime Text進行正則替換,,操作前會自動高亮顯示待處理內容,,不易出錯;PdgCntEditor幫助文檔中提供了常用的正則規(guī)則,。
備注
- 去除多余的"....."正則式解析:
- 正則查找:\s.{3,}\s(\d+),,替換為\t\1。
- 這個查找正則表達式匹配0個或多個空格,,后跟三個或更多的點,,然后是0個或多個空格,最后是另一個或多個數字(即頁碼,,使用括號捕獲為第一組),。替換正則式表示tab加第一組內容,即將"......xx"替換為頁碼"xx",。
Debug
-
保存失敗原因與解決:
- 文檔加密:需要先用pdf24解密,。
- 文檔只讀模式:需要先另存為一下,取消只讀模式,。
- 已打開文檔,,需要先關閉。
-
從書籍目錄頁復制目錄內容后,粘貼到軟件中發(fā)現(xiàn)多粘貼了目錄頁的羅馬數字頁碼:
- 需要使用以下正則表達式:[ivx]+\sContents 替換為空,。
- 正則表達式 [ivx] 匹配的是羅馬數字字符中的任何一個,,以便匹配類似于 "i Contents"、"ii Contents",、"iii Contents" 等帶有羅馬數字序號的文本,。
__EOF__
|