掃描版PDF轉(zhuǎn)文字Word(python3)

和相品 2020-05-13

展開全文

一.將掃描版PDF轉(zhuǎn)為可復(fù)制文字版PDF

1.利用百度api將掃描版的pdf轉(zhuǎn)為文字版的pdf

申請網(wǎng)址:https://console.bce.baidu.com

點擊后創(chuàng)建文字識別應(yīng)用,在應(yīng)用列表中可見調(diào)用api時的APP_ID,、API_KEY、SECRET_KEY

2.依次安裝以下python模塊

pip3 install PyPDF2
pip3 install baidu-aip
pip3 install pdfkit
pip3 install pymupdf

3.安裝wkhtmltopdf 軟件

下載網(wǎng)址：https:///downloads.html

記下安裝目錄下 bin/wkhtmltopdf.exe位置,，程序中的 path_wk 參數(shù)需要此位置

4.程序：

from PyPDF2 import PdfFileReader, PdfFileWriter
from aip import AipOcr
import pdfkit
import fitz
import os


pdfpath = 'D:\pdf3'
pdfname = '水滸傳.pdf'
path_wk = r'D:/Procedure/wkhtmltopdf/bin/wkhtmltopdf.exe'


APP_ID = '1234567'
API_KEY = 'abcdefg'
SECRET_KEY = 'qwertyuiop'

# 以下為處理程序---------------------------------------------------------------------------
pdfkit_config = pdfkit.configuration(wkhtmltopdf=path_wk)
pdfkit_options = {'encoding': 'UTF-8', }
# 將每頁pdf轉(zhuǎn)為png格式圖片
def pdf_image():
    pdf = fitz.open(pdfpath+os.sep+pdfname)
    for pg in range(0, pdf.pageCount):
        # 獲得每一頁的對象
        page = pdf[pg]
        trans = fitz.Matrix(1.0, 1.0).preRotate(0),
        # 獲得每一頁的流對象
        pm = page.getPixmap(matrix=trans, alpha=False)
        # 保存圖片
        pm.writePNG(image_path + os.sep + pdfname[:-4] + '_' + '{:0>3d}.png'.format(pg + 1))
    page_range = range(pdf.pageCount)
    pdf.close()
    return page_range


def read_png_str(page_range):
    # 讀取本地圖片的函數(shù)
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()

    all_pngstr = []
    image_list = []
    for page_num in page_range:
        # 讀取本地圖片
        image = get_file_content(image_path + os.sep + r'{}_{}.png'.format(pdfname[:-4], '%03d' % (page_num + 1)))
        image_list.append(image)

    # 新建一個AipOcr
    client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
    options = {}
    options["language_type"] = "CHN_ENG"
    options["detect_direction"] = "false"
    options["detect_language"] = "false"
    options["probability"] = "false"
    for image in image_list:
        # 文字識別,得到一個字典
        pngjson = client.basicGeneral(image, options)
        pngstr = ''
        for x in pngjson['words_result']:
            pngstr = pngstr + x['words'] + '</br>'
        print('正在調(diào)用百度接口：第{}個,，共{}個'.format(len(all_pngstr), len(image_list)))
        all_pngstr.append(pngstr)
    return all_pngstr


def str2pdf(page_range, all_pngstr):
    # 字符串寫入PDF
    for page_num in page_range:
        print('正在將字符串寫入PDF：第{}個，共{}個'.format((page_num + 1), len(page_range)))
        pdfkit.from_string((all_pngstr[page_num]), disperse_pdfpath + os.sep + '%s.pdf' % (str(page_num + 1)),
                           configuration=pdfkit_config, options=pdfkit_options)


def pdf_merge(page_range):
    # 合并單頁PDF
    pdf_output = PdfFileWriter()
    for page_num in page_range:
        print('正在合并單頁：第{}個,，共{}個'.format((page_num + 1), len(page_range)))
        pdf_input = PdfFileReader(open(disperse_pdfpath + os.sep + '%s.pdf' % (str(page_num + 1)), 'rb'))
        page = pdf_input.getPage(0)
        pdf_output.addPage(page)
    newPdfPath = pdfpath+os.sep + 'new_{}'.format(pdfname)
    pdf_output.write(open(newPdfPath, 'wb'))
    return newPdfPath


image_path = pdfpath + os.sep + "image"
if not os.path.exists(image_path):
    os.mkdir(image_path)

disperse_pdfpath = pdfpath + os.sep + "pdf"
if not os.path.exists(disperse_pdfpath):
    os.mkdir(disperse_pdfpath)

range_count = pdf_image()
all_th = read_png_str(range_count)
str2pdf(range_count, all_th)
pdf_merge(range_count)

二.將掃描版PDF轉(zhuǎn)為可復(fù)制文字版Word文檔

1.在安裝了上節(jié)所需的環(huán)境的基礎(chǔ)下，安裝python-docx python模塊

pip3 install python-docx

2.程序：

from docx import Document
from aip import AipOcr
import pdfkit
import fitz
import os

pdfpath = 'D:\pdf'
pdfname = '水滸傳.pdf'
path_wk = r'D:/Procedure/wkhtmltopdf/bin/wkhtmltopdf.exe'

APP_ID = '123456789'
API_KEY = 'abcdefg'
SECRET_KEY = 'qwertyuiop'

# ---------------------------------------------------------------------------
pdfkit_config = pdfkit.configuration(wkhtmltopdf=path_wk)
pdfkit_options = {'encoding': 'UTF-8', }


# 將每頁pdf轉(zhuǎn)為png格式圖片
def pdf_image():
    pdf = fitz.open(pdfpath + os.sep + pdfname)
    for pg in range(0, pdf.pageCount):
        # 獲得每一頁的對象
        page = pdf[pg]
        trans = fitz.Matrix(1.0, 1.0).preRotate(0)
        # 獲得每一頁的流對象
        pm = page.getPixmap(matrix=trans, alpha=False)
        # 保存圖片
        pm.writePNG(image_path + os.sep + pdfname[:-4] + '_' + '{:0>3d}.png'.format(pg + 1))
    page_range = range(pdf.pageCount)
    pdf.close()
    return page_range


# 將圖片中的文字轉(zhuǎn)換為字符串
def read_png_str(page_range):
    # 讀取本地圖片的函數(shù)
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()

    allPngStr = []
    image_list = []
    for page_num in page_range:
        # 讀取本地圖片
        image = get_file_content(image_path + os.sep + r'{}_{}.png'.format(pdfname[:-4], '%03d' % (page_num + 1)))
        print(image)
        image_list.append(image)

    # 新建一個AipOcr
    client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
    # 可選參數(shù)
    options = {}
    options["language_type"] = "CHN_ENG"
    options["detect_direction"] = "false"
    options["detect_language"] = "false"
    options["probability"] = "false"
    for image in image_list:
        # 通用文字識別,得到的是一個dict
        pngjson = client.basicGeneral(image, options)
        pngstr = ''
        for x in pngjson['words_result']:
            pngstr = pngstr + x['words'] + '\n'
        print('正在調(diào)用百度接口：第{}個,，共{}個'.format(len(allPngStr), len(image_list)))
        allPngStr.append(pngstr)
    return allPngStr


def str2word(allPngStr):
    document = Document()
    for i in allPngStr:
        document.add_paragraph(
            i, style='ListBullet'
        )
        document.save(pdfpath + os.sep + pdfname[:-4] + '.docx')

    print('處理完成')


image_path = pdfpath + os.sep + "image"
if not os.path.exists(image_path):
    os.mkdir(image_path)

range_count = pdf_image()
allPngStr = read_png_str(range_count)
str2word(allPngStr)

三.將PDF中的文字轉(zhuǎn)為word文檔

1.安裝如下兩個python模塊

pip3 install pdfminer3k

pip3 install python-docx

2.程序：

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
from docx import Document
import warnings
import os


filePath = 'D:/pdf/水滸傳.pdf'


file_name = os.open(filePath, os.O_RDWR)
document = Document()
warnings.filterwarnings("ignore")
def pdf2word():
    fn = open(file_name, 'rb')
    parser = PDFParser(fn)
    doc = PDFDocument()
    parser.set_document(doc)
    doc.set_parser(parser)
    resource = PDFResourceManager()
    laparams = LAParams()
    device = PDFPageAggregator(resource, laparams=laparams)
    interpreter = PDFPageInterpreter(resource, device)
    for i in doc.get_pages():
        interpreter.process_page(i)
        layout = device.get_result()
        for out in layout:
            if hasattr(out, "get_text"):
                content = out.get_text().replace(u'\xa0', u' ')
                document.add_paragraph(
                    content, style='ListBullet'
                )
            document.save(filePath[:-4] + '.docx')
    print('處理完成')


if __name__ == '__main__':
    pdf2word()