自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

手把手|20行Python代碼教你批量將PDF文件轉(zhuǎn)為Word格式（包教包會(huì)）

作者：菜鳥分析 2018-03-07 20:00:12

開發(fā) 后端

很多時(shí)候在學(xué)習(xí)時(shí)發(fā)現(xiàn)許多文檔都是PDF格式，PDF格式卻不利于學(xué)習(xí)使用，因此需要將PDF轉(zhuǎn)換為Word文件，但或許你從網(wǎng)上下載了很多軟件，但只能轉(zhuǎn)換前五頁(yè)（如WPS等），要不就是需要收費(fèi)，那有沒有免費(fèi)的轉(zhuǎn)換軟件呢？菜鳥分析給各位帶來了一個(gè)免費(fèi)簡(jiǎn)單快速的方法，手把手教你用Python批量處理PDF格式文件，獲取自己想要的內(nèi)容，存為word形式。

在日常工作或?qū)W習(xí)中，經(jīng)常會(huì)遇到這樣的無(wú)奈：

“小任，你把這個(gè)PDF中的文件碼出來發(fā)我”

倒霉，2M的PDF12點(diǎn)也完不了??！

[[221735]]

很多時(shí)候在學(xué)習(xí)時(shí)發(fā)現(xiàn)許多文檔都是PDF格式，PDF格式卻不利于學(xué)習(xí)使用，因此需要將PDF轉(zhuǎn)換為Word文件，但或許你從網(wǎng)上下載了很多軟件，但只能轉(zhuǎn)換前五頁(yè)（如WPS等），要不就是需要收費(fèi)，那有沒有免費(fèi)的轉(zhuǎn)換軟件呢？

so，菜鳥分析給各位帶來了一個(gè)免費(fèi)簡(jiǎn)單快速的方法，手把手教你用Python批量處理PDF格式文件，獲取自己想要的內(nèi)容，存為word形式。

在實(shí)現(xiàn)PDF轉(zhuǎn)Word功能之前，我們需要一個(gè)python的編寫和運(yùn)行環(huán)境，同時(shí)安裝好相關(guān)的依賴包。對(duì)于python環(huán)境，我們推薦使用PyCharm。在本地電腦環(huán)境，anaconda提供了非常便利的安裝和部署。

PDF轉(zhuǎn)Word功能所需的依賴包如下：

PDFParser（文檔分析器），PDFDocument（文檔對(duì)象），PDFResourceManager（資源管理器），PDFPageInterpreter（解釋器），PDFPageAggregator（聚合器），LAParams（參數(shù)分析器）

一、前期準(zhǔn)備工作

說明：菜鳥分析是在Windows7下使用python***的3.6版本

1.安裝pdfminer3k模塊

安裝anaconda后，直接可以通過pip安裝

2.若安裝不成功，可以試試下面方法

首先下載pdfminer3k：https://pypi.python.org/pypi/pdfminer3k；然后安裝pdfminer

將下載好的pdfminer3k解壓到D:或其他合適的盤符，通過win+r 打開運(yùn)行窗口，輸入cmd；

輸入D:切換到D盤，cd pdfminer3k(pdf解壓的文件夾)，輸入setup.py install安裝軟件。

最終顯示Finished，則代表成功

二、代碼實(shí)操

導(dǎo)入相關(guān)包

from pdfminer.pdfparser import PDFParser, PDFDocument  
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter  
from pdfminer.layout import LAParams  
from pdfminer.converter import PDFPageAggregator

整體思路為：構(gòu)造文檔對(duì)象，解析文檔對(duì)象，提取所需內(nèi)容

構(gòu)造文檔對(duì)象

構(gòu)造解釋器

2.導(dǎo)入需要解析的PDF文件

將所需解析的文件與執(zhí)行代碼放到同一個(gè)目錄下，如圖：

test.pdf內(nèi)容

3.具體代碼如下：

from pdfminer.pdfparser import PDFParser, PDFDocument  
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter 
from pdfminer.layout import LAParams  
from pdfminer.converter import PDFPageAggregator  
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed  
 
def parse():  
    #rb以二進(jìn)制讀模式打開本地pdf文件  
    fn = open('test.pdf','rb') 
    #創(chuàng)建一個(gè)pdf文檔分析器  
    parser = PDFParser()  
    #創(chuàng)建一個(gè)PDF文檔  
    doc = PDFDocument()  
    #連接分析器 與文檔對(duì)象  
    parser.set_document()  
    doc.set_parser()  
 
    # 提供初始化密碼doc.initialize("lianxipython")  
    # 如果沒有密碼 就創(chuàng)建一個(gè)空的字符串  
    doc.initialize("")  
    # 檢測(cè)文檔是否提供txt轉(zhuǎn)換，不提供就忽略  
    if not doc.is_extractable:  
        raise PDFTextExtractionNotAllowed  
    else:  
        #創(chuàng)建PDf資源管理器  
        resource = PDFResourceManager()  
        #創(chuàng)建一個(gè)PDF參數(shù)分析器  
        laparams = LAParams()  
        #創(chuàng)建聚合器,用于讀取文檔的對(duì)象  
        device = PDFPageAggregator(resource,laparams=laparams)  
        #創(chuàng)建解釋器，對(duì)文檔編碼，解釋成Python能夠識(shí)別的格式  
        interpreter = PDFPageInterpreter(resource,device)  
        # 循環(huán)遍歷列表，每次處理一頁(yè)的內(nèi)容  
        # doc.get_pages() 獲取page列表  
        for page in doc.get_pages():  
            #利用解釋器的process_page()方法解析讀取單獨(dú)頁(yè)數(shù)  
            interpreter.process_page(page)  
            #使用聚合器get_result()方法獲取內(nèi)容  
            layout = device.get_result()  
            #這里layout是一個(gè)LTPage對(duì)象,里面存放著這個(gè)page解析出的各種對(duì)象  
            for out in layout:  
                #判斷是否含有g(shù)et_text()方法，獲取我們想要的文字  
                if hasattr(out,"get_text"):  
                    print(out.get_text())  
                    with open('test.txt','a') as f:  
                        f.write(out.get_text()+'\n')  
 
if __name__ == '__main__':  
    parse()

最終得到的test.txt結(jié)果如下：

結(jié)束：對(duì)于Python批量PDF轉(zhuǎn)Word的操作介紹就到此，本文僅僅作為一種運(yùn)用庫(kù)展示代碼編寫過程，具體技術(shù)還需要有興趣的朋友，與我一起討論專研，互相學(xué)習(xí)進(jìn)步。

責(zé)任編輯：龐桂玉來源： Python愛好者社區(qū)

Python PDF Word

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)