1.读取docx

需要使用python-docx

(1)安装python-docx

python -m pip install python-docx

(2)读取docx

import docx

document = docx.Document("D:/资料/me/AA.docx")

#获取所有段落

all_paragraphs = document.paragraphs

for paragraph in all_paragraphs:

#打印每一个段落的文字

print(paragraph.text)

2.读取doc

无法直接读取doc,需要先将doc文件转换为docx文件

在windows上将doc文件转换为docx文件时,需要用到win32com包

使用win32com包需要安装——pypiwin32

(1)安装pypiwin32

python -m pip install pypiwin32

(2)读取doc

import docx

import win32com.client as wc

import operator

#doc文件另存为docx

word = wc.Dispatch("Word.Application")

doc = word.Documents.Open(r"D:\\资料\\me\\BB.doc")

# 12代表转换后为docx文件

doc.SaveAs(r"D:\\资料\\me\\docx\\BB.docx", 12)

doc.Close

word.Quit

#读取转换后的docx

path = "D:/资料/me/docx/BB.docx"

file = docx.Document(path)

for p in file.paragraphs:

print(p.text)

 

查看原文