1.读取docx
需要使用python-docx
(1)安装python-docx
python -m pip install python-docx
(2)读取docx
import docx
document = docx.Document("D:/资料/me/AA.docx")
#获取所有段落
all_paragraphs = document.paragraphs
for paragraph in all_paragraphs:
#打印每一个段落的文字
print(paragraph.text)
2.读取doc
无法直接读取doc,需要先将doc文件转换为docx文件
在windows上将doc文件转换为docx文件时,需要用到win32com包
使用win32com包需要安装——pypiwin32
(1)安装pypiwin32
python -m pip install pypiwin32
(2)读取doc
import docx
import win32com.client as wc
import operator
#doc文件另存为docx
word = wc.Dispatch("Word.Application")
doc = word.Documents.Open(r"D:\\资料\\me\\BB.doc")
# 12代表转换后为docx文件
doc.SaveAs(r"D:\\资料\\me\\docx\\BB.docx", 12)
doc.Close
word.Quit
#读取转换后的docx
path = "D:/资料/me/docx/BB.docx"
file = docx.Document(path)
for p in file.paragraphs:
print(p.text)
发表评论