基于Python获取docx/doc文件内容代码解析

站长资源 2026/7/31 佚名

54 1538 54

DDR爱好者之家 Design By 杰米

这篇文章主要介绍了基于Python获取docx/doc文件内容代码解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

整体思路：

下载文件并修改后缀为ｚｉｐ文件，解压ｚｉｐ文件，所要获取的内容在固定的文件夹下：work/temp/word/document.xml

所用包，全部是ｐｙｔｈｏｎ自带，不需要额外下载安装．

# encoding:utf-8
import os
import re
import requests
import zipfile
import xml.dom.minidom

newfile = 'test.docx'


def create(newfile):
  """下载docx文件，并修改后缀为zip"""
  res = requests.get('https://www.cqjbfy.gov.cn/publiccenter/splc/mb/splc_gginfo.asp"""解压zip，并在work/temp/word/document.xml获取文本内容，进行正则替换标签等操作"""
  f = zipfile.ZipFile('test.zip', 'r')
  for file in f.namelist():
    f.extract(file, "temp/")
  
  f = xml.dom.minidom.parse('./temp/word/document.xml')
  
  txt = re.sub(r'</w:t></w:r></w:p>', '\n', f.toxml())
  print re.sub(r'<.*?>', '', txt)

if __name__ == '__main__':
  create(newfile)
  get_txt()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

Python,获取,docx,doc

DDR爱好者之家 Design By 杰米

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

DDR爱好者之家 Design By 杰米

评论“基于Python获取docx/doc文件内容代码解析”

暂无评论...

基于Python获取docx/doc文件内容代码解析

Win10下安装并使用tensorflow-gpu1.8.0+python3.6全过程分析（显卡MX250+CUDA9.0+cudnn）

Windows下实现将Pascal VOC转化为TFRecords

评论“基于Python获取docx/doc文件内容代码解析”

更新日志

友情链接