Python 分离 Word 文本

在日常工作和学习中,我们经常会遇到需要处理 Word 文档的情况。而 Python 提供了强大的库和工具来帮助我们处理 Word 文档。本文将介绍如何使用 Python 分离 Word 文本,并提供相应的代码示例。

1. 了解 Python-docx 库

Python-docx 是一个用于创建或修改 Word 文档的 Python 库。它提供了一组功能强大的 API,可以读取和写入 Word 文档,修改字体、格式、样式等。我们可以使用 pip 命令来安装它:

pip install python-docx

2. 读取 Word 文档

要读取 Word 文档中的内容,首先需要导入 docx 模块,并使用 Document 类打开 Word 文档。以下是一个读取 Word 文档并输出内容的示例代码:

import docx

# 打开 Word 文档
doc = docx.Document('example.docx')

# 输出每一段的文本内容
for paragraph in doc.paragraphs:
    print(paragraph.text)

在上面的代码中,我们使用 Document 类打开名为 example.docx 的 Word 文档,并使用 paragraphs 属性遍历文档中的每一段,并输出其文本内容。

3. 分离 Word 文本

要分离 Word 文本,我们需要根据一定的规则或者样式来筛选出需要的文本。以下是一个根据标题样式分离 Word 文本的示例代码:

import docx

# 打开 Word 文档
doc = docx.Document('example.docx')

# 分离标题样式的文本
titles = []
for paragraph in doc.paragraphs:
    if paragraph.style.name == 'Title':
        titles.append(paragraph.text)

# 输出分离的文本
for title in titles:
    print(title)

在上面的代码中,我们通过判断每个段落的样式是否为 'Title',将符合条件的段落文本添加到 titles 列表中,并最后输出分离的文本。

4. 写入 Word 文档

除了读取 Word 文档,Python-docx 也提供了写入 Word 文档的功能。以下是一个创建 Word 文档并写入内容的示例代码:

import docx

# 创建一个新的 Word 文档
doc = docx.Document()

# 添加标题
doc.add_heading('Title', level=1)

# 添加正文内容
doc.add_paragraph('This is a paragraph.')

# 保存文档
doc.save('new_doc.docx')

在上面的代码中,我们使用 Document 类创建了一个新的 Word 文档,并使用 add_headingadd_paragraph 分别添加标题和正文内容。最后使用 save 方法保存文档。

5. 小结

通过使用 Python-docx 库,我们可以轻松地读取、分离和写入 Word 文档。本文介绍了如何使用 Python 分离 Word 文本,并给出了相应的代码示例。希望本文对你的工作和学习有所帮助!