峩有一个Microsoft Word文档我需要提取文本并将其按文档的每个部分构造成数据框。文档的每个部分均以标题开头标题在Word中的格式设置为“标题2”。例如:
我需要获取数据框中每个节的文本其中在AI列中将具有节名称,在BI列中将具有节文本
我是Python的新手,我正在尝试docx
打包但我唯一能做的就是根据我在stackoverflow中找到的函数获取全文
我能够找到标识标题的循环。问题是如何遍历文档并获取数据框中的每个标题和文本:
对于一個docx
看起来像这样
我不了解Pandas但从元组列表(由产生zip
)到数据框应该很容易。
所属网站分类: 技术文章 >
格式:PDF ? 页数:9页 ? 上传日期: 07:40:33 ? 浏览次数:1000? ? ? 200积分 ? ? 用稻壳阅读器打开
全文阅读已结束如果下载本文需要使用