收集整理的这篇文章主要介绍了,小编觉得挺不错的,现在分享给大家,也给大家做个参考。
本文实例为大家分享了python3将docx转换成pdf文件的具体代码,供大家参考,具体内容如下
本文实例为大家了将docx转换成的具体,供大家,具体如下
以上就是本文的全部,希望对大家的学习有所帮助,也希望大家多多编程小。
以上是为你收集整理的全部内容,希望文章能够帮你解决所遇到的程序开发问题。
如果觉得网站内容还不错,欢迎将推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
喜欢与人分享编程技术与工作经验,欢迎加入编程之家官方交流群!
有关所有不同的调用,请参阅上面的CLI文档(或docx2pdf --help
)中的内容。对于CLI和python库也是一样的。在
从视觉呈现上来看,PDF文档和Word文档表征相同的内容(文本、图片等)和格式(字体、段落、表格等);但实际上完全是不同的格式和规范:
读取PDF内容(常用Python库如、、、、)仅仅是PDF转Word的第一步,猜想这也是题主问题(转换后格式有问题,图片丢失)的根源。
真正难点在于建立从PDF基于元素位置的格式到Word基于内容的格式的映射。PDF中实际并不存在段落、表格的概念,这个转换就是要将PDF中“横、竖直线围绕着文本”解析为Word的“表格”,将“文本及下方的一条横线”解析为“文本下划线”,等等。
基于这样的思路,我尝试写了一个Python库。支持Windows和Linux平台,要求Python版本>=3.6。目前还在断断续续的开发和改进中,不过已经能够处理一些常见的、规范的PDF到Word格式转换。
其中,start
和end
参数指定页码范围(下标从0开始),默认转换所有页(start=0, end=None,可省略);也可以通过pages
指定不连续的页面,例如pages=[1,3,5]
。
最后,上传两个样例展示转换效果(左边为PDF文档,右侧为转换后的Word文档)。