所在的位置： html >> html市场 >> 用Python将word文件转换成htm

用Python将word文件转换成htm

北京治疗最好白癜风十佳医院 http://pf.39.net/bdflx/140113/4325725.html

序

最近公司一个客户大大购买了一堆医疗健康方面的科普文章，希望能放到我们正在开发的健康档案管理软件上。客户大大说，要智能推送！要掌握节奏！要深度学习！要让用户留恋网站无法自拔！

话说符合以上特点的我也只能联想到某榴了。

当然，万里长征的第一步是把文章导入我们的数据库。项目使用的是AWS的dynamoDB，是非关系型数据库，所有内容都是以json的形式储存的。而客户大大购买来的文章，一共多篇，要么是word要么是Adobeindesign的indd。找了一圈，没有发现合适的应用可以把word或indd转化成干净的html。所以我只能自己造轮子啦～听说python很擅长文本处理，所以就是你了，python！这是我第一次用python写项目，不符合规范的地方欢迎大神提点。

太长不看

用逆天的python模块mammoth和docx处理你的word文件；把indd批量转化成pdf然后用layout_scanner转化成html。

word批量转化为html

1、建立文件结构并批量读取文件

在根目录下创建几个文件夹，用来放不同格式的文件，我把所有要处理的word文件放在docfiles这个子目录里。word.py里写转化程序。

├──docfiles

├──imgs

├──inddfiles

├──output

└──pdfs

└──word.py

2、引入模块和申明文件路径

importmammoth

importmammoth.transforms

importos

fromdocximportDocument

frombsonimportjson_util

importzipfile

importjson

importunidecode

importrequests

guidUrl="

转载请注明：http://www.aierlanlan.com/rzdk/254.html

上一篇文章： HTMLWhy

下一篇文章：没有了