用Python将word文件转换成htm

北京治疗最好白癜风十佳医院 http://pf.39.net/bdflx/140113/4325725.html

最近公司一个客户大大购买了一堆医疗健康方面的科普文章,希望能放到我们正在开发的健康档案管理软件上。客户大大说,要智能推送!要掌握节奏!要深度学习!要让用户留恋网站无法自拔!

话说符合以上特点的我也只能联想到某榴了。

当然,万里长征的第一步是把文章导入我们的数据库。项目使用的是AWS的dynamoDB,是非关系型数据库,所有内容都是以json的形式储存的。而客户大大购买来的文章,一共多篇,要么是word要么是Adobeindesign的indd。找了一圈,没有发现合适的应用可以把word或indd转化成干净的html。所以我只能自己造轮子啦~听说python很擅长文本处理,所以就是你了,python!这是我第一次用python写项目,不符合规范的地方欢迎大神提点。

太长不看

用逆天的python模块mammoth和docx处理你的word文件;把indd批量转化成pdf然后用layout_scanner转化成html。

word批量转化为html

1、建立文件结构并批量读取文件

在根目录下创建几个文件夹,用来放不同格式的文件,我把所有要处理的word文件放在docfiles这个子目录里。word.py里写转化程序。

├──docfiles

├──imgs

├──inddfiles

├──output

└──pdfs

└──word.py

2、引入模块和申明文件路径

importmammoth

importmammoth.transforms

importos

fromdocximportDocument

frombsonimportjson_util

importzipfile

importjson

importunidecode

importrequests

guidUrl="


转载请注明:http://www.aierlanlan.com/rzdk/254.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了