序
最近公司一个客户大大购买了一堆医疗健康方面的科普文章,希望能放到我们正在开发的健康档案管理软件上。客户大大说,要智能推送!要掌握节奏!要深度学习!要让用户留恋网站无法自拔!
话说符合以上特点的我也只能联想到某榴了。
当然,万里长征的第一步是把文章导入我们的数据库。项目使用的是AWS的dynamoDB,是非关系型数据库,所有内容都是以json的形式储存的。而客户大大购买来的文章,一共多篇,要么是word要么是Adobeindesign的indd。找了一圈,没有发现合适的应用可以把word或indd转化成干净的html。所以我只能自己造轮子啦~听说python很擅长文本处理,所以就是你了,python!这是我第一次用python写项目,不符合规范的地方欢迎大神提点。
太长不看
用逆天的python模块mammoth和docx处理你的word文件;把indd批量转化成pdf然后用layout_scanner转化成html。
word批量转化为html
1、建立文件结构并批量读取文件
在根目录下创建几个文件夹,用来放不同格式的文件,我把所有要处理的word文件放在docfiles这个子目录里。word.py里写转化程序。
├──docfiles
├──imgs
├──inddfiles
├──output
└──pdfs
└──word.py
2、引入模块和申明文件路径
importmammoth
importmammoth.transforms
importos
fromdocximportDocument
frombsonimportjson_util
importzipfile
importjson
importunidecode
importrequests
guidUrl="