HtmlParse一款超轻量级的HTML

HtmlParse是一款基于windwos平台的HTML文档解析工具,可快速构建DOM树,从而轻松实现网页元素的爬取工作。DOM树就是一个HTML文档的节点树,每个节点由:标签(Tag)、属性(Attribute)、文本(Text)三个值来描述。所谓的HTML文档解析,指的就是如何构建一颗DOM树,只有成功构建出DOM树,才有可能进行后续的数据爬取和分析工作。显然,构建DOM树是比较复杂的过程,因为不是每一个HTML文档都会严格按照规范来书写,因此解析过程需要具有一定容错能力。此外,解析效率也是一个需要考虑的因素,也就是说最好通过一次文档扫描即可建立起DOM树,而不是反复扫描。下面是HtmlParse介绍。

工具特点

1、绿色纯天然,无任何第三方依赖库,文件大小不到K;2、解析速度快,具有一定的HTML语法容错能力,可快速将HMTL文档解析为DOM树;3、基于命令行参数,可通过不同参数获取指定TAG的属性值和文本内容,从而实现网页爬取功能;4、可将爬取数据输出为json格式,方便第三方程序进一步分析和使用;5、可爬取script脚本到指定的js文件中;

下载  "a":[{    "href":"javascript:;",    "text":"设为首页"  },{    "href":"javascript:;",    "text":"我的菜单"  },{    "href":"


转载请注明:http://www.aierlanlan.com/grrz/1293.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了