什么是爬虫,学会使用爬虫第一步需要学会看

▲点击蓝色“刘大白的跨境日记”▲

今天遇到小伙伴想使用TacticalArbitrage的自定义爬虫功能,问谁会,我想我也用过很多,也能发表一些指导,于是说我会,那小伙伴就加了我,愿意花块学习这个知识,对于愿意付费的人儿,我当然很开心的愿意辅导。毕竟TA的界面对于一个不熟悉的人都很头疼

其他的所有爬虫都可以这样学习,webscrapy还是火车头、八爪鱼等等

于是做出了一个基础教程,视频教程还在准备。在此之前需要有一些基础知识。

网页的组成

现在网页通常以HTML+CSS+JS组成,一般都是静态生成的,其中

HTML是显示内容的

CSS是控制样式的

JS是调整动态效果的

对于爬虫或者TA的xpath来说我们只用了解什么是HTML

HTML的组成

我们看到大部分的HTML都是这个样子的,

你问怎么查看这个,

以chrome为例,在你需要查看的网页右键,选择inspect,中文也叫检查

这个时候在右边或者下面就可以看到网页html了

如果在下方你看着不方便选择这里调换位置

言归正传

我们能够看到的部分是body,关心的也是body部分,其他的可以不用在意。

那body里面是什么,是一个一个的标签,像这样,有开始标签,结束标签,属性和内容

每一个元素都会有属性,比如class,id,name等等,像下面一样这些都是定位的标志

divclass="product-image"imgscr="./image.jsp"/img/divdivclass="price"id="price"name="price"$9.80/div

如果要理解我们可以拿地理位置来理解

中国四川成都成华区动物园XX面包店\动物园\成华区金牛区杜甫路XX面包店\杜甫路\金牛区\成都\四川\中国

成华区和金牛区属于并列关系

成华区和动物园属于镶嵌关系

这种标记方法很容易把不同标签的位置表现出来,也更容易让爬虫和计算机理解

拿来看一段真实的HTML代码

以这个belk为例




转载请注明:http://www.aierlanlan.com/tzrz/810.html

  • 上一篇文章:
  •   
  • 下一篇文章: