什么是爬虫,学会使用爬虫第一步需要学会看

▲点击蓝色“刘大白的跨境日记”▲

今天遇到小伙伴想使用TacticalArbitrage的自定义爬虫功能，问谁会，我想我也用过很多，也能发表一些指导，于是说我会，那小伙伴就加了我，愿意花块学习这个知识，对于愿意付费的人儿，我当然很开心的愿意辅导。毕竟TA的界面对于一个不熟悉的人都很头疼

其他的所有爬虫都可以这样学习，webscrapy还是火车头、八爪鱼等等

于是做出了一个基础教程，视频教程还在准备。在此之前需要有一些基础知识。

网页的组成

现在网页通常以HTML+CSS+JS组成，一般都是静态生成的，其中

HTML是显示内容的

CSS是控制样式的

JS是调整动态效果的

对于爬虫或者TA的xpath来说我们只用了解什么是HTML

HTML的组成

我们看到大部分的HTML都是这个样子的，

你问怎么查看这个，

以chrome为例，在你需要查看的网页右键，选择inspect，中文也叫检查

这个时候在右边或者下面就可以看到网页html了

如果在下方你看着不方便选择这里调换位置

言归正传

我们能够看到的部分是body，关心的也是body部分，其他的可以不用在意。

那body里面是什么，是一个一个的标签，像这样，有开始标签，结束标签，属性和内容

每一个元素都会有属性，比如class，id，name等等，像下面一样这些都是定位的标志

divclass="product-image"imgscr="./image.jsp"/img/divdivclass="price"id="price"name="price"$9.80/div

如果要理解我们可以拿地理位置来理解

中国四川成都成华区动物园XX面包店\动物园\成华区金牛区杜甫路XX面包店\杜甫路\金牛区\成都\四川\中国

成华区和金牛区属于并列关系

成华区和动物园属于镶嵌关系

这种标记方法很容易把不同标签的位置表现出来，也更容易让爬虫和计算机理解

拿来看一段真实的HTML代码

以这个belk为例