▲点击蓝色“刘大白的跨境日记”▲
今天遇到小伙伴想使用TacticalArbitrage的自定义爬虫功能,问谁会,我想我也用过很多,也能发表一些指导,于是说我会,那小伙伴就加了我,愿意花块学习这个知识,对于愿意付费的人儿,我当然很开心的愿意辅导。毕竟TA的界面对于一个不熟悉的人都很头疼
其他的所有爬虫都可以这样学习,webscrapy还是火车头、八爪鱼等等
于是做出了一个基础教程,视频教程还在准备。在此之前需要有一些基础知识。
网页的组成现在网页通常以HTML+CSS+JS组成,一般都是静态生成的,其中
HTML是显示内容的
CSS是控制样式的
JS是调整动态效果的
对于爬虫或者TA的xpath来说我们只用了解什么是HTML
HTML的组成我们看到大部分的HTML都是这个样子的,
你问怎么查看这个,
以chrome为例,在你需要查看的网页右键,选择inspect,中文也叫检查
这个时候在右边或者下面就可以看到网页html了
如果在下方你看着不方便选择这里调换位置
言归正传
我们能够看到的部分是body,关心的也是body部分,其他的可以不用在意。
那body里面是什么,是一个一个的标签,像这样,有开始标签,结束标签,属性和内容
每一个元素都会有属性,比如class,id,name等等,像下面一样这些都是定位的标志
divclass="product-image"imgscr="./image.jsp"/img/divdivclass="price"id="price"name="price"$9.80/div
如果要理解我们可以拿地理位置来理解
中国四川成都成华区动物园XX面包店\动物园\成华区金牛区杜甫路XX面包店\杜甫路\金牛区\成都\四川\中国
成华区和金牛区属于并列关系
成华区和动物园属于镶嵌关系
这种标记方法很容易把不同标签的位置表现出来,也更容易让爬虫和计算机理解
拿来看一段真实的HTML代码
以这个belk为例