python爬虫如何分析一个将要爬取的网

要学会使用Python爬取网页信息无外乎以下几点内容:

要会Python

知道网页信息如何呈现

了解网页信息如何产生

学会如何提取网页信息

第一步Python是工具,所以你必须熟练掌握它,要掌握到什么程度呢?如果你只想写一写简单的爬虫,不要炫技不考虑爬虫效率,你只需要掌握:

数据类型和变量

字符串和编码

使用list和tuple

条件判断、循环

使用dict和set

你甚至不需要掌握函数、异步、多线程、多进程,当然如果想要提高自己小爬虫的爬虫效率,提高数据的精确性,那么记住最好的方式是去系统的学习一遍Python。

那么进入第二步:知道网页信息如何呈现?你首先要知道所需要抓取的数据是怎样的呈现的,就像是你想要学做一幅画,在开始之前你要知道这幅画是用什么画出来的,铅笔还是水彩笔等等

但是放到网页信息来说这儿只有两种呈现方式:

HTML(HTML是用来描述网页的一种语言)

JSON(JSON是一种轻量级的数据交换格式)

那么我们紧接着第三步:数据怎么来?数据当然是从服务器反馈给你的,为什么要反馈给你?因为你发出了请求。

“Hi~,服务器我要这个资源”

“正在传输中...”

“已经收到HTML或者JSON格式的数据”

这是什么请求?

这里你需要了解一下


转载请注明:http://www.aierlanlan.com/tzrz/5552.html

  • 上一篇文章:
  •   
  • 下一篇文章: