提到网络爬虫,很多人望而却步,觉得非常难,其实非如此,哪怕没有爬虫基础,也可以写出一个简单的爬虫。万丈高楼平地起,今天分享一个最简单的爬虫,目的是通过案例,使大家对爬虫有一个直观的认识。
00:11第一步:确定目标
爬虫的第一步是要确定爬取的目标,没有目标就没有方向,更无从写代码。我们的目标就是爬取豆瓣上电影排行,并且只爬取第一页的数据。只要爬取到了第一页,后面的页就很容易实现了。这里使用的浏览器是谷歌浏览器,也可以使用火狐浏览器,其他的不推荐。
第二步:分析网页
在网页空白位置点击鼠标右键,选择查看,就能够看到浏览器的工作台。我们要编写爬虫,这个工作台就是我们最主要的战场,在这里我们要花费近70%的精力,而代码只需要30%的精力就够了。根据图片的步骤,先点击左上角的箭头,然后放到电影标题处(准备获取的内容),这时工作台的内容显示了这个内容在网页中存放的位置。我们就是要得到这个内容。
我把这一段摘下来,我们仔细研究一下。如果你有html基础那么你一眼就能看懂,如果没有也没关系,你只需要知道,这一对尖括号里面放的东西叫做标签,一般标签成对出现,有开始和结束,就像一列火车,有车头和车尾。车头和车尾中间有车厢,车厢也有车厢头和车厢尾,这就是标签的嵌套。那么我们需要的内容“肖申克的救赎”它前面的标签是span,再前面的标签是a,再前面的标签是div。div标签有一个属性class=hd先记住就行了,后面会用到。
divclass=hdahref=