所在的位置： html >> html发展 >> 最简单的Python爬虫,仅3步11行代

最简单的Python爬虫,仅3步11行代

提到网络爬虫，很多人望而却步，觉得非常难，其实非如此，哪怕没有爬虫基础，也可以写出一个简单的爬虫。万丈高楼平地起，今天分享一个最简单的爬虫，目的是通过案例，使大家对爬虫有一个直观的认识。

00:11

第一步：确定目标

爬虫的第一步是要确定爬取的目标，没有目标就没有方向，更无从写代码。我们的目标就是爬取豆瓣上电影排行，并且只爬取第一页的数据。只要爬取到了第一页，后面的页就很容易实现了。这里使用的浏览器是谷歌浏览器，也可以使用火狐浏览器，其他的不推荐。

第二步：分析网页

在网页空白位置点击鼠标右键，选择查看，就能够看到浏览器的工作台。我们要编写爬虫，这个工作台就是我们最主要的战场，在这里我们要花费近70%的精力，而代码只需要30%的精力就够了。根据图片的步骤，先点击左上角的箭头，然后放到电影标题处（准备获取的内容），这时工作台的内容显示了这个内容在网页中存放的位置。我们就是要得到这个内容。

我把这一段摘下来，我们仔细研究一下。如果你有html基础那么你一眼就能看懂，如果没有也没关系，你只需要知道，这一对尖括号里面放的东西叫做标签，一般标签成对出现，有开始和结束，就像一列火车，有车头和车尾。车头和车尾中间有车厢，车厢也有车厢头和车厢尾，这就是标签的嵌套。那么我们需要的内容“肖申克的救赎”它前面的标签是span，再前面的标签是a，再前面的标签是div。div标签有一个属性class=hd先记住就行了，后面会用到。

divclass=hdahref=

转载请注明：http://www.aierlanlan.com/tzrz/3953.html

上一篇文章：前端架构技术选型

下一篇文章：一Python爬虫之基础入门