所在的位置： html >> html优势 >> Python网络爬虫之Urllib库的使

Python网络爬虫之Urllib库的使

1简单爬取一个网页

怎么爬取一个网页内容那？首先我们要知道其URL，然后根据URL来请求远程web服务器将网页内容发给我们就好了。当我们在浏览器看到一副画面唯美的页面，其实这是由浏览器经过渲染后呈现出来的，实质上是一段HTML内容，加上CSS和JS。如果将一个网页比作一个人的话，HTML就是人的骨架，CSS就像是人的衣服，JS就是人的肌肉，所以最重要的就是HTML，下面我们就用简单的两行代码来请求获得百度首页的HTML内容：

执行该Python代码，打印出来便是百度首页的HTML内容：

2代码解析

这行代码我们调用了urllib库中request模块的一个urlopen方法，并传了它一个网页地址，我们看看urlopen方法的原始定义：

其他几个参数都是默认参数，可不传递，其中data是访问URL时传送的数据，timeout参数是设置访问超时的。Urlopen返回的是一个response是什么那？打印出来为：

转载请注明：http://www.aierlanlan.com/grrz/3940.html

上一篇文章：北大青鸟建大IT学院高中生入行IT,学什

下一篇文章：奇迹mu网站管理系统霹雳网站的弹窗广告如