Python网络爬虫之Urllib库的使

1简单爬取一个网页

怎么爬取一个网页内容那?首先我们要知道其URL,然后根据URL来请求远程web服务器将网页内容发给我们就好了。当我们在浏览器看到一副画面唯美的页面,其实这是由浏览器经过渲染后呈现出来的,实质上是一段HTML内容,加上CSS和JS。如果将一个网页比作一个人的话,HTML就是人的骨架,CSS就像是人的衣服,JS就是人的肌肉,所以最重要的就是HTML,下面我们就用简单的两行代码来请求获得百度首页的HTML内容:

执行该Python代码,打印出来便是百度首页的HTML内容:

2代码解析

这行代码我们调用了urllib库中request模块的一个urlopen方法,并传了它一个网页地址,我们看看urlopen方法的原始定义:

其他几个参数都是默认参数,可不传递,其中data是访问URL时传送的数据,timeout参数是设置访问超时的。Urlopen返回的是一个response是什么那?打印出来为:




转载请注明:http://www.aierlanlan.com/grrz/3940.html