前面分享过《初学者必备|Python环境安装、第三方库的下载安装方法》,今天分享一个Python爬取网页中动态生成的内容的方法。
关键词:爬取动态生成的网页内容
一、简单类型:网页内容可直接获取
这种情况相对比较简单,爬取步骤:
1、用urllib.request库直接获取网页源码
2、用re库解析出需要的网页内容
3、对解析出的内容进行相关操作,比如下载
实例:爬取某贴吧中的图片,下为贴吧的部分截图
获取网页源码的源码:网页代码较大,建议不要打印。
右键,查看网页源代码,找到图片的地址,用re的正则表达式解析所有的图片地址。
技巧:可以在图片上右键,复制图片地址
在网页源代码页面用Ctrl+F调出搜索窗口,粘贴地址就可以快速定位到图片的地址处。
通过对比发现,网页中的图片地址都有统一的前缀和统一的后缀,如下图:
这个时候就可以用正则表达式获取地址了,正则表达式相对比较复杂,初学者只需要理解二点就可以了,1、()内是要获取的内容,()左边是内容的前缀,()右边是内容的后缀。2、.+?代表任意内容
最后一步,逐个下载获取的图片。
部分爬取结果:
源码:
importurllib.request
importre
url="