免责声明:本文所记录的技术手段及实现过程,仅作为爬虫技术学习使用,不对任何人完全或部分地依据本文的全部或部分内容从事的任何事情和因其任何作为或不作为造成的后果承担任何责任。
爬取需求:通过百度搜索关键字:笑话,搜索结果的第一项就是,锁定从该站上爬取最新的笑话信息,爬取前5页笑话标题、内容等信息;
爬取工具:chrome浏览器、pycharm
Python库:requests、BeautifulSoup
01
网站结构分析
通过输入url,打开笑话大全网站,点击,打开最新笑话页面:
通过翻页按钮,找到每页对应的url链接信息: