Python爬虫实战教程爬取xkcd

0前言

Python版本：3.7.0

开发工具：IDLE（Python3.-bit）、GoogleChrome

1网络爬虫（webcrawler）？

网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取网络信息的程序或者脚本。——百度百科

简单点，网络爬虫是我们编写的自动从网络上抓取对我们有用的信息的程序

2必备HTML、CSS知识

一个基本的网页-example.html：

!doctypehtmlhtmlheadtitle网页的标题/title/headbody网页主体——在浏览器中显示的内容包含在这里/body/html2.1了解HTML基本组成

详细学习HTML：菜鸟教程runoob

在example.html中，“!doctypehtml”声明文档类型，为html。

用“”、“”包含单词或字母构成html的标签，标签一般是成对的，如“p/p”。

“head/head”中包含网页的基本信息，如网页标题（显示在浏览器标题栏）、编码、作者、描述等。

“body/body”中包含的内容将展示在浏览器中。

标签有属性。如src、href等。

常见的标签：

!doctypehtmlhtmlheadtitle网页的标题/title/headbodydivh1我是一号标题/h1p我是一个段落/pdivimgsrc=