Python爬虫实战教程爬取xkcd

北京荨麻疹中医医院 http://m.39.net/pf/a_9159273.html

0前言

Python版本:3.7.0

开发工具:IDLE(Python3.-bit)、GoogleChrome

1网络爬虫(webcrawler)?

网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。——百度百科

简单点,网络爬虫是我们编写的自动从网络上抓取对我们有用的信息的程序

2必备HTML、CSS知识

一个基本的网页-example.html:

!doctypehtmlhtmlheadtitle网页的标题/title/headbody网页主体——在浏览器中显示的内容包含在这里/body/html2.1了解HTML基本组成

详细学习HTML:菜鸟教程runoob

在example.html中,“!doctypehtml”声明文档类型,为html。

用“”、“”包含单词或字母构成html的标签,标签一般是成对的,如“p/p”。

“head/head”中包含网页的基本信息,如网页标题(显示在浏览器标题栏)、编码、作者、描述等。

“body/body”中包含的内容将展示在浏览器中。

标签有属性。如src、href等。

常见的标签:

!doctypehtmlhtmlheadtitle网页的标题/title/headbodydivh1我是一号标题/h1p我是一个段落/pdivimgsrc=


转载请注明:http://www.aierlanlan.com/tzrz/4941.html