0前言
Python版本:3.7.0
开发工具:IDLE(Python3.-bit)、GoogleChrome
1网络爬虫(webcrawler)?
网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。——百度百科
简单点,网络爬虫是我们编写的自动从网络上抓取对我们有用的信息的程序
2必备HTML、CSS知识
一个基本的网页-example.html:
!doctypehtmlhtmlheadtitle网页的标题/title/headbody网页主体——在浏览器中显示的内容包含在这里/body/html2.1了解HTML基本组成
详细学习HTML:菜鸟教程runoob
在example.html中,“!doctypehtml”声明文档类型,为html。
用“”、“”包含单词或字母构成html的标签,标签一般是成对的,如“p/p”。
“head/head”中包含网页的基本信息,如网页标题(显示在浏览器标题栏)、编码、作者、描述等。
“body/body”中包含的内容将展示在浏览器中。
标签有属性。如src、href等。
常见的标签:
!doctypehtmlhtmlheadtitle网页的标题/title/headbodydivh1我是一号标题/h1p我是一个段落/pdivimgsrc=