所在的位置： html >> html介绍 >> 网络爬虫之Selenium爬取在线百科知

网络爬虫之Selenium爬取在线百科知

一.三大在线百科

随着互联网和大数据的飞速发展，我们需要从海量信息中挖掘出有价值的信息，而在收集这些海量信息过程中，通常都会涉及到底层数据的抓取构建工作，比如多源知识库融合、知识图谱构建、计算引擎建立等。其中具有代表性的知识图谱应用包括谷歌公司的KnowledgeGraph、Facebook推出的实体搜索服务（GraphSearch）、百度公司的百度知心、搜狗公司的搜狗知立方等。这些应用的技术可能会有所区别，但相同的是它们在构建过程中都利用了Wikipedia、百度百科、互动百科等在线百科知识。所以本章将教大家分别爬取这三大在线百科。

百科是指天文、地理、自然、人文、宗教、信仰、文学等全部学科的知识的总称，它可以是综合性的，包含所有领域的相关内容；也可以是面向专业性的。接下来将介绍常见的三大在线百科，它们是信息抽取研究的重要语料库之一。

1.Wikipedia

“Wikipediaisafreeonlineencyclopediawiththeaimtoallowanyonetoeditarticles.”这是Wikipedia的官方介绍。Wikipedia是一个基于维基技术的多语言百科全书协作计划，用多种语言编写的网络百科全书。Wikipedia一词取自于该网站核心技术“Wiki”以及具有百科全书之意的“encyclopedia”共同创造出来的新混成词“Wikipedia”，接受任何人编辑。

在所有在线百科中，Wikipedia知识准确性最好，结构化最好，但是Wikipedia本以英文知识为主，涉及的中文知识很少。在线百科页面通常包括：Title（标题）、Description（摘要描述）、InfoBox（消息盒）、Categories（实体类别）、CrosslingualLinks（跨语言链接）等。Wikipedia中实体“黄果树瀑布”的中文页面信息如图1所示。

图1所示的Wikipedia信息主要包括：

文章标题（ArticleTitle）：唯一标识一篇文章（除存在歧义的页面），即对应一个实体，对应图中的“黄果树瀑布”。

摘要（Abstract）：通过一段或两段精简的信息对整篇文章或整个实体进行描述，它具有重要的使用价值。

自由文本（FreeText）：自由文本包括全文本内容和部分文本内容。全文本内容是描述整篇文章的所有文本信息，包括摘要信息和各个部分的信息介绍。部分文本内容是描述一篇文章的部分文本信息，用户可以自定义摘取。

分类标签（CategoryLabel）：用于鉴定该篇文章所属的类型，如图中“黄果树瀑布”包括的分类标签有“国家5A级旅游景区”、“中国瀑布”、“贵州旅游”等。

消息盒（InfoBox）：又称为信息模块或信息盒。它采用结构化形式展现网页信息，用于描述文章或实体的属性和属性值信息。消息盒包含了一定数量的“属性-属性值”对，聚集了该篇文章的核心信息，用于表征整个网页或实体。

2.百度百科

百度百科是百度公司推出的一部内容开放、自由的网络百科全书平台。截至年4月，百度百科已经收录了超过万的词条，参与词条编辑的网友超过万人，几乎涵盖了所有已知的知识领域。百度百科旨在创造一个涵盖各领域知识的中文信息收集平台。百度百科强调用户的参与和奉献精神，充分调动互联网用户的力量，汇聚广大用户的头脑智慧，积极进行交流和分享。同时，百度百科实现与百度搜索、百度知道的结合，从不同的层次上满足用户对信息的需求。

与Wikipedia相比，百度百科所包含中文知识最多最广，但是准确性相对较差。百度百科页面也包括：Title（标题）、Description（摘要描述）、InfoBox（消息盒）、Categories（实体类别）、CrosslingualLinks（跨语言链接）等。图2为百度百科“Python”网页知识，该网页的消息盒为中间部分，采用键值对（Key-valuePair）的形式，比如“外文名”对应的值为“Python”，“经典教材”对应的值为“HeadFirstPython”等。

3.互动百科

互动百科（

转载请注明：http://www.aierlanlan.com/rzfs/6484.html

上一篇文章：将离策略评估看作分类,谷歌提出新型强化学

下一篇文章：总结了200道经典的机器学习面试题附参