针对这个问题,我猜你应该不会写代码,那自然就推荐你使用一些No-codeWebScraper。因为,它们对技术小白比较友好。
这些工具通常不要你懂任何代码(例如:Python、HTML、CSS、XPath等),也不需要你写任何一句代码,就能轻松地从页面中采集数据。
ChromeWebstore上名列前茅的一些扩展插件:
InstantDataScraper
WebScraper-FreeWebScraping
DataScraper-EasyWebScraping
NoCodingDataScraper-EasyWebScraping
Listly-FreeDataScraper,Extractor
Simplescraper—afastandfreewebscraper
……
它们能满足你基础的数据采集需求,感谢它们的存在,让采集数据变得容易。建议你都去了解和试用一下,每个工具都有自己突出的地方,选择一个用得趁手的就好!
当我在使用它们抓取一些复杂的页面时,或多或少,都有些不理想。
举个例子:如下图所示,要抓取全部类目下的分析数据,需要按顺序的不停的切换类目,然后再提取数据,这就让很多采集器罢工了。
作为一个赋有创造力的程序员,擅长于发明轮子。当市面上的工具不能满足自己的需求时,我想是时候创造一个更好的工具了!
在这里,我要推荐自己开发的一个浏览器插件,它叫:DataPicker-Powerfulwebdatascraper。
DataPicker是一个专业的网络数据采集器,它可以从任何网页上提取或采集数据,然后导出数据为Excel或JSON文件。
它非常的简单易用,对技术小白很友好,因为你不用写任何代码,只需几个点击就可以采集数据了。
主要功能亮点:
★免费公共配方(数量不断增加中++)★深度抓取(例如抓取搜索引擎结果、商品列表商品详情)★批量抓取(支持同时抓取多个详情页、搜索多个关键词)★自动填写表单(例如输入文字、点击元素、选中选项等)★提交表单(例如搜索关键词、登录、注册等)★自动翻页抓取数据(支持多种翻页方式)★数据去重(已抓取并存储的数据不会再次抓取)★数据清洗(支持对每列数据设置一系列转换器来清洗数据)★可视化配方编辑器(小白友好的编辑器,不懂代码也没关系)★支持私有页面数据提取(比如需要登录才能访问的页面)★支持单页应用数据提取(React、Vue、Angular等开发的页面)★支持Webhook设置(采集到数据后自动推送到给你)★支持将数据导出为.json,.csv,.xls,xml文件(不限次数,不限大小)
公开配方
可能你还不知道什么配方?它是一组动作指令的集合,告知DataPicker如何从页面中抓取数据?
我管它叫:配方。
DataPicker提供大量的公开配方,覆盖上百个网站,供你免费使用。
当然,如果这些配方不能满足你,你也可以创建自己的配方。
你还可以把自己的配方分享给大家,一起构建一个强大的配方生态。
有时候,帮助别人就是在帮助自己。
使用配方
得益于公开配方的存在,你可以完全不用关心配方的实现,只需使用它,就能轻松的从页面中抓取数据。
配方的使用也很简单,只需点击配方卡片上的「Crawl」按钮,就能开始抓取数据了。
就像这样:
配方编辑器
DataPicker提供了一个简单易用的配方编辑器,你可以通过它,在任何网站上轻松的创建配方。
我们内置了很多节点,例如:打开页面、滚动页面、点击元素、输入文本、提取数据等。
通过这些节点自由组合,我们就可以在很多复杂场景下抓取数据,模拟人的行为去访问任何网站。
提取数据
当然,要从网站中提取数据,最重要的在于,如何找到目标元素的CSSSelector或XPath?
如果你懂代码(HTMLCSS)并且熟悉浏览器,那么,你可以通过Devtools来找到它们。
如果你不懂代码,那很抱歉,这可能变得无从下手。
为了解决这个问题,DataPicker提供了一个好用的元素查找器。
通过它,你只要动动鼠标,就能轻松的生成选择器了。
如图所示,打开「高级查找器」后,只需在页面中点击想要的数据,就能自动的生成选择器了。
填写表单
我们可以模拟在页面中输入内容,然后提交表单。这是一项很酷的功能,有了它,我们就可以做更加自动化的工作。
例如:模拟在Bing搜索引擎输入“helloworld”关键词。
批量搜索
得力于「填写表单」和「提交表单」节点,我们可以完成一些批量工作。
例如:从Bing中同时检索多个关键词。
如图所示,我们同时检索「helloworld」和「JavaScript」两个关键词并提取结果。
哇哦~漂亮的数据!
数据去重
DataPicker支持数据去重,我们只需要选定去重字段就可以了。
你可以选择一个或者多个字段作为唯一索引,这样数据在存储时就会检查唯一性。如果重复了,就不会存储。
通常,我们以链接作为唯一索引是一个不错的实践。
数据清洗
DataPicker支持简单的数据清洗,我们可以把一些不必要的文本噪音修剪掉,只保留想要的内容。
我们提供以下几种转换器:
TrimSpace(修剪空格)例如:把“helloworld”的前后空格剪掉,得到“helloworld”
ExtractData(提取数据)例如:从“Comments:”提取数字“”
ReplaceData(替换数据)例如:把“Hi~小白”替换为“Hi~小青”
ModifyData(修饰数据)例如:在“NiceDay”添加后缀“NiceDay-Neal”
TransitionType(转换类型)例如:把字符串“”转换为数字
数据导出
DataPicker支持以下几种文件格式的导出,能满足你不同场景的需求:
json
csv
xls
xml
OK~我们把提取到的「shopbop-products」导出来看一下吧!
Nice数据之美,不过如此!
这就是我创造的扩展插件,它叫:DataPicker,一个专业的网络数据采集器。
我还在不断的打磨它,励志把它做成最好用的采集器!