chrome插件网页抓取(WebScraper插件安装使用方法及安装流程:安装方法)
优采云 发布时间: 2022-03-29 18:11chrome插件网页抓取(WebScraper插件安装使用方法及安装流程:安装方法)
Web Scraper 是一个 chrome 网页数据提取插件,用于从网页中提取数据。用户只需四步即可使用该插件创建页面数据抽取规则,从而快速从网页中抽取出需要的内容。Web Scraper 插件的整个爬取逻辑从设置第一级 Selector 开始,选择爬取范围。在一级Selector下设置二级Selector后,再次选择抓取字段,即可抓取网页数据。插件 采集数据后,还可以将数据导出为CSV文件,欢迎免费下载。
插件安装和使用
一、安装
1、这里编辑器使用的是chrome浏览器,先在标签页输入[chrome://extensions/]进入chrome扩展,解压你在这个页面下载的Web Scraper插件,拖入扩展页面就是这样。
2、安装完成后,请尝试插件的具体功能。
3、当然可以先在设置页面设置插件的存储设置和存储类型功能。
二、使用抓取功能
安装完成后,只需四步即可完成爬取操作。具体流程如下:
1、打开网络爬虫
首先,要使用该插件提取网页数据,需要在开发者工具模式下使用。使用快捷键Ctrl+Shift+I/F12后,在出现的开发者工具窗口中找到插件同名的列。
2、创建一个新的站点地图
点击Create New Sitemap,有两个选项,import sitemap是导入现成sitemap的向导,我们一般没有现成的sitemap,所以一般不选这个,直接选create sitemap。
然后做这两个操作:
(1)Sitemap Name:表示你的Sitemap适合哪个网页,所以可以根据网页来命名,但是需要用英文字母。比如我抓取今日头条的数据,那么我会用头条来命名;
(2)Sitemap URL:将网页链接复制到Star URL栏。比如图中我把“吴晓波频道”的首页链接复制到了这个栏,然后点击下面的创建sitemap进行创建一个新的站点地图。
3、设置此站点地图
整个Web Scraper的抓取逻辑如下:设置一级Selector,选择抓取范围;在一级Selector下设置二级Selector,选择抓取字段,然后抓取。
对于文章来说,一级Selector意味着你要圈出这块文章的元素。这个元素可能包括标题、作者、发布时间、评论数等。从关卡Selector中选择我们想要的元素,比如标题、作者、阅读次数。
让我们分解一下设置一级和二级 Selector 的工作流程:
(1)单击添加新选择器以创建第一级选择器。
然后按照以下步骤操作:
- 输入id:id代表你抓取的整个范围,例如这里是文章,我们可以命名为wuxiaobo-articles;
-Select Type:type代表你抓取的部分的类型,比如element/text/link,因为这是整个文章元素范围的选择,我们需要先用Element全选(如果这个网页需要滑动加载More,然后选择Element Scroll Down);
-勾选Multiple:勾选Multiple前面的小框,因为要选择多个元素而不是单个元素,当我们勾选时,爬虫插件会帮我们识别多个相似的文章;
- 保留设置:其余未提及的部分保留其默认设置。
(2)单击选择以选择范围并按照以下步骤操作:
- 选择范围:用鼠标选择要抓取数据的范围,绿色为要选择的区域,用鼠标点击后变为红色,该区域被选中;
- 多选:不要只选一个,还要选以下几项,否则只会爬出一行数据;
-完成选择:记得点击完成选择;
- 保存:单击保存选择器。
(3)设置好一级Selector后,点击设置二级Selector,按以下步骤操作:
- 新选择器:点击添加新选择器;
- 输入id:id代表你在抓取哪个字段,所以可以取字段的英文。比如我要选择“作者”,就写“作者”;
-Select Type:选择Text,因为你要抓取的是文本;
- 不要勾选Multiple:不要勾选Multiple前面的小方框,因为我们这里抓取的是单个元素;
- 保留设置:其余未提及的部分保留其默认设置。
(4)点击选择,然后点击要爬取的字段,按照以下步骤操作:
- 选择字段:这里要爬取的字段是一个。用鼠标单击该字段以将其选中。比如你想爬取标题,用鼠标点击某个文章的标题。当字段所在区域变为红色时,即被选中;
-完成选择:记得点击完成选择;
- 保存:单击保存选择器。
(5)重复以上操作,直到选择好要爬的田地。
4、爬取数据
(1)之后,如果要爬取数据,只需要设置所有的Selector启动即可:
点击Scrape,然后点击Start Scraping,爬虫会在弹出一个小窗口后开始工作。你会得到一个收录所有你想要的数据的列表。
(2)如果你想对数据进行排序,比如按阅读量、点赞数、作者等,让数据更清晰,那么你可以点击Export Data as CSV,将数据导入Excel表格.
(3)导入Excel表格后,可以过滤数据。
插件功能
1、抓取多个页面
2、读取数据存储在本地存储或CouchDB
3、多种数据选择类型
4、 从动态页面中提取数据(JavaScript + AJAX)
5、浏览抓取的数据
6、将数据导出为 CSV
7、导入、导出站点地图
8、仅取决于 Chrome 浏览器
0 个评论
要回复文章请先 登录或 注册