chrome插件网页抓取(WebScraper插件安装使用方法及安装流程：安装方法)

优采云发布时间: 2022-03-29 18:11

　　Web Scraper 是一个 chrome 网页数据提取插件，用于从网页中提取数据。用户只需四步即可使用该插件创建页面数据抽取规则，从而快速从网页中抽取出需要的内容。Web Scraper 插件的整个爬取逻辑从设置第一级 Selector 开始，选择爬取范围。在一级Selector下设置二级Selector后，再次选择抓取字段，即可抓取网页数据。插件采集数据后，还可以将数据导出为CSV文件，欢迎免费下载。

　　插件安装和使用

　　一、安装

　　1、这里编辑器使用的是chrome浏览器，先在标签页输入[chrome://extensions/]进入chrome扩展，解压你在这个页面下载的Web Scraper插件，拖入扩展页面就是这样。

　　2、安装完成后，请尝试插件的具体功能。

　　3、当然可以先在设置页面设置插件的存储设置和存储类型功能。

　　二、使用抓取功能

　　安装完成后，只需四步即可完成爬取操作。具体流程如下：

　　1、打开网络爬虫

　　首先，要使用该插件提取网页数据，需要在开发者工具模式下使用。使用快捷键Ctrl+Shift+I/F12后，在出现的开发者工具窗口中找到插件同名的列。

　　2、创建一个新的站点地图

　　点击Create New Sitemap，有两个选项，import sitemap是导入现成sitemap的向导，我们一般没有现成的sitemap，所以一般不选这个，直接选create sitemap。

　　然后做这两个操作：

　　(1)Sitemap Name：表示你的Sitemap适合哪个网页，所以可以根据网页来命名，但是需要用英文字母。比如我抓取今日头条的数据，那么我会用头条来命名；

　　（2)Sitemap URL：将网页链接复制到Star URL栏。比如图中我把“吴晓波频道”的首页链接复制到了这个栏，然后点击下面的创建sitemap进行创建一个新的站点地图。

　　3、设置此站点地图

　　整个Web Scraper的抓取逻辑如下：设置一级Selector，选择抓取范围；在一级Selector下设置二级Selector，选择抓取字段，然后抓取。

　　对于文章来说，一级Selector意味着你要圈出这块文章的元素。这个元素可能包括标题、作者、发布时间、评论数等。从关卡Selector中选择我们想要的元素，比如标题、作者、阅读次数。

　　让我们分解一下设置一级和二级 Selector 的工作流程：

　　（1)单击添加新选择器以创建第一级选择器。

　　然后按照以下步骤操作：

　　- 输入id：id代表你抓取的整个范围，例如这里是文章，我们可以命名为wuxiaobo-articles；

　　-Select Type：type代表你抓取的部分的类型，比如element/text/link，因为这是整个文章元素范围的选择，我们需要先用Element全选（如果这个网页需要滑动加载More，然后选择Element Scroll Down）；

　　-勾选Multiple：勾选Multiple前面的小框，因为要选择多个元素而不是单个元素，当我们勾选时，爬虫插件会帮我们识别多个相似的文章；

　　- 保留设置：其余未提及的部分保留其默认设置。

　　（2)单击选择以选择范围并按照以下步骤操作：

　　- 选择范围：用鼠标选择要抓取数据的范围，绿色为要选择的区域，用鼠标点击后变为红色，该区域被选中；

　　- 多选：不要只选一个，还要选以下几项，否则只会爬出一行数据；

　　-完成选择：记得点击完成选择；

　　- 保存：单击保存选择器。

　　(3)设置好一级Selector后，点击设置二级Selector，按以下步骤操作：

　　- 新选择器：点击添加新选择器；

　　- 输入id：id代表你在抓取哪个字段，所以可以取字段的英文。比如我要选择“作者”，就写“作者”；

　　-Select Type：选择Text，因为你要抓取的是文本；

　　- 不要勾选Multiple：不要勾选Multiple前面的小方框，因为我们这里抓取的是单个元素；

　　- 保留设置：其余未提及的部分保留其默认设置。

　　(4)点击选择，然后点击要爬取的字段，按照以下步骤操作：

　　- 选择字段：这里要爬取的字段是一个。用鼠标单击该字段以将其选中。比如你想爬取标题，用鼠标点击某个文章的标题。当字段所在区域变为红色时，即被选中；

　　-完成选择：记得点击完成选择；

　　- 保存：单击保存选择器。

　　（5)重复以上操作，直到选择好要爬的田地。

　　4、爬取数据

　　(1)之后，如果要爬取数据，只需要设置所有的Selector启动即可：

　　点击Scrape，然后点击Start Scraping，爬虫会在弹出一个小窗口后开始工作。你会得到一个收录所有你想要的数据的列表。

　　(2)如果你想对数据进行排序，比如按阅读量、点赞数、作者等，让数据更清晰，那么你可以点击Export Data as CSV，将数据导入Excel表格.

　　(3)导入Excel表格后，可以过滤数据。

　　插件功能

　　1、抓取多个页面

　　2、读取数据存储在本地存储或CouchDB

　　3、多种数据选择类型

　　4、从动态页面中提取数据（JavaScript + AJAX）

　　5、浏览抓取的数据

　　6、将数据导出为 CSV

　　7、导入、导出站点地图

　　8、仅取决于 Chrome 浏览器

0

分享 2022-03-29

chrome插件网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

chrome插件网页抓取(WebScraper插件安装使用方法及安装流程：安装方法)

0 个评论

发起人