chrome插件网页抓取(WebScraper插件安装使用方法及安装流程:安装方法)

优采云 发布时间: 2022-03-29 18:11

  chrome插件网页抓取(WebScraper插件安装使用方法及安装流程:安装方法)

  Web Scraper 是一个 chrome 网页数据提取插件,用于从网页中提取数据。用户只需四步即可使用该插件创建页面数据抽取规则,从而快速从网页中抽取出需要的内容。Web Scraper 插件的整个爬取逻辑从设置第一级 Selector 开始,选择爬取范围。在一级Selector下设置二级Selector后,再次选择抓取字段,即可抓取网页数据。插件 采集数据后,还可以将数据导出为CSV文件,欢迎免费下载。

  

  插件安装和使用

  一、安装

  1、这里编辑器使用的是chrome浏览器,先在标签页输入[chrome://extensions/]进入chrome扩展,解压你在这个页面下载的Web Scraper插件,拖入扩展页面就是这样。

  

  2、安装完成后,请尝试插件的具体功能。

  

  3、当然可以先在设置页面设​​置插件的存储设置和存储类型功能。

  

  二、使用抓取功能

  安装完成后,只需四步即可完成爬取操作。具体流程如下:

  1、打开网络爬虫

  首先,要使用该插件提取网页数据,需要在开发者工具模式下使用。使用快捷键Ctrl+Shift+I/F12后,在出现的开发者工具窗口中找到插件同名的列。

  

  2、创建一个新的站点地图

  点击Create New Sitemap,有两个选项,import sitemap是导入现成sitemap的向导,我们一般没有现成的sitemap,所以一般不选这个,直接选create sitemap。

  

  然后做这两个操作:

  (1)Sitemap Name:表示你的Sitemap适合哪个网页,所以可以根据网页来命名,但是需要用英文字母。比如我抓取今日头条的数据,那么我会用头条来命名;

  (2)Sitemap URL:将网页链接复制到Star URL栏。比如图中我把“吴晓波频道”的首页链接复制到了这个栏,然后点击下面的创建sitemap进行创建一个新的站点地图。

  

  3、设置此站点地图

  整个Web Scraper的抓取逻辑如下:设置一级Selector,选择抓取范围;在一级Selector下设置二级Selector,选择抓取字段,然后抓取。

  对于文章来说,一级Selector意味着你要圈出这块文章的元素。这个元素可能包括标题、作者、发布时间、评论数等。从关卡Selector中选择我们想要的元素,比如标题、作者、阅读次数。

  

  让我们分解一下设置一级和二级 Selector 的工作流程:

  (1)单击添加新选择器以创建第一级选择器。

  然后按照以下步骤操作:

  - 输入id:id代表你抓取的整个范围,例如这里是文章,我们可以命名为wuxiaobo-articles;

  -Select Type:type代表你抓取的部分的类型,比如element/text/link,因为这是整个文章元素范围的选择,我们需要先用Element全选(如果这个网页需要滑动加载More,然后选择Element Scroll Down);

  -勾选Multiple:勾选Multiple前面的小框,因为要选择多个元素而不是单个元素,当我们勾选时,爬虫插件会帮我们识别多个相似的文章;

  - 保留设置:其余未提及的部分保留其默认设置。

  

  (2)单击选择以选择范围并按照以下步骤操作:

  - 选择范围:用鼠标选择要抓取数据的范围,绿色为要选择的区域,用鼠标点击后变为红色,该区域被选中;

  - 多选:不要只选一个,还要选以下几项,否则只会爬出一行数据;

  -完成选择:记得点击完成选择;

  - 保存:单击保存选择器。

  

  (3)设置好一级Selector后,点击设置二级Selector,按以下步骤操作:

  - 新选择器:点击添加新选择器;

  - 输入id:id代表你在抓取哪个字段,所以可以取字段的英文。比如我要选择“作者”,就写“作者”;

  -Select Type:选择Text,因为你要抓取的是文本;

  - 不要勾选Multiple:不要勾选Multiple前面的小方框,因为我们这里抓取的是单个元素;

  - 保留设置:其余未提及的部分保留其默认设置。

  

  (4)点击选择,然后点击要爬取的字段,按照以下步骤操作:

  - 选择字段:这里要爬取的字段是一个。用鼠标单击该字段以将其选中。比如你想爬取标题,用鼠标点击某个文章的标题。当字段所在区域变为红色时,即被选中;

  -完成选择:记得点击完成选择;

  - 保存:单击保存选择器。

  (5)重复以上操作,直到选择好要爬的田地。

  4、爬取数据

  (1)之后,如果要爬取数据,只需要设置所有的Selector启动即可:

  点击Scrape,然后点击Start Scraping,爬虫会在弹出一个小窗口后开始工作。你会得到一个收录所有你想要的数据的列表。

  

  (2)如果你想对数据进行排序,比如按阅读量、点赞数、作者等,让数据更清晰,那么你可以点击Export Data as CSV,将数据导入Excel表格.

  (3)导入Excel表格后,可以过滤数据。

  

  插件功能

  1、抓取多个页面

  2、读取数据存储在本地存储或CouchDB

  3、多种数据选择类型

  4、 从动态页面中提取数据(JavaScript + AJAX)

  5、浏览抓取的数据

  6、将数据导出为 CSV

  7、导入、导出站点地图

  8、仅取决于 Chrome 浏览器

0
分享 2022-03-29
chrome插件网页抓取

0 个评论

要回复文章请先 登录或 注册


官方客服QQ群

微信人工客服

QQ人工客服


线

代做工资流水公司合肥制作企业对公流水无锡公司银行流水报价湛江对公账户流水制作肇庆代开个人银行流水肇庆查询个人流水大连做离职证明遵义银行流水电子版查询遵义日常消费流水代开阜阳企业对私流水图片贵阳代做在职证明福州工资流水账单打印上海银行流水账单价格太原签证银行流水 图片大庆打工作收入证明大连个人流水揭阳薪资银行流水重庆代开银行流水账泰州查询背调工资流水许昌查公司流水商丘对公银行流水价格信阳购房银行流水价格无锡代开离职证明沈阳办薪资流水福州个人流水代做宜春消费贷流水打印常州查询签证流水株洲流水账单图片信阳车贷流水价格阜阳转账流水图片泰安自存银行流水制作香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化