前往小程序,Get更优阅读体验!
立即前往
腾讯云
开发者社区
文档 建议反馈 控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
发布
首页
学习
活动
专区
工具
TVP 最新优惠活动
返回腾讯云官网
社区首页 > 专栏 >简易数据分析(三):Web Scraper 批量抓取豆瓣数据与导入已有爬虫

简易数据分析(三):Web Scraper 批量抓取豆瓣数据与导入已有爬虫

作者头像
一只图雀
发布2020-09-30 11:22:29
1.8K0
发布2020-09-30 11:22:29
举报
文章被收录于专栏: 图雀社区 图雀社区

上篇文章我们爬取了豆瓣电影 TOP250 前 25 个电影的数据,今天我们就要在原来的 Web Scraper 配置上做一些小改动,让爬虫把 250 条电影数据全部爬取下来。

前面我们同时说了,爬虫的本质就是找规律,当初这些程序员设计网页时,肯定会依循一些规则,当我们找到规律时,就可以预测他们的行为,达到我们的目的。

今天我们就找找豆瓣网站的规律,想办法抓取全部数据。今天的规律就从常常被人忽略的网址链接开始。

1.链接分析

我们先看看第一页的豆瓣网址链接:

https://movie.douban.com/top250?start=0&filter=

  1. https://movie.douban.com这个很明显就是个豆瓣的电影网址,没啥好说的
  2. top250这个一看就是网页的内容,豆瓣排名前 250 的电影,也没啥好说的
  3. ?后面有个start=0&filter=,根据英语提示来看,好像是说筛选(filter),从 0 开始(start)

再看看第二页的网址链接,前面都一样,只有后面的参数变了,变成了start=25,从 25 开始:

我们再看看第三页的链接,参数变成了 start=50,从 50 开始:

分析 3 个链接我们很容易得出规律:

start=0,表示从排名第 1 的电影算起,展示 1-25 的电影 start=25,表示从排名第 26 的电影算起,展示 26-50 的电影 start=50,表示从排名第 51 的电影算起,展示 51-75 的电影 …... start=225,表示从排名第 226 的电影算起,展示 226-250 的电影

规律找到了就好办了,只要技术提供支持就行。随着深入学习,你会发现 Web Scraper 的操作并不是难点,最需要思考的其实还是这个找规律。

2.Web Scraper 控制链接参数翻页

Web Scraper 针对这种通过超链接数字分页获取分页数据的网页,提供了非常便捷的操作,那就是范围指定器

比如说你想抓取的网页链接是这样的:

  • http://example.com/page/1
  • http://example.com/page/2
  • http://example.com/page/3

你就可以写成

http://example.com/page/[1-3]

把链接改成这样,Web Scraper 就会自动抓取这三个网页的内容。

当然,你也可以写成

http://example.com/page/[1-100]

这样就可以抓取前 100 个网页。

那么像我们之前分析的豆瓣网页呢?它不是从 1 到 100 递增的,而是 0 -> 25 -> 50 -> 75 这样每隔 25 跳的,这种怎么办?

  • http://example.com/page/0
  • http://example.com/page/25
  • http://example.com/page/50

其实也很简单,这种情况可以用[0-100:25]表示,每隔 25 是一个网页,100/25=4,爬取前 4 个网页,放在豆瓣电影的情景下,我们只要把链接改成下面的样子就行了;

https://movie.douban.com/top250?start=[0-225:25]&filter=

这样 Web Scraper 就会抓取 TOP250 的所有网页了。

3.抓取数据

解决了链接的问题,接下来就是如何在 Web Scraper 里修改链接了,很简单,就点击两下鼠标:

1.点击Stiemaps,在新的面板里点击 ID 为top250的这列数据:

2.进入新的面板后,找到Stiemap top250这个 Tab,点击,再点击下拉菜单里的Edit metadata

3.修改原来的网址,图中的红框是不同之处:

修改好了超链接并点击Save Sitemap保存好,重新抓取网页就好了。操作和 上文一样,我这里就简单复述一下不做步奏详解了:

  1. 点击Sitemap top250下拉菜单里的Scrape按钮
  2. 新的操作面板的两个输入框都输入 2000
  3. 点击Start scraping蓝色按钮开始抓取数据
  4. 抓取结束后点击面板上的refresh蓝色按钮,检测我们抓取的数据

如果你操作到这里并抓取成功的话,你会发现数据是全部抓取下来了,但是顺序都是乱的。

我们这里先不管顺序问题,因为这个属于数据清洗的内容了,我们现在的专题是数据抓取。先把相关的知识点讲完,再攻克下一个知识点,才是更合理的学习方式。

这期讲了通过修改超链接的方式抓取了 250 个电影的名字。下一期我们说一些简单轻松的内容换换脑子,讲讲 Web Scraper 如何导入别人写好的爬虫文件,导出自己写好的爬虫软件。

上两期我们学习了如何通过 Web Scraper 批量抓取豆瓣电影 TOP250 的数据,内容都太干了,今天我们说些轻松的,讲讲 Web Scraper 如何导出导入 Sitemap 文件。

前面也没有说,Sitemap 是个什么东西。其实它就是我们操作 Web Scraper 后生成的爬虫文件,相当于 python 爬虫的源代码。把 Sitemap 导入 Web Scraper 运行就可以爬取数据。学习了这一章节,就可以分享我们的设置好的爬虫文件了。

导出 Sitemap

导出 Sitemap 很简单,比如说我们创建的 top250 Sitemap,点击 Sitemap top250,在下拉菜单里选择 Export Sitemap,就会跳到一个新的面板。

新的面板里有我们创建的 top250 的 Sitemap 信息,我们把它复制下来,再新建一个 TXT 文件,粘贴保存就好了。

导入 Sitemap

导入 Sitemap 也很简单,在创建新的 Sitemap 时,点击 Import Sitemap 就好了。

在新的面板里,在 Sitemap JSON 里把我们导出的文字复制进去,Rename Sitemap 里取个名字,最后点击 Import Sitemap 按钮就可以了。

这期我们介绍了 Web Scraper 如何导入导出 Sitemap 爬虫文件,下一期我们对 上一期的内容进行扩展,不单单抓取 250 个电影名,还要抓取每个电影对应的排名,名字,评分和一句话影评。

代码语言:javascript
复制
● 深入理解 Web 协议(一):HTTP 包体传输● 简易数据分析(二): Web Scraper 初尝鲜,抓取豆瓣高分电影● 简易数据分析 (一):源起、了解 Web Scraper 与浏览器技巧

·END·

本文参与  腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-09-25,如有侵权请联系  cloudcommunity@tencent.com 删除

本文分享自 图雀社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与  腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
LV.
文章
0
获赞
0
目录
  • 1.链接分析
  • 2.Web Scraper 控制链接参数翻页
  • 3.抓取数据
领券
问题归档 专栏文章 快讯文章归档 关键词归档 开发者手册归档 开发者手册 Section 归档

代做工资流水公司铜陵打公司银行流水常德工资证明代办徐州入职流水代开蚌埠代开贷款工资流水成都企业对公流水模板合肥打企业银行流水兰州工资流水办理保定公司银行流水样本曲靖工资证明图片宿迁背调工资流水多少钱合肥签证银行流水 代办惠州流水单多少钱保定入职工资流水开具太原打印房贷流水许昌做银行对公流水江门薪资流水单开具天津工资代付流水样本大连做自存流水绍兴工资流水多少钱南通贷款工资流水 报价莆田入职流水办理曲靖薪资银行流水开具揭阳工资证明查询绍兴代办企业贷流水芜湖查询公司流水厦门公司银行流水办理南昌开工资流水app截图孝感银行流水滁州银行流水账单图片重庆代开薪资银行流水香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化