首发于极客兔子的小窝

爬山虎采集实战-站长之家网站排行榜

爬山虎采集实战-站长之家网站排行榜

机器视觉技术领域创业者

目标采集网址：中文网站总排名_网站排行榜

类型：标准列表页+详情页+翻页

数据量：1895页 x 30/页 = 56850条数据

采集工具：爬山虎采集器

首先我们建立一个任务，填写起始网址，因为本次采集结构没有那么复杂，不用生成网址，只要有一个List起始页就可以启动了，点击下一步。

如图，可以看到，爬山虎采集器的分析非常智能化，由于这个是List页，所以爬山虎自动化解析了相应字段和格式。而我们只需要对字段名称修改一下，保证理解和符合命名规范便可。

由于本次是List - Detail的二级采集结构，有些字段在Detail页重复，所以可以在List页或Detail页采集时去掉部分，本案例中在Detail页中去除List页中已经采集的部分字段。

需要注意的是，List页采集时，由于我不想采集重复的Detail数据，并且以后我还想增量更新，所以我这里选择Detail_url字段不得为空也不得重复。

除此之外，对部分字段里不想要的数据，做了简单的文本替换。字段处理这部分确实爬山虎做的体验不够好，希望改进。

这里需要注意一下，首先是该页面并没有复杂的JS或者Ajax之类影响采集的代码，所以点击HTTP引擎后，仍然可以正常加载和采集。所以这个时候一定要勾选http引擎，可以极大地提高采集速度，类似于真正的爬虫采集机制，而不是浏览器渲染后采集。

之后，我们选择detail_url，然后选择深入此链接采集，这样我们就可以进入了二级页面。但是在此之前，我们还需要对翻页进行设置，爬山虎的翻页比较智能化，如果是普通翻页可以尝试自动识别。

本页面略微有些特殊，虽然显示已经自动识别翻页元素，但是本身应该标亮的却没有显示。安全起见我们选择手动标记，这样可以更安心而且不用最后才校验。

手动选择也很简单，通过点击定位到翻页的元素即可，本页面里就是1895后面的">"部分。

之后可以在手动设置xpath里看到软件自动定位的xpath结果。

之后就可以进入Detail页面进行采集了，由于页面内容较多，而且Detail是没有自动解析的，只能自已一个一个手动添加字段，然后通过点击就可以采集到数据了，虽然繁琐，但是并不复杂。需要注意的是，采集百度权重和谷歌权重的时候，直接采集到的是图片的URL，但是由于图片的文件名就代表了PR值，所以可以用很简单的数据处理方式解决。

比如谷歌PR值，可以看到text部分只有一个数字，那么我们的正则表达式就用\d匹配便可。其他所有需要处理的数据都类似处理，基本上用文本替换就足够了。记得这个页面也可以选择http引擎处理，加快速度。

到了最后一步了，由于我对采集速度没有太特别的要求，我又不希望被站长之家封杀，所以我宁可采集慢一些，比如线程数2-3，间隔1000-5000毫秒。又或者直接挂代理服务器，速度全部可以加快。UA我习惯性的会选择一下，保证请求头数据的完整性。其他设置基本无需修改便可以启动采集。

由于不用渲染整个页面，所以用http引擎采集的速度是远大于浏览器引擎的，这点和火车头采集器的作用类似，但是更直观的界面和操作可以说让一般人很轻松就可以采集。对我来说，上述采集规则可以10分钟以内写完，已经比较熟练。尤其是理解采集机制的话，基本无需停留和思考便可搞定。

数据导出也很容易，这里放出以前采集并导入到数据库中的表格图片，在Navicat中可以比较直观和容易管理数据库。

以上的采集步骤和数据库管理都是面向非技术人员的，总体来说是比较容易上手的，大家可以尝试一下。

编辑于 2019-10-27 11:11

文章被以下专栏收录

极客兔子的小窝

介绍数据采集和数据分析相关知识，共勉~

收藏

代做工资流水公司邯郸制作车贷流水厦门做收入证明中山查询企业对公流水西安企业贷流水模板漳州背调工资流水开具德阳背调工资流水公司北京开收入证明曲靖打车贷工资流水烟台贷款银行流水查询淄博车贷银行流水办理临沂银行流水电子版图片济南流水账单代开广州开公司银行流水黄冈购房银行流水图片唐山银行对公流水价格重庆查询贷款银行流水金华查询流水单济宁车贷银行流水办理揭阳打自存银行流水苏州流水账单查询江门房贷工资流水打印杭州入职工资流水样本临沂代开签证工资流水江门贷款银行流水样本兰州背调工资流水代开莆田银行流水修改开具苏州打车贷流水揭阳企业银行流水图片邢台自存银行流水制作绍兴薪资银行流水打印香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户 315晚会后胖东来又人满为患了高校汽车撞人致3死16伤司机系学生张家界的山上“长”满了韩国人？张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲 “重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后原水城县长再被查凯特王妃现身！外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人多人受伤

代做工资流水公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化