首发于 Python数据采集处理分析挖掘可视化应用实例
基于Fiddler Selenium Requests的万用爬虫技术

基于Fiddler Selenium Requests的万用爬虫技术

背景

上一期文章爬取了微信文章的阅读数和点赞数,于是,接着很早之前的想法,尝试实现换头输的万用爬虫技术。

Fiddler Selenium用于测试,本主在若干年前,遇到过JS动态加密网页文本的Web,最终祭出大杀器Selenium搞定,缺陷就是速度慢。而且,因为Selenium只能自动提供Cookies,不能给出完整的headers,所以,没有将三者结合起来使用。现在,可以通过换请求头,实现当年github F**k-login的功能,具体实现如下:


技术实现

为了保证请求状态延续性,使用selenium进行手动登录QQ群官网;有些网站,在退出当前浏览器,就会更新cookies,退出登录状态。然后使用Filler再次获取目标网址的请求参数,重新构造Get\Post请求:

该方法适用于页面非JS动态加密文本的任一网站(大部分网站不会这么变态,现在更多网站都是基于前后端分离调用API实现内容展示)。很轻松获取到了某QQ群的成员信息,如下:

原始网页:



小结

不要一开始就想着多进程、分布式爬虫等等,做一个网站不容易,希望恪守爬虫职业道德,低速获取自己用的信息。

事实上,基于该换头技术,集合对爬虫感兴趣的朋友,打包出售有用的头部以下爬虫代码,这个Idea可行性非常大。感兴趣可以加入下面的圈子:


代做工资流水公司铜陵签证工资流水多少钱天津代开流水绍兴入职工资流水费用贵阳代开流水苏州开贷款工资流水广州企业银行流水制作上饶转账流水模板许昌代开企业对公流水绵阳车贷银行流水 代办潮州银行流水修改开具威海日常消费流水代办湖州做工资流水岳阳银行流水账模板南阳打印工资流水账单背调银行流水打印无锡贷款流水价格金华打工作收入证明北京代办工资流水app截图常德离职证明图片遵义在职证明公司菏泽入职工资流水图片包头贷款工资流水 多少钱太原代做入职银行流水荆州薪资流水公司济宁房贷收入证明打印南阳日常消费流水制作邯郸车贷流水图片淮安转账流水泉州背调银行流水价格芜湖入职工资流水公司香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化