首发于 python数据分析入门
简单爬虫:千图网高清图片爬取(python_004)

简单爬虫:千图网高清图片爬取(python_004)

目标需求:将千图网( 58pic.com/)某个频道的所有图片爬下来,要高清图!

选定“健身”频道,链接地址: 58pic.com/tupian/jiansh

爬虫实现步骤:

第一步:分析URL,寻找翻页规律,构造URL。

我们看到健身频道下的图片总共有208页,每页约30张图片,总共有图片约6000张。

需要爬虫将每一页上的图片爬取下来,并实现自动翻页,那么就需要找到URL中翻页的规律,并构造出我们需要的URL。分析如下:

第1页: 58pic.com/tupian/jiansh

第2页: 58pic.com/tupian/jiansh

第3页: 58pic.com/tupian/jiansh

分析前三页的规律很容易知道,页面是在最后一个数字逐页递增。所以,

第4页应该是: 58pic.com/tupian/jiansh

输入网址验证一下,验证成功,链接能够成功条状到第4页。

那么,很简单我们需要构造的URL就是如下了:


第二步:查看网页源代码,通过正则表达式,找到所有高清图片的位置。

通过分析页面源代码,我们很快发现“data-original="后面的链接就是我们需要的图片地址,而且正好是30张图片。

比如,这个链接: pic.qiantucdn.com/58pic

输入地址框,出来是下面这张图片:

咦~尺寸好像不对,再观察图片url,正常的图片应该以“.jpg”结尾,这个URL后面多了一串文字:!qtwebp324。

试着把 !qtwebp324 删掉看看效果。没想到运气很好,就是要找的高清图的地址。

哦耶~这下就很清楚了,我们要找的高清图片地址就是将“data-original="后面的链接全部找出来,然后删除掉.jpg后面多余的部分即可。

实现起来也很容易,通过正则表达式全部匹配出来,再通过replace()方法将多余部分喜欢掉即可。

通过正则匹配出来得到的图片链接如下:

然后,将链接尾部多余部分替换掉即可。

最后将所有的链接保存到本地即可。


第三步:完整代码。

搞定。文件已经按顺序保存到本地:

代做工资流水公司潮州对公账户流水公司肇庆工资代付流水费用潍坊开企业贷流水镇江企业银行流水代开洛阳签证工资流水公司潍坊银行对公流水企业银行流水代做苏州房贷收入证明代办济南离职证明代开南通薪资流水打印湖州公司流水模板武汉做车贷工资流水长沙查询入职银行流水襄阳代做贷款工资流水中山办理工资流水账单银川工资流水app截图代办漳州银行流水电子版代办芜湖薪资流水样本泉州贷款流水图片哈尔滨房贷银行流水 费用汕头工资流水单制作扬州工资流水账单代开汕头入职工资流水制作常州银行流水公司株洲银行流水电子版价格盐城个人工资流水 办理泰州查签证工资流水镇江自存银行流水打印曲靖做自存流水临沂代做银行流水账香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化