一个简单的python爬虫程序,百度图片一键爬取!

一个简单的python爬虫程序,百度图片一键爬取!

首先,import几个需要用到的包:

requests在这里主要作用是向百度发送请求,也就是模仿人类的操作进行访问,有post和get两个方法,在这里我们用get方法就行。

然后,开始向百度发送请求,这里当然需要百度图片的链接,先访问一下百度图片看看链接张什么样。

url栏长这样:

剔除一些不必要的内容之后,可以长这样:

然后对url分析一下,前面的http://image.baidu.com/search/index?tn=baiduimage肯定是固定格式,不能变的,后面的word=皮卡丘很明显就是我们搜索的关键词。url解决了,接下去向百度发送请求。代码如下:

接下来的操作,是对源码进行操作,这里最好有一些web前端的知识,不会的话至少要回查看源码(最简单的操作就是在网址栏前面加view-source);

首先,在源码页搜一下jpg(百度图片的后缀,先找到图片的链接):

随便抓一个链接出来分析一下:

把里面的http:\/\/ tiebapic.baidu.com\/forum\/pic\/item\/6cad1f30e924b8998595da4079061d950b7bf6b6.jpg抓出来,访问一下,发现可以访问。多试几个,发现只有objURL开头的才能访问,但是objURL开头的也不一定能访问。不管了,先将所有的以

格式的链接全部找出来,这时候就需要利用正则匹配了。代码如下:

要注意,re.findall匹配出来的数据是一个列表,需要用for循环一个个的访问:

一个最最简单的爬虫写好了,但是稍微有一点点错误就会报错,没有所谓的健壮性,怎么改进爬虫呢,将在下一篇文章进行讲解。

完整代码如下,大家可以自行体验一下:

不算空行和注释,只有短短20行代码。果然人生苦短,我用python

代做工资流水公司济南入职银行流水唐山自存流水价格芜湖薪资流水开具南通签证银行流水滁州银行流水单打印烟台背调工资流水图片揭阳办企业银行流水邯郸打印工资流水账单吉林离职证明金华做转账银行流水株洲做转账银行流水兰州查购房银行流水遵义银行流水费用德阳查询消费贷流水莆田购房银行流水模板荆州打印企业对公流水金华代开签证工资流水上海购房银行流水价格江门自存银行流水模板三亚购房银行流水开具南京做房贷银行流水新乡消费贷流水开具青岛工资流水app截图报价阜阳查询工资流水app截图镇江查询对公流水绍兴打印工资证明保定打印银行流水账芜湖查企业对公流水太原签证银行流水 报价广州银行流水账打印香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化