python 动态网页信息爬取

6 篇文章 0 订阅
订阅专栏

爬虫爬取天气信息

实现了分页爬取,数据写入

#https://tianqi.2345.com/Pc/GetHistory?areaInfo%5BareaId%5D=57516&areaInfo%5BareaType%5D=2&date%5Byear%5D=2018&date%5Bmonth%5D=3

import requests
import json
from bs4 import BeautifulSoup
import csv



def craw_json_html(url):
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}
        response = requests.get(url=url, headers=headers)
        print(response.status_code)
        # response.encoding = response.apparent_encoding
        response.encoding ='utf-8'
        response = json.loads(response.text)
        # print(response)
        data=response["data"]
        # print(data)
        soup=BeautifulSoup(data,'html.parser')
        table_trs=soup.find('table',class_='history-table').find_all('tr')
        months=[]
        for trs in table_trs:
            texts=trs.text
            newtext=list(filter(None,str(texts).split('\n')))

            months.append(newtext)
        days=months[1:]
        for i in range(len(days)):
            calenders=days[i][0].split(' ')[0]
            days[i][0]=calenders
            # print(days[i][0].split(' ')[0])
            # print(type(days[i][0]))
        # print(days)
        #录入数据到csv
        loadinfo_to_csv(days)

    except:

        pass


def index_all():

    #爬取1到3月的数据
    for i in range(3):
        url = 'https://tianqi.2345.com/Pc/GetHistory?areaInfo%5BareaId%5D=57516&areaInfo%5BareaType%5D=2&date%5Byear%5D=2018&date%5Bmonth%5D={}'.format(i+1)
        craw_json_html(url)




def loadinfo_to_csv(infor):
    file_name=infor[0][0][:7]
    # print(file_name)
    with open("{}月的天气数据.csv".format(file_name), "w", encoding="utf-8", newline="") as f:
        csv_writer = csv.writer(f)
        csv_writer.writerow(["日期", "最高温", "最低温","天气","风力风向","空气质量"])

        for i in range(len(infor)):
            # 4. 写入csv文件内容
            csv_writer.writerow([infor[i][0], infor[i][1],infor[i][2],infor[i][3],infor[i][4],infor[i][5]])

        print("{}月的天气数据写入成功".format(file_name))


    pass

if __name__ == '__main__':
    # url='https://tianqi.2345.com/Pc/GetHistory?areaInfo%5BareaId%5D=57516&areaInfo%5BareaType%5D=2&date%5Byear%5D=2018&date%5Bmonth%5D=3'
    # craw_json_html(url)
    index_all()






结果实例展示

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

python之获取动态网页数据(亲测可用)
萧海的博客
07-22 331
【代码】python之获取动态网页数据(亲测可用)
基于Python网页信息爬取技术分析-蔡迪阳.pdf
12-19
"基于Python网页信息爬取技术分析" 本文主要介绍了基于Python语言网页信息爬取技术的分析和研究。随着大规模数据下载的需求增加,传统的人工下载数据过程中存在的影响效率的问题变得愈加突出。为了解决这个问题...
python如何获取动态页面数据
Z_suger7的博客
06-05 687
这时候我们可以通过设置爬虫代理进行应对,不同的网站对IP的要求也有差别,一般比较有价值的网站都是需要高匿优质代理IP才能增加爬取的成功率,但是代理IP在不同Selenium浏览器有不同的实现方式。chromedriver是一个驱动Chrome浏览器的驱动程序,使用他才可以驱动浏览器。在日常使用python爬取数据的时候会遇到一些动态页面,有些网页的HTML代码是由javascript动态生成的,直接爬取可能会出现无法加载的情况,需要用phantomJS和selenium模拟浏览器,之后再爬取
python抓取动态数据
ssshen14的专栏
11-16 544
1.背景之前写的抓取A股所有上市公司信息的小程序在上交所网站改版后,需要同步修改pyton2.7.92.分析过程以抓取宇通客车【600066】信息为例打开网址http://www.sse.com.cn/assortment/stock/list/info/company/index.shtml?COMPANY_CODE=600066
关于Python动态网页爬取的实践记录
qq_35764528的博客
03-27 1689
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录前言一、开发背景二、使用步骤1.引入库2.读入数据总结 前言 最初了解到爬虫是在一个机缘巧合之下,当时觉得很神奇、挺有意思,然后就主动了解了,从最开始的静态网页,到动态加载网页,从requests到selenium,再回到requests(尝试分析动态网页json)。本文用来记录我在学习过程中的一些心得体会。 本文主要记录我的第一个实际应用意义的爬虫开发经历与其中的一些心得体会 一、开发背景 目前国内疫情没有完全平息,各大企事
用Scrapy爬取分析了7万款App,结果万万没想到!
Python大本营的博客
01-08 4633
作者 | 苏克来源 | 第2大脑这是新年的第一篇原创干货。摘要:使用 Scrapy 爬取豌豆荚全网 70,000+ App,并进行探索性分析。写在前面:若对数据抓取部分不...
基于Python网页信息爬取技术研究.pdf
03-08
【基于Python网页信息爬取技术研究】 网页信息爬取技术是互联网大数据时代的重要工具,它能够自动抓取网页上的信息并进行分析处理。本文主要探讨了如何利用Python语言结合流行的Spring MVC框架来实现这一目标。...
Python 如何爬取网页动态加载的数据 Python源码
11-07
Python 如何爬取网页动态加载的数据 Python源码Python 如何爬取网页动态加载的数据 Python源码Python 如何爬取网页动态加载的数据 Python源码Python 如何爬取网页动态加载的数据 Python源码Python 如何爬取...
Python爬取多点商城整站商品数据
人生苦短, 还不用Python?
09-21 1338
Python爬取多点商城整站步骤介绍: 1、Python开发工具pycharm安装,Python-3.6.4(Mac、Windows)即可,PHPStudy/XMAPP集成环境搭建(其他集成环境也可); 2、展示多点商城设计特点图; 3、列出分析爬取多点整站思维导图; 4、需求分析; 5、爬取操作过程; 6、编写代码; 7、表结构设计,代码经过多次修改健壮无比,导出sql文件使用即可; 8、注意事...
Scrapy定向爬虫教程(三)——爬取多个页面
热门推荐
孔天逸'Blog
10-13 3万+
本节内容本部分所实现的功能是,批量的爬取网页信息,不再是像以前那样只能下载一个页面了。也就是说,分析出网页的url规律后,用特定的算法去迭代,达到把整个网站的有效信息都拿下的目的。 因为本部分讲完后,功能已经到了可以使用的地步,所以我把本部分的结果独立出来,把项目上传到了github,小伙伴可以下载参考,地址https://github.com/kongtianyi/heartsong。教程余下的
Python爬取城市天气数据,并作数据可视化
m0_61981943的博客
06-05 1万+
本文介绍了如何使用Python爬虫和数据可视化工具,爬取多个城市的天气数据并进行可视化分析。首先,使用Python爬虫从网站上获取多个城市的天气数据,并将数据存储到本地文件中。然后,使用Pandas库读取数据文件,并使用Matplotlib和Seaborn库进行数据可视化分析,包括线性图、热力图、散点图等。最后,根据分析结果进行总结和展望。 通过本文的学习,读者可以了解到如何使用Python进行数据爬取和可视化分析,从而掌握数据分析的基本技能,并应用到实际问题中。同时,也可以了解到如何使用Python
Python下利用Selenium获取动态页面数据
2301_79535618的博客
11-30 1324
利用python爬取网站数据非常便捷,效率非常高,但是常用的一般都是使用BeautifSoup、requests搭配组合抓取静态页面(即网页上显示的数据都可以在html源码中找到,而不是网站通过js或者ajax异步加载的),这种类型的网站数据爬取起来较简单。但是有些网站上的数据是通过执行js代码来更新的,这时传统的方法就不是那么适用了。这种情况下有如下几种方法:清空网页上的network信息,更新页面,观察网页发送的请求,有些网站可以通过这种方法构造参数,从而简化爬虫。但是适用范围不够广泛。
Python爬取动态网站实战
白帽阿叁的博客
12-12 6286
在之前的推文中,我们介绍了如何爬取一个简单的静态网站——「[Python爬取静态网站」,但是在实际过程中,常常会遇到需要爬取动态网站数据的情况。在本文中,我们也将通过一个比较简单的案例,来介绍爬取动态网站数据的基本思路和步骤。
如何使用 Python 爬虫抓取动态网页数据
weixin_51151534的博客
04-23 6544
本文介绍了如何使用 Python 爬虫抓取动态网页数据,包括分析动态网页、模拟用户行为、使用 Selenium 等技术。通过本文的介绍,读者可以了解到如何使用 Python 爬虫来获取动态网页中的数据,并可以在实际应用中灵活运用这些技术。
Python爬虫 | 碰到动态页面如何爬取?处理思路分享
WANGJUNAIJIAO的博客
05-16 2844
说到爬网页,我们一般的操作是先查看源代码或者审查元素,找到信息所在节点,然后用 beautifulsoup/xpth/re 来获取数据,这是我们对付静态网页的常用手段。先来梳理一下爬取的流程:1、先引入需要的包,可以边写边引入,用到哪个包就引入哪个包 from xxx import xxx2、按F12,选择network选项,找到type为document或js或XHR的页面,把header内容取出来。3、把url也取出来,等待解析 url = xxx。
Python爬虫自学笔记(三)动态网页爬取
qq_41597915的博客
09-13 1万+
现在很多网站用的是动态网页加载技术,这时候用前面的request库和BS4库就不能解决问题了,需要用新的办法。 打开网页,按F12或者右键弹出菜单里选择“检查”,右侧会打开开发者工具。 这里有一排菜单,最左边的是Element,显示的是网页的源代码,如果在这里能直接找到所需要爬取的内容,就说明这是静态页面,可以用 request库和BeautifulSoup4库的工具爬取所需内容。如果这里找不到所需内容,那么就是动态页面。这时候往右面看Network菜单。 Network的功能是:记录在当前页面上
python 爬取所有页面的对应数据
sunshine
11-06 4114
一般来说不同页码最后page=或者p  等等,只需要转化一下后面对应的数值即可,或者从尾页对应URL找到最后一页,也就是总页数即可 案例一: #!/usr/bin/env python # -*- coding: utf-8 -*- import pymysql # 导入 pymysql import re import time import datetime import reque...
手把手学爬虫第三弹——爬取动态渲染的信息
最新发布
2401_84010836的博客
04-10 1085
通过上面的代码可以发现,对于这类数据的爬取其实和requests请求方式差不多,主要区别在于我们获取到的数据不同,对于JSON数据我们同样进行适当的处理,获取我们想要的数据。三、Selenium爬取动态数据Selenium是浏览器自动化测试框架,是一个用于web测试的工具,可以直接在浏览器中运行,并可驱动浏览器执行一定的操作,例如点击、下拉等,还可以获取浏览器当前页面的源代码。
11
原创
70
点赞
578
收藏
76
粉丝
关注
私信
写文章

热门文章

  • 卷积神经网络实现图像识别 20165
  • javafx与mysql的综合实验 1589
  • html+css 实现华为登录界面 712
  • httml+csss实现华为登录界面2(简易版) 533
  • Python基础知识点总结 365

分类专栏

  • python学习笔记 6篇
  • 神经网络图像识别 1篇
  • javafx 1篇
  • C语言

最新评论

  • 卷积神经网络实现图像识别

    Skychang22: 求数据集大佬2010435481@qq.com,已经点赞加关注

  • 卷积神经网络实现图像识别

    Staprefer᭄: 求数据集大佬3012529047@qq.com谢谢

  • 卷积神经网络实现图像识别

    超越自我31: 请问数据集用的是哪个

  • 卷积神经网络实现图像识别

    m0_74970777: 兄弟问题解决了吗

  • 卷积神经网络实现图像识别

    l01190119: 作者的识别类型数量num_classes在哪设置的? 这个模型是默认只能训练不超过两种类别吗? 超过两种会报 RuntimeError: CUDA error: device-side assert triggered block: [0,0,0], thread: [11,0,0] Assertion `input_val >= zero && input_val <= one` failed 的错误

最新文章

  • 爬虫爬取图片
  • httml+csss实现华为登录界面2(简易版)
  • html+css 实现华为登录界面
2023年2篇
2022年4篇
2021年1篇
2020年4篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家硕创玻璃钢雕塑工艺 6.9博尔塔拉动物玻璃钢雕塑价格湖州玻璃钢仿铜雕塑定做广西玻璃钢人物雕塑定制北京常用商场美陈哪家好商场美陈调研浙江室内商场美陈售价仿古玻璃钢花盆多少钱广安玻璃钢卡通雕塑价格山西创意玻璃钢雕塑优势玻璃钢云彩浮雕雕塑图片沈阳园林玻璃钢雕塑制作济南玻璃钢雕塑定做好口碑的玻璃钢海洋雕塑揭阳玻璃钢卡通雕塑手工制作玻璃钢浮雕马雕塑商场丰收节美陈布置上海玻璃钢雕塑仿真牛惠东园林玻璃钢雕塑商丘玻璃钢雕塑厂家玄武商场大型美陈商场玻璃钢雕塑多少钱商场室外美陈咨询云浮公园玻璃钢动物雕塑南京汕尾玻璃钢卡通雕塑北辰玻璃钢雕塑公司怀化商场美陈福建步行街玻璃钢雕塑哪家便宜东莞三水玻璃钢人物雕塑上海玻璃钢雕塑订购香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化