懂车帝参数配置详情信息爬取

自学小白,今天试着爬取懂车帝的某些车型的详情配置信息。

看了很多大佬的文章,很多都是直接调用的API数据接口,但是我没找到完整参数的数据接口,就用传统的方法获取基本信息了,欢迎大家批评指正!

先说一句,懂车帝懂车帝你人还怪好的叻!(目前没啥反爬措施)

思路

整体的思路是先获取到车型的id,再获取页面信息,然后处理HTML,导出数据到excel。

因为所有车型信息页面都需要车型id作为参数,所有我们首先要获取到车型id

以海豚为例,我们其实仔细观察网址链接就能发现5008就是海豚的车型id,当然观察法只是说说而已,具体方法参考文章①。

完整代码

1、参考代码

该代码会依次爬取"海豚", "荣放", "普拉多", "兰德酷路泽"这些车型信息,并输出到excel中;

import json
import requests
import pandas as pd
from parsel import Selector
from bs4 import BeautifulSoup

# 搜索汽车名称url
get_car_id_url = "https://www.dongchedi.com/search?keyword={car_name}&currTab=1&city_name={city_name}&search_mode=history"

# headers必须要有
headers = {
    'pragma': 'no-cache',
    'accept-language': 'zh-CN,zh;q=0.9',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36',
    'accept': '*/*',
    'cache-control': 'no-cache',
    'authority': 'www.dongchedi.com'
}


# 获取车辆id的函数,最后返回id
def get_car_id(car_name, city_name):
    carid_url = get_car_id_url.format(car_name=car_name, city_name=city_name)
    response = requests.get(url=carid_url, headers=headers).text
    selector = Selector(text=response)
    car_message = selector.css('''.dcd-car-series a::attr(data-log-click)''').get()
    car_message = json.loads(car_message)
    car_id = car_message.get("car_series_id")
    return car_id


# 获取车辆详情
def get_car_detail(car_id):
    # 汽车详情页url
    url = "https://www.dongchedi.com/auto/params-carIds-x-" + str(car_id)
    # 发送页面请求
    response = requests.get(url, headers)
    # 判定是否请求成功
    if response.status_code == 200:
        print('请求成功(*^▽^*)')
    else:
        print('请求网页失败┭┮﹏┭┮')
    # 获取需要进一步加工的网页数据
    html = requests.get(url, headers=headers)
    # 设置系统默认编码为UTF-8,防止乱码
    html.encoding = 'utf-8'
    # 使用BeautifulSoup解析这段代码,得到一个BeautifulSoup对象
    soup = BeautifulSoup(html.text, 'lxml')
    # 按照标准的缩进格式的结构输出
    # print(soup.prettify())
    trs = soup.find_all('div', class_='table_row__yVX1h')[3:12]
    car_info = []
    for tr in trs:
        infos = list(tr.stripped_strings)
        car_info.append(infos)
    # print(car_info)
    return car_info


# 启动函数
def main(car_name, city_name):
    car_id = get_car_id(car_name=car_name, city_name=city_name)
    car_info = get_car_detail(car_id=car_id)
    df = pd.DataFrame(car_info)
    # print(df)
    writer = pd.ExcelWriter(r"D:\work\临时\result.xlsx", mode='a', if_sheet_exists='new')  # mode如果不写则只会保留最后一次数据
    df.to_excel(writer, sheet_name=car_name, index=False)
    writer.close()  # 升级了Python,writer.save()会报错


if __name__ == '__main__':
    car_list = ["海豚", "荣放", "普拉多", "兰德酷路泽"]  # , "欧萌达", "瑞虎5X"
    for i in car_list:
        main(i, "重庆")

输出结果

2、重点

1、用request请求数据,headers必须要有!

2、详情页里我只取了基本信息先关的前几行,想获取全部信息去掉后面的切片器

trs = soup.find_all('div', class_='table_row__yVX1h')

3、升级了Python,writer.save()会报错 ,要用writer.close()

参考文章

(排名不分先后)

1、python爬虫实战【某汽车网站信息爬取】_爬取懂车帝车型-CSDN博客

2、 【Python爬虫】懂车帝_车型库页面_懂车帝爬虫_mafumafu2018的博客-CSDN博客

应小猫
关注 关注
  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
Python 懂车帝全系车型--参数分析
拉灯的小手的博客
11-23 6890
本文仅供学习交流使用,如侵立删!联系方式见文末 懂车帝全系车型数据 2021.11.23 更新 环境: win10 ,Contos7.4 python3.9 pycharm2021 retrying=1.3.3 requests=2.22.0 fake_useragent 抓包获取懂车分(口碑)数据接口: 品牌数据接口https://****/motor/brand/v6/br/ 车系数据接口https://****/motor/brand/m/v1/select/series/?city
python懂车帝字体反爬逐层解密案例(附完整代码)
最新发布
景天科技苑
08-28 2万+
懂车帝字体反爬解密,完整代码分享
懂车帝,推荐数据抓取
CXY00000的博客
01-27 142
【代码】懂车帝,推荐数据抓取。
懂车帝热销车辆爬虫及可视化分析
m0_71598203的博客
04-08 2771
懂车帝热销车辆爬虫处理并可视化分析。涉及数据库存储、电车、非电车、车型、价格等。
【原创】Python 懂车帝口碑分爬虫
拉灯的小手的博客
06-24 1694
懂车帝全系车型懂车分(口碑)页面中的详细车系评分数据先来web端试下能否找到需要的数据接口,随便找个车型打开口碑页面F12查看Network 根据页面关键字先搜索一波 只在页面的标签中找到了数据,没有发现有明显的数据接口,其实用charles抓包的时候发现一个疑似的js好像数据是通过这个js加载出来的,打开看了一下数据相当混乱,暂且先放一边,先从APP分析一波看能否直接拿到数据接口PS:手机环境、抓包环境的配置在这不在赘述,有兴趣的可参考之前的文章 APP抓包环境配置下载懂车帝APP,并安装至手机 手
pythonpython懂车帝数据可视化(代码+报告)
测试开发自动化
03-02 9186
👉博__主👈:米码收割机👉技__能👈:C++/Python语言👉公众号👈:测试开发自动化【获取源码+商业合作】👉荣__誉👈:阿里云博客专家博主、51CTO技术博主👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。
Python爬虫:如何下载懂车帝的电动车数据(完整代码)
weixin_42108731的博客
09-13 2405
Python爬虫:如何下载某车帝的电动车数据(完整代码)
Python爬虫-获取懂车帝“指定车型”的销量数据
Python进阶专栏《爬虫实战进阶》,《数据分析入门与实战》原创作者
07-09 575
本文是该专栏的第33篇,后面会持续分享python爬虫干货知识。在本专栏之前,笔者有详细介绍关于懂车平台的相关爬虫。对此,感兴趣的同学可以点击翻阅查看。而在本文中,笔者将要介绍的是懂车平台另外一种采集需求——获取“指定车型”的销量数据。具体实现思路和详细逻辑,笔者将在正文结合完整代码进行详细介绍。废话不多说,跟着笔者直接往下看正文详细内容。(附带完整代码)
大数据毕业设计:python汽车数据爬取分析可视化系统 懂车帝 Django框架 vue框架✅
十多年程序猿资深互联网人,目前专注于Python/Java/大数据项目解决方案制定,提供各行业各编程语言的全套开发服务,喜爱code,喜爱分享,生命不止,编码不息!
02-03 1338
大数据毕业设计:python汽车数据爬取分析可视化系统 懂车帝 Django框架 vue框架✅
python爬虫爬取车辆信息
pengxiang1998的博客
01-06 3242
博主爬取信息时发现能用的只有车辆名称,价格,图片,其余的像车辆品牌,详情并没有获取到,当然这并不是无法获取到,只是那个链接找起来太费眼睛了,哈哈哈哈。因此其余的所需信息博主便随机生成了。爬取数据,下载图片,插入数据库。
Python懂车帝的图片-代码
qq_42610167的博客
11-25 1842
#!/usr/bin/env python #heboqiang # -*- coding: utf-8 -*- # pa图 import requests import json from urllib import request k = 1 while (k < 1000): k += 1 headers = {"origin": 'https://www.dcda...
懂车帝全系车型数据包含车型图片地址
12-06
懂车帝全系车型数据包含车型图片地址
Python 爬取懂车帝详情页“全部车型模块信息”!懂车帝就火起来了吗?
爬遍所有网站
04-21 1798
需要爬取的内容:汽车具体型号,指导价,经销商报价,车主参考价 import requests import pymysql # 车型库 def Dongchedi(offset): url = 'https://www.dongchedi.com/motor/brand/m/v6/select/series/?city_name=%E6%AD%A6%E6%B1%89' headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1...
Python爬虫懂车帝_车型库页面
weixin_34200157的博客
12-09 3889
爬爬懂车帝...
Python爬虫 懂车帝全车系销量排行榜
2201_76125393的博客
02-21 1030
竟然没有需要的数据!不着急,多试几次,确定Charles抓到了所有的数据包,然后逐条分析一下,找到下图这个接口,看路径名猜测应该就是需要的数据接口,原来数据中中文经过了编码,难怪搜索不到,在线json解析看一下。根据页面关键词搜索没有找到明显的数据接口,虽然说现在也可以使用request或者selenium直接在页面解析数据,但是毕竟这不是首选方案,还是从APP分析一下在决定用什么方案。这儿推荐安装一个网页json可视化的插件,这儿偷懒没装,在线解析了一下json数据,和Charles抓到的数据是一样。
python汽车数据分析可视化系统 爬虫 懂车帝 Django框架 vue框架 毕业设计(源码)✅
vx_biyesheji0001的博客
02-23 1184
python汽车数据分析可视化系统 爬虫 懂车帝 Django框架 vue框架 毕业设计(源码)✅
Python+SSM懂车帝汽车数据分析平台 爬虫代码实例分析
全网粉丝100W+、全栈领域优质创作者、B站、github、CSDN等社区技术专家、专注于高端精品毕业项目源码实战
12-15 6148
Python+SSM懂车帝汽车数据分析平台 爬虫代码实例分析
今日目标:懂车帝车辆信息爬取之字体反爬
Way_TG的博客
07-16 597
关于字体反爬的处理,
Python爬虫+数据分析:爬一爬那个很懂车的网站,分析一下现阶段哪款车值得我们去冲(1)
2401_84562659的博客
05-02 85
Python崛起并且风靡,因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低,但它的晋级路线很多,通过它你能进入机器学习、数据挖掘、大数据,CS等更加高级的领域。Python可以做网络应用,可以做科学计算,数据分析,可以做网络爬虫,可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多,你需要学好基础,再选择明确的方向。这里给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
python 懂车帝车友圈数据爬取
04-24
好的,您想了解如何使用 Python懂车帝车友圈的数据进行爬取。可以使用 Python爬虫框架 Scrapy 或者 BeautifulSoup 等工具进行车友圈数据的爬取。您需要先了解懂车帝网站的页面结构和网站数据的获取方式。然后,通过 Python 编写相应的爬虫程序,模拟用户的访问行为,获取车友圈的数据。请注意,在进行数据爬取时,需要遵守相关的法律法规和网站的使用规则,避免侵犯他人的隐私权和知识产权。
写文章

热门文章

  • kettle如何正确连接mysql 7107
  • 基于Mac——dbeaver连接MySQL数据库错误提示Connection refused 4443
  • 新手怎么在Mac M1上安装kettle 4150
  • 懂车帝参数配置详情信息爬取 3517
  • sql server跨月时间段自定义 1753

分类专栏

  • 使用Mac做数据工作中遇到的问题 3篇

最新评论

  • kettle如何正确连接mysql

    大梦733: 如果有人还是连接不上的话,可能是jar版本的问题,我之前用的是8.0.39,还是一直报错,但是改成5.1.49好了

  • 懂车帝参数配置详情信息爬取

    VidaLavi: 呜呜太谢谢博主了 正发愁找不到怎么爬取这页信息呢没想到找到您了!博主万岁!祝您生活美满!

  • 懂车帝参数配置详情信息爬取

    TX?: 我也想咨询下,谢谢大佬。

  • 懂车帝参数配置详情信息爬取

    应小猫: 可以 moaomao99

  • 懂车帝参数配置详情信息爬取

    酒馆sir: 你好能加个微信咨询下吗,我想爬取这些信息

最新文章

  • M1如何安装pyecharts2.0以上版本
  • 新手怎么在Mac M1上安装kettle
  • 基于Mac——dbeaver连接MySQL数据库错误提示Connection refused
2024年1篇
2023年4篇
2021年1篇

目录

目录

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家曲阳正规玻璃钢雕塑市场前景如何甘肃玻璃钢景观雕塑厂家白山玻璃钢景观雕塑酒葫芦倒酒玻璃钢雕塑山东户外玻璃钢雕塑图片展馆玻璃钢雕塑玻璃钢雕塑上漆程序益阳玻璃钢雕塑定制厂家报价玻璃钢雕塑批发批发常德动物玻璃钢雕塑园林玻璃钢雕塑价格如何2021商场美陈太空人运城广场标识玻璃钢卡通雕塑城市玻璃钢雕塑哪家好玻璃钢羊肉串雕塑湖北玻璃钢雕塑模型扬州玻璃钢雕塑设计与制作北京小品系列玻璃钢雕塑价格德宏商场美陈展示浙江常见商场美陈现价呈贡玻璃钢雕塑款式玻璃钢人物雕塑杭州佛像玻璃钢雕塑制作嘉峪关动物玻璃钢雕塑安装上海玻璃钢花盆多少钱山西定制玻璃钢雕塑优势新郑肖像玻璃钢景观雕塑合肥商场装饰美陈玻璃钢雕塑厂家咨询客服不锈钢太湖石玻璃钢仿铜雕塑定做香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化