Python如何获取网页指定数据信息

60 篇文章 8 订阅
订阅专栏
本文介绍了如何使用Python的requests库获取网页内容,然后利用BeautifulSoup解析HTML,提取角色名、演员名、介绍和图片信息。通过遍历找到的节点,将数据存储到列表中,并最终使用pandas将数据保存到TXT文件。
摘要由CSDN通过智能技术生成

1、概括

        本文主要使用python编程,使用requests库获取网页内容,利用BeautifulSoup实现html文本解析查找我们想要得数据信息,使用pandas最终将我们获取得数据持久化存储到txt文本文件中。

3、预习

        在开始案例之前,我们来掌握一下主要使用到的api接口:

# url:网址

# headers:请求头数据字典

# return:返回网页信息

requests.get(url=url, headers=headers)

# dl:标签名称

# attrs:标签的属性及属性值字典

# return:返回其全部的查到符合要求的数据节点

bs1.find_all('dl',attrs={'class':'roleIntrodcution-descritpion'})

注意:find_all使用前是需要使用BeautifulSoup转化requests的文本内容

4、分析

        我们需要对其网址的html进行分析,F12查看其中角色名、演员名、介绍、图片的节点标签名和节点的class属性值或者id值 ,从而获取其所在位置数据。通过F12查看元素可看到除了图片网址其他信息都在其节点内部dl标签,class为roleIntrodcution-descritpion的父节点下。同样的方式我们分别查看一下角色名称、演员名称、介绍信息的对应节点。

# 角色名

find_all('div',attrs={'class':'role-name'})

# 演员名

find_all('div',attrs={'class':'role-actor'})

# 描述

find_all('dd',attrs={'class':'role-description'})

# 图片信息

find_all('a',attrs={'class':'roleIntrodcution-picture'})

5、案例实现

#导包
import requests
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}
url = 'https://baike.baidu.com/item/%E5%8A%9F%E5%8B%8B/24265662?fr=aladdin#8'
response = requests.get(url=url, headers=headers)
#step_3:获取响应数据:通过调用响应对象的text属性
page_text = response.text
from bs4 import BeautifulSoup
bs1 = BeautifulSoup(page_text, 'html.parser')
# 名称
name = []
# 演员名称
real_name = []
# 介绍
instruct=[]
for i in bs1.find_all('dl',attrs={'class':'roleIntrodcution-descritpion'}):
    for j in i.find_all('div',attrs={'class':'role-name'}):
        name.append(j.text.replace('\n',''))
        
    for j in i.find_all('div',attrs={'class':'role-actor'}):
        real_name.append(j.text.replace('\n','').replace('演员',''))

for i in bs1.find_all('dd',attrs={'class':'role-description'}):
    instruct.append(i.text.replace('\n',''))
# 照片下载路径
pic = []
for i in bs1.find_all('a',attrs={'class':'roleIntrodcution-picture'}):
    pic.append(i.find('img').get('src'))
    
data={'角色姓名':name,'演员':real_name,'角色简介':instruct,'角色剧照':pic}
import pandas as pd
df = pd.DataFrame(data,columns=['角色姓名', '演员','角色简介','角色剧照'])
df.to_csv('data.txt', sep=' ',index=False)

6、结果

# data.txt 文件名

# sep列分格

# index是否显示索引

df.to_csv('data.txt', sep=' ',index=False)

python获取指定网页上所有超链接的方法
09-22
本文主要讲解了如何利用Python语言结合urllib2模块和正则表达式来获取指定网页上的所有超链接。 首先,urllib2是Python标准库中的一个模块,它支持HTTP、HTTPS、FTP等多种协议,可以用来访问互联网上的资源。urllib...
Python基础12-爬虫抓取网页内容
PythonWeb实践
04-27 941
在本文中,我们将学习如何使用 Python 的requests和库进行网页抓取。我们将从基本的网页请求开始,逐步扩展到更高级的主题,如处理分页、AJAX 请求、正则表达式和异步抓取。
如何用Python获取网页指定内容
m0_67390969的博客
07-30 1万+
但是上面抓取到的代码充满尖括号的一片字符,对我们没有什么作用,这样的充满尖括号的数据就是我们从服务器收到的网页文件,就像Office的doc、pptx文件格式一样,网页文件一般是html格式。每个标记的文字内容都是夹在两个尖括号中间的,结尾尖括号用/开头,尖括号内(img和div)表示标记元素的类型(图片或文字),尖括号内可以有其他的属性(比如src)Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能。...
Python怎么使用爬虫获取网页内容
最新发布
Maisuluo的博客
08-09 72
浏览器画网页的流程,是浏览器将用户输入的网址告诉网站的服务器,然后网站的服务器将网址对应的网页返回给浏览器,由浏览器将网页画出来。网页文件和我们平时打交道的文件没什么不同,平时我们知道 Word 文件,后缀名为 .doc, 通过 Word 可以打开。图片文件后缀名为 .jpg,通过 Photoshop 可以打开;而网页则是后缀名为 .html,通过浏览器可以打开的文件。
python爬取网页信息
m0_67403240的博客
08-02 2971
Python爬虫是用Python编程语言实现的网络爬虫,主要用于网络数据的抓取和处理,相比于其他语言,Python是一门非常适合开发网络爬虫的编程语言,大量内置包,可以轻松实现网络爬虫功能。Python爬虫可以做的事情很多,如搜索引擎、采集数据、广告过滤等,Python爬虫还可以用于数据分析,在数据的抓取方面可以作用巨大!此次项目我们所需软件PyCharm下载地址链接....
Python技术分享:爬虫
qianfeng_dashuju的博客
09-18 376
web数据获取 urllib模块应用 如何通过python获取网页数据 做转码 准备web页面素材 启动httpd 通过apache的访问日志 发现是python进行的登录 解决为 urllib添加头部信息 import urllib.request as u request = u.Request("http://192.168.86.11") #将网页地址添加到request实例(变量) request.add_header("User-Agent","Mozill
如何用Python爬取网页数据Python爬取网页详细教程
python03013的博客
05-29 1万+
如何用Python爬取网页数据Python爬取网页详细教程
使用Python进行网页数据爬取
String114514的博客
09-24 8233
Python是一门强大的编程语言,广泛应用于数据分析、网站开发和自动化任务等领域。其中,爬取网页数据Python的一项重要用途之一。本文将带领你一步步学习如何使用Python编写一个简单且高效的网页数据爬取程序。希望这篇文章对你使用Python编写一个简单的网页数据爬取程序有帮助,并能够启发你在实际项目中应用这些技术。记得多进行实践和探索,不断提升你的爬虫技能。
python爬取网页详细教程
xiangxueerfei的博客
09-29 8389
可以使用Python中的Pandas库,将数据存储到Excel或CSV文件中,或者使用Python自带的sqlite3库,将数据存储到SQLite数据库中。随着互联网的高速发展,网页上的信息也越来越丰富,而Python作为一门高效的编程语言,可以帮助我们快速地获取所需的信息。requests库是Python中最常用的HTTP库,可以帮助我们向目标网站发送GET或POST请求,并获取网页上的数据。BeautifulSoup库是Python中最常用的HTML解析库,可以帮助我们快速地获取网页中的各种信息
Python爬虫学习之获取指定网页
09-18
Python爬虫获取指定网页源码的基础知识点主要涉及Python编程语言以及网络爬虫的基本原理和技术。以下是针对标题和描述中知识点的详细说明: 1. Python编程基础:Python是一种高级编程语言,它以其简洁的语法和强大...
python爬虫爬取网页表格数据
09-20
Python爬虫是一种用于自动化网络数据抓取的技术,它能够高效地从互联网上提取大量信息。在本例中,我们将重点讨论如何使用Python爬虫来抓取网页中的表格数据Python提供了多个库来辅助这一过程,如BeautifulSoup和...
实例讲解Python爬取网页数据
09-20
标题和描述表明本文将讲解如何使用Python进行网页数据的爬取,并通过具体实例演示了整个过程。以下是对文章中知识点的详细解说: 1. **导入必要的模块**: 文章首先介绍了如何使用webbrowser模块来打开浏览器并...
python获取图片颜色信息的方法
09-22
Python获取图片颜色信息主要依赖于PIL(Python Imaging Library,现在称为Pillow)模块。这个库提供了一种方法来操作和处理图像数据,包括获取像素的颜色信息获取图片颜色信息的过程分为几个步骤,本文将详细...
python3简单请求web页面获取数据
qq_45707441的博客
10-10 5669
一、GET、POST请求方法的原理 1. HTTP工作原理 HTTP协议定义Web客户端如何从Web服务器请求Web页面,以及服务器如何把Web页面传送给客户端。HTTP协议采用了请求/响应模型。客户端向服务器发送一个请求报文,请求报文包含请求的方法、URL、协议版本、请求头部和请求数据。服务器以一个状态行作为响应,响应的内容包括协议的版本、成功或者错误代码、服务器信息、响应头部和响应数据。 以下是 HTTP 请求/响应的步骤: (1)客户端连接Web服务器 一个HTTP客户端,通常是浏览器,与Web服务器
Python3 注释
xiqng17111342931的博客
11-11 1720
Python3 注释
python爬虫入门,轻松爬取网页上的数据(非常详细)
热门推荐
CSDN_430422的博客
11-04 5万+
随着网络的普及和信息爆炸式增长,我们可以通过网络来获取各种各样的数据。而Python作为一门强大而灵活的编程语言,可以帮助我们快速地从HTML网页中提取数据。本文将介绍Python爬虫的入门知识,并详细讲解如何使用Python爬虫来爬取HTML网页上的数据。1.了解HTML和网页结构2.安装和导入相关依赖库3.发送http请求获取网页内容4.解析HTML网页内容5.定位内容和提取数据6.保存抓取的数据在开始编写爬虫之前,了解HTML和网页的结构是非常重要的。
python爬取网页的方法总结,python爬虫获取网页数据
神经网络爱好者
08-16 2926
大家好,小编来为大家解答以下问题,python爬取网页信息代码正确爬取不到,利用python爬取简单网页数据步骤,今天让我们一起来看看吧!
python请求网页获取网页信息_python网页信息抓取
weixin_39933484的博客
11-28 1037
自动抓取网页信息,也就是爬虫,一般通过js或者python都可以较方便的实现。都是通过模拟发送页面请求,然后解析html页面的元素来提取信息。function wraperAxiosHour(cityCode) {return new Promise((resolve, reject) => {const url = `http://www.weather.com.cn/weather1dn/${...
python爬取网页数据步骤,python爬虫爬取网页数据
gk12336的博客
03-20 1758
大家好,本文将围绕利用python爬取简单网页数据步骤展开说明,如何利用python爬取网页内容是一个很多人都想弄明白的事情,想搞清楚python爬取网页数据步骤图解需要先了解以下几个事情。
Python pandas轻松爬取网页表格数据
"Python爬取网页表格数据使用pandas库" 在Python中,处理和分析数据是一项常见的任务,而pandas库为此提供了强大的支持。在本篇内容中,我们将探讨如何利用pandas来爬取并处理网页上的表格数据。这种方法对于需要从...
写文章

热门文章

  • float32和float64的本质区别(类型对深度学习影响以及python的使用) 101254
  • mysql将两张表合并为一张表 20114
  • python实现合并两个list并去掉重复的元素 18704
  • RGB与HSV的深层理解(详细) 16629
  • 如何使用django的objects.filter()方法匹配多个关键字 15828

分类专栏

  • 网络安全 3篇
  • 自然语言处理 8篇
  • 成长 2篇
  • 笔记 3篇
  • Git 1篇
  • MQ 2篇
  • 混淆、反编译 1篇
  • go语言并发学习 3篇
  • 数据库 12篇
  • Python 60篇
  • java 19篇
  • 前端 23篇
  • java web 21篇
  • 书籍 2篇
  • hadoop 2篇
  • 工具安装 2篇
  • Django 18篇
  • 排序算法 1篇
  • 基础 9篇
  • 机器学习 10篇
  • Linux 8篇
  • OpenCv 6篇

最新评论

  • 基于LSTM模型实现新闻分类

    CX17786550717: 请问提取码是多少

  • python基于用户画像和协同过滤实现电影推荐系统

    lshadowl537: 您好,能不能分享一下整个项目集的代码表情包

  • pywifi连接中文wifi名称(乱码)连接不上问题解决方案

    崇志广勤: 但需要排除法找出中文的WiFi

最新文章

  • 使用html+css+layui实现动态表格组件
  • java将网址生成二维码图片base64
  • easyUI点击编辑操作实现行编辑,点击取消编辑取消编辑,点击添加实现添加行操作
2024年3篇
2023年5篇
2022年41篇
2021年31篇
2020年31篇
2019年72篇
2018年21篇

目录

目录

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

拼命_小李

给点鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家邛崃玻璃钢雕塑大象泸州玻璃钢海豚雕塑定制利市篮玻璃钢雕塑广东定制玻璃钢雕塑多少钱山西欧式玻璃钢雕塑定制平谷玻璃钢人物雕塑不饱和玻璃钢树脂雕塑鄂州玻璃钢雕塑考拉批发扬州多边形玻璃钢花盆安徽商城玻璃钢美陈雕塑广州红色玻璃钢卡通雕塑敦煌玻璃钢牌匾雕塑山东商场创意商业美陈怎么做端州玻璃钢抽象雕塑价格濮阳商场美陈雕塑厂家昌平区商场美陈哪家公司好梅州美陈玻璃钢动物雕塑c罗玻璃钢雕塑宿迁玻璃钢造型雕塑龙岩玻璃钢雕塑制作厂家便宜玻璃钢雕塑高性价比的选择仿真玻璃钢卡通雕塑代理商庆阳大型玻璃钢雕塑公司南平商场美陈闽侯玻璃钢雕塑湖南多彩玻璃钢雕塑生产厂家玻璃钢房地产雕塑厂家开封太湖石玻璃钢卡通雕塑玻璃钢商城广场美陈雕塑定制青岛大型商场美陈香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化