Python 爬虫架构介绍

最新推荐文章于 2023-01-07 16:26:26 发布

码奋

最新推荐文章于 2023-01-07 16:26:26 发布

阅读量516

收藏

点赞数 1

Python 爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。

调度器：相当于一台电脑的CPU，主要负责调度URL管理器、下载器、解析器之间的协调工作。
URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重复抓取URL和循环抓取URL，实现URL管理器主要用三种方式，通过内存、数据库、缓存数据库来实现。
网页下载器：通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib2（Python官方基础模块）包括需要登录、代理、和cookie，requests(第三方包)
网页解析器：将一个网页字符串进行解析，可以按照我们的要求来提取出我们有用的信息，也可以根据DOM树的解析方式来解析。网页解析器有正则表达式（直观，将网页转成字符串通过模糊匹配的方式来提取有价值的信息，当文档比较复杂的时候，该方法提取数据的时候就会非常的困难）、html.parser（Python自带的）、beautifulsoup（第三方插件，可以使用Python自带的html.parser进行解析，也可以使用lxml进行解析，相对于其他几种来说要强大一些）、lxml（第三方插件，可以解析 xml 和 HTML），html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 树的方式进行解析的。
应用程序：就是从网页中提取的有用数据组成的一个应用。

下面用一个图来解释一下调度器是如何协调工作的:

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

码奋

博客等级

码龄6年

79
原创

405
点赞

769
收藏

79
粉丝

关注

私信

写文章

热门文章

Tensorflow 2.0 !!!! No module named ‘tensorflow.examples.tutorials‘解决办法，有用 137999
pandas把csv文件数据按列排序 13135
Pandas库DataFrame的排序输出特定某列 11927
python urlparse()方法 7603
python实现Dice系数 7160

分类专栏

Python学习 51篇
Tensorflow2.0学习 13篇
Django 2.2学习 2篇
安卓学习 1篇
Kali Linux 4篇

最新评论

Tensorflow 2.0 !!!! No module named ‘tensorflow.examples.tutorials‘解决办法，有用
R_joice: 我也找不到解决了吗
Tensorflow 2.0 !!!! No module named ‘tensorflow.examples.tutorials‘解决办法，有用
AchieverW: 请问怎么解决的呢，我下载的是2.1版本gpu版，没有找到相应的文件夹路径
Tensorflow 2.0 !!!! No module named ‘tensorflow.examples.tutorials‘解决办法，有用
码奋: 不好意思，不清楚为什么违法规则，这是新的分析地址 https://cowtransfer.com/s/350485499c4b49 点击链接查看 [ tutorials等1个文件.zip ] ，或访问奶牛快传 cowtransfer.com 输入传输口令 35y86o 查看；
Tensorflow 2.0 !!!! No module named ‘tensorflow.examples.tutorials‘解决办法，有用
颂玺: 去旧版本里有https://github.com/tensorflow/tensorflow/tree/v2.3.0
Tensorflow 2.0 !!!! No module named ‘tensorflow.examples.tutorials‘解决办法，有用
望舒think: 作者，腾讯微云打不开，GitHub下载以后没有tutorial这个文件，可以帮忙解决一下吗

最新文章

Windows安装pycocotools
CIFAR10-VGG16
深度卷积生成对抗网络(DCGAN)来生成对抗图像

2022年1篇

2021年1篇

2020年13篇

2019年73篇

目录

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

成就一亿技术人!

发出的红包

使用余额支付

点击重新获取

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

玻璃钢生产厂家深圳蓝色玻璃钢花盆翅膀白马玻璃钢雕塑玻璃钢卡通雕塑性价比公司黄冈玻璃钢商场美陈茂名人物玻璃钢雕塑高档玻璃钢花盆生产福建主题商场美陈厂家供应浙江大型商场美陈采购广州环保玻璃钢雕塑价位湖北水果玻璃钢雕塑批发玻璃钢花盆特价耐高温玻璃钢花盆定制玻璃钢仿铜雕塑专业公司佛山商场美陈湖北公园玻璃钢雕塑价位濮阳大型玻璃钢景观雕塑上海玻璃钢蔬菜雕塑运城园林景观玻璃钢仿铜雕塑猫玻璃钢雕塑在哪里买白银仿真玻璃钢雕塑哪家好玻璃钢艺术雕塑设计厂家玻璃钢酒店雕塑装置品欧式玻璃钢卡通雕塑制作商场节庆美陈雕塑厂家山西玻璃钢桃子雕塑苏州雕塑玻璃钢工厂赣州玻璃钢长颈雕塑惠州迎宾玻璃钢雕塑玻璃钢雕塑公园上海无锡拉丝玻璃钢雕塑哪家好香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤司机系学生 315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人？张立群任西安交通大学校长杨倩无缘巴黎奥运 “重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身！外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒投喂者赔24万房客欠租失踪房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫：哈马斯三号人物被杀测试车高速逃费小米：已补缴老人退休金被冒领16年金额超20万

玻璃钢生产厂家 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化