专栏/【Python爬虫教程】Python网络爬虫最全视频教程(含项目实战)

【Python爬虫教程】Python网络爬虫最全视频教程(含项目实战)

2023年08月06日 09:12--浏览 · --喜欢 · --评论
冥卫CHARON
粉丝:3文章:2

1.什么是爬虫?

请求网站并提取其中所需数据的自动化程序



【第二章 爬虫基础】课时07:爬... P7 - 02:43


实例演示:


【第二章 爬虫基础】课时07:爬... P7 - 03:10


2.爬虫的基本流程

1》发起请求

通过HTTP库向目标点发送request(可包含headers等信息),等待服务器响应

2》获取响应内容

如果服务器能正常响应,则会返还response,其中包含的内容就是所需的内容(可能有HTML<超文本标记语言>,Json字符串,二进制数据<图片视频等>等类型)

3》解析内容

得到内容后,需要用相应的解析库对内容进行解析,从而对内容进行保存或下一步的处理

4》保存数据

可以存为文本,也可以存于数据库或者其它特定格式文件


【第二章 爬虫基础】课时07:爬... P7 - 06:09



3.request与response



【第二章 爬虫基础】课时07:爬... P7 - 07:44



实例演示:


【第二章 爬虫基础】课时07:爬... P7 - 09:30


4.request的包含

1》请求方式

主要常用的有GETPOST,此外还有不常用的HEAD,PUT,DELETE,OPTIONS等


【第二章 爬虫基础】课时07:爬... P7 - 12:25


<GET与POST的区别>

1、安全性不同

get请求:GET 方法发送的数据不受保护,因为数据在 URL 栏中公开,它以明文形式保存在浏览器历史记录和服务器日志中,这增加了漏洞和黑客攻击的风险。

post请求:POST 方法发送的数据是安全的,因为数据未在 URL 栏中公开,参数不会存储在浏览器历史记录或 Web 服务器日志中,还可以在其中使用多种编码技术,这使其具有弹性。

2、编码类型(enctype 属性)不同

get请求:application/x-www-form-urlencoded。在表单中使用 GET 方法时,数据类型中只接受 ASCII 字符。

post请求:multipart/form-data or application/x-www-form-urlencoded 对二进制数据使用多部分编码。在表单提交时,POST 方法不绑定表单数据类型,并允许二进制和 ASCII 字符。

3、表单数据长度不同

get请求:表单数据位于 URL 中,并且 URL 长度受到限制。安全 URL 长度限制通常为 2048 个字符,但因浏览器和 Web 服务器而异。

post请求:无限制。

4、添加书签不同

get请求:GET 查询的结果可以加入书签中,因为它以 URL 的形式存在。

post请求:POST 查询的结果无法加入书签中。

5、数据可变大小

get请求:GET 方法中的可变大小约为 2000 个字符。

post请求:POST 方法最多允许 8 Mb 的可变大小。

6、缓存不同

get请求:GET 方法的数据是可缓存的。

post请求:POST 方法的数据是无法缓存的。

7、主要作用不同

get请求:GET 方法主要用于获取信息。

post请求:POST 方法主要用于更新数据。

8、能见度不同

get请求:GET方法对每个人都是可见的(它将显示在浏览器的地址栏中),并且对要发送的信息量有限制。

post请求:POST 方法变量不会显示在 URL 中。

9、发送的数据数量不同

get请求:在 GET 中,只能发送有限数量的数据,因为数据是在 URL 中发送的。

post请求:在 POST 中,可以发送大量的数据,因为数据是在正文主体中发送的。

10、可用性不同

get请求:发送密码或其他敏感信息时,不应使用 GET 方法。

post请求:发送密码或其他敏感信息时应使用 POST 方法。



2》请求URL

URL:统一资源定位符,如网页文档,一张图片,一个视频等都可用URL唯一来确定


【第二章 爬虫基础】课时07:爬... P7 - 16:49


3》请求头reques-headers

请求时的头部信息,即请求内容中比较重要的配置信息,如User-Agent(用户代理)Host(端口),Cookies(小型文本)等信息


【第二章 爬虫基础】课时07:爬... P7 - 20:27


4》请求体

请求时额外所带的数据,如表单提交时的表单数据


【第二章 爬虫基础】课时07:爬... P7 - 22:13


一般来说,请求体在进行GET请求时不会携带任何内容,但在POST请求中,请求体会处于from-data的形式


【第二章 爬虫基础】课时07:爬... P7 - 22:28


5.response的包含

1》响应状态

如200(响应成功),301(跳转),404(找不到资源),502(服务器错误)


【第二章 爬虫基础】课时07:爬... P7 - 24:24


2》响应头

如内容类型,长度,服务器信息,设置cookie等


【第二章 爬虫基础】课时07:爬... P7 - 25:30


3》响应体

最主要部分,包含了请求资源的内容,如网页HTML,图片二进制数据等


【第二章 爬虫基础】课时07:爬... P7 - 26:30


6.运用



【第二章 爬虫基础】课时07:爬... P7 - 27:33

















投诉或建议

代做工资流水公司福州个人工资流水 打印开封代做签证银行流水沧州入职银行流水代开台州查询购房银行流水淮安工资银行流水代开新乡背调工资流水打印徐州房贷银行流水 价格淄博工资流水账单代办郑州转账银行流水代做保定银行流水账图片福州办入职银行流水长春自存银行流水费用金华签证工资流水制作衡阳工作收入证明开具济宁办理工资流水账单南昌薪资银行流水多少钱惠州企业对公流水费用九江办理对公流水九江办工作收入证明曲靖查询自存银行流水岳阳银行对公流水费用湛江房贷银行流水 代开合肥企业流水打印报价济南代开背调银行流水台州制作银行对公流水广州薪资流水代做商丘入职银行流水公司成都公司银行流水费用珠海代办离职证明广州自存流水公司香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化