python学习(二)爬虫——爬取网站小说并保存为txt文件(一)
一:获取小说页面
所需模块
import requests #获取网络连接
目标小说网站:http://m.50zw.la
获取页面
r = requests.get('http://m.50zw.la',params=re_header)
requests的高级特性
这里的re_header是HTTP请求头,用来模仿浏览器访问,避免被网站发现
获取方法如下
1,用chrome打开小说网站
2,按F12进入开发者模式或者 鼠标右键->检查 进入开发者模式
3,点击network
4,如图:
注:request-header里的并不需要全部复制,只要一部分就可以,具体的自己试一试
然后我们获取到的网页就会保存在r里面
这里还要设置编码,requests默认为utf-8,我们的目标网站的编码是gbk
Elliot·X: 折腾了半天才发现把权限给关了
漫慢丶: 写的很不错
zhugw2012: 不起作用 并未解决
qq_37140692: 请问下,比如如果每次爬取200条,就会触发list out of range,是啥意思?
hdharden: 为啥爬虫运行成功了但没有图片被保存啊