python学习（二）爬虫——爬取网站小说并保存为txt文件（一）

最新推荐文章于 2024-08-14 11:00:39 发布

置顶

渔父歌

最新推荐文章于 2024-08-14 11:00:39 发布

阅读量1.3w

点赞数 8

分类专栏： python 学习笔记 python爬虫入门文章标签： python爬虫 python学习

本文链接： https://blog.csdn.net/qq_40695895/article/details/79606106

版权

本文介绍了使用Python爬虫获取网络小说页面，剔除源码中的非文字内容，通过BeautifulSoup解析HTML获取章节，最后将章节内容写入TXT文件的步骤。详细讲解了如何设置请求头、解析HTML以及使用os模块操作文件。

摘要由CSDN通过智能技术生成

一：获取小说页面

所需模块

import requests #获取网络连接

目标小说网站：http://m.50zw.la

获取页面

r = requests.get('http://m.50zw.la',params=re_header)

requests的高级特性

这里的re_header是HTTP请求头，用来模仿浏览器访问，避免被网站发现
获取方法如下
1，用chrome打开小说网站
2，按F12进入开发者模式或者鼠标右键->检查进入开发者模式
3，点击network
4，如图：

注：request-header里的并不需要全部复制，只要一部分就可以，具体的自己试一试

然后我们获取到的网页就会保存在r里面

这里还要设置编码，requests默认为utf-8，我们的目标网站的编码是gbk

立减 ¥

8
点赞
踩
62

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python爬虫实战--爬取网络小说并存放至txt文件中

一只大码猴

07-30

1563

爬取网页：urllib，requests等解析网页：beautifulsoup4，lxml等一.网站类型（1）从乐文小说网站上爬取小说相见欢，并存放至txt文件中 URL：从前有座灵剑山（一）介绍该类网站为静态网站。特点：（1）章节目录直接加载所有章节内容【如下图所示】（2）章节链接暴露在html中（非动态js加载）（二）爬取教程首先，我们引入我们需要的库文件接下来，我们进行爬虫伪装（伪装报头）（该网站没有反爬虫机制，可以选择跳过）我们从爬取单章开始，首先我们进入第一张的网址

python学习（二）爬虫——爬取网站小说并保存为txt文件（三）

渔父歌的博客

03-22

3691

python上一篇写了怎样获取整本小说并写入文件，但是速度实在太慢，这一篇我们使用多线程来提高爬取速度一：多线程模块 threading 创建线程创建线程有两种方法第一种是继承threading.Thread类，并重写它的init和run函数代码如下： import threading class gettext(threading.Thread): ...

3 条评论您还未登录，请先登录后发表或查看评论

python基础：简单实现从网页中获取小说名单列表并存入文件中

专科三年的修炼的博客

02-22

583

python基础

网络爬虫：利用python代码爬取一个网页的代码文件和数据文件

热门推荐

Ericam_

11-20

3万+

目录前言小说爬虫基本流程图一.网站类型（1）二.网站类型（2）前言本教程再次更新，希望做成一个完整系列。读者阅读完毕便可以基本掌握爬取网络小说的步骤与方法。实践出真知，真正的学会是使用教程中的方法去爬取一个全新的网站。【在学习的过程中千万不要先完整的学习第三方扩展包教程，例如我先把beautifulsoup教程里的所有函数操作都熟练背诵下来。这样只会浪费...

python 爬取网页小说并保存成txt文件

qq_34231078的博客

05-29

8906

平时喜欢看小说自己写的简单爬虫利用python来爬取网页上的小说（笔下文学的）这是爬取并保存的元尊小说的txt文件代码如下： import urllib.request import re import gzip from io import BytesIO from bs4 import BeautifulSoup // //打开链接 def urlopen(url): req = urllib.request.Request(url) req.add_header("User

使用python3下载起点畅销榜前100名的书籍信息，并且根据日期保存为txt

olpszl的博客

04-01

362

起点畅销榜

python学习（二）爬虫——爬取网站小说并保存为txt文件（二）

渔父歌的博客

03-21

5590

前面我们已经完成了单章小说的爬取，现在我们来爬取整本小说一：获取小说章节列表在小说网站里没不小说都有自己的章节目录，里面记录了所有的小说章节地址。我们要想获取整本小说就要先得到小说的章节列表 m.50zw.la的章节列表格式为http://m.50zw.la/chapters_加上小说id，即http://m.50zw.la/chapters_1/这个链接指向的是id为1...

Python爬虫练习笔记——爬取一本小说并保存为txt文件

sinat_34937826的博客

04-17

1万+

最近竟然开始磕起了黄晓明和尹正的CP！！！但是万恶的爱某艺不好好更新剧集，居然搞起了超前点映… WTF？？？有什么是我这个贫穷而又尊贵的VIP用户不能看的？？？于是我决定开始看小说了！找个网站把小说爬下来慢慢看吧~ 先物色一个投缘的小说网站吧就它了！第一步：分析网页首先需要了解要爬取网站的页面，查看网页源代码。然后根据网页源代码的结构，想好代码的步骤和思路。在网页开发者模式中查看...

Python爬虫之爬取网络小说并在本地保存为txt文件

qq_44620844的博客

07-20

3802

Python爬虫之爬取网络小说并在本地保存为txt文件注：本文使用软件为Sublime Text，浏览器为谷歌浏览器（新手小白第一次写，写得不好请见谅） **1.**首先找到想要爬取的小说章节目录，如下图（网上随便找的一部小说）然后鼠标右击-点击‘查看网页源代码’，如下图所示：从上图代码里可以看到小说每一章的链接，所以所以我的思路就是通过这一页面然后让代码获取每一章的链接，再通过链接获取每一章的文字内容。 **2.**关于代码部分讲述 import requests from lxml import

通过python爬虫下载TXT文件，并整合到一个文件中

克念的blog

08-11

9131

最近学习了下python爬虫，在简单看了一些文档之后就想着做点东西来完善下自己学习的内容。因此就写了下面的代码，来实现把一个网站上面的小说内容下载下来。小说是一章一章的结构，因此在把每章的内容爬下来之后，还需要合并到一个TXT文件中。 python的版本是3.6，然后使用了beautifulsoup库。网站的界面如下: 从上图可以看到，网站里面的内容每一章都是单独的下载链接。因此...

python合并多个txt中的内容到一个txt中

weixin_42023936的博客

08-07

2837

在使用python进行合并多个txt的内容时，使用如下： with open(filepath,'w') as f: f.write(line) 会导致将原来的filepath中的内容进行覆盖，如何进行不覆盖形式的编写呢，我们可以进行先读行再写的方式(先readlines(),后write)，源代码如下，同时还包含将文章中的符号、数字等的去除： import os import...

[Python] 多进程爬取小说网站并生成工整的txt文件

SharenFish的博客

11-29

510

import requests from lxml import etree from multiprocessing import Pool def Chapterspider(self): """章节爬虫，参数传入目录，返回(章节名称，对应页面链接)的列表""" headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Ge

如何用 Python 爬取网页制作电子书

技术杂谈

01-23

9188

本文来自作者孙亖在 GitChat 上分享「如何用 Python 爬取网页制作电子书」，「阅读原文」查看交流实录。「文末高能」编辑 | 哈比0 前言有人爬取数据分析黄金周旅游景点，有人爬取数据分析相亲，有人大数据分析双十一，连小学生写论文都用上了大数据。我们每个人每天都在往网上通过微信、微博、淘宝等上传我们的个人信息，现在就连我们的钱都是放在网上，以后到强人工智能，我们连决策都要依靠网络。网

python3自动爬取网页资源并保存为epub电子书

luoqinxiang的博客

12-25

2572

使用Python获取网页内容并生成EPUB格式电子书前言EPUB的介绍思路代码示例前言现在的有很多电子书都不能下载了,只能在线看,但是广告又多.所以想编个程序抓取这些内容生成电子书. EPUB的介绍关于EPUB的介绍已经有很多了.简单的说就是把书的各个章节和生成的一些记录目录信息放在一起后打成zip压缩包,然后再改名为epub结尾.虽然已经有个epublib的库,但是我还是想自己做一个程序,...

如何将python爬出来的数据保存_python爬虫第7篇——爬取的数据如何存档

05-29

可以使用以下几种方式将Python爬虫爬取到的数据保存起来： 1. 保存为文本文件：可以使用Python内置的open函数将数据保存为txt文件。 ```python with open('data.txt', 'w', encoding='utf-8') as f: f.write(data...