tangweize
/
SpiderForWebOfScience
Public
-
Notifications
You must be signed in to change notification settings - Fork 18
-
Star 51
python写的一个小爬虫,爬取web of science的文献信息,包含"title","作者全名", "作者简写","关键词","摘要"一切网页上有的信息,并转成CSV信息表格存储。还有下载web of science存有的pdf文献文件功能。
51
stars
18
forks
Branches
Tags
Activity
Star
Notifications
You must be signed in to change notification settings
tangweize/SpiderForWebOfScience
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Branches Tags
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Latest commitHistory13 Commits | ||||
.idea | .idea | |||
Spider_by_VZ | Spider_by_VZ | |||
assets | assets | |||
venv | venv | |||
.DS_Store | .DS_Store | |||
ReadMe.md | ReadMe.md | |||
Repository files navigation
整个代码参数极少,只有三个,并且都是显示易懂的参数。
整个代码运行的前提是 能打开web of science并能展示出条件检索结果
整个爬虫代码在Spider_by_VZ里面只有三个主要的py文件分别如下
- Main_Methods 里面包含了所有需要提取的信息抽取代码,无需关心
- main是使用的入口,main里面有三个参数需要指定,具体后面阐述。
- DownloadPdf 是 下载web of science 直接可获取的 文献pdf
main.py 参数说明:
总共有三个参数需要制定,我将分别用图片文字说明
- 此时我们已经打开了web of science页面,但是这时候的url链接并不符合这个代码的要求(因为没有翻页参数)
- 这时候,我们需要在下图箭头标志出随便输入一个页码,激活带有page参数的url。
- 最终,我们可以根据该页面获得main函数里面的两个参数。
- url_root的设置 带有page的url链接,但是不需要数字(比如上图里面的2删掉)注意:这个url_root里面是带有验证信息的,一般24小时,需要更换一次
- nums_page的设置为下图圆圈里面数字,也就是总页码
- filename 指定文献信息表格存的路径以及名字
环境
- python 3.6
- 依赖的包
requests
pandas
beautifulsoup4 tqdm
About
python写的一个小爬虫,爬取web of science的文献信息,包含"title","作者全名", "作者简写","关键词","摘要"一切网页上有的信息,并转成CSV信息表格存储。还有下载web of science存有的pdf文献文件功能。
Topics
spider
python3
webofscience
paperspider
Resources
Readme
Activity
Stars
51
stars
Watchers
3
watching
Forks
18
forks
Report repository
Releases
No releases published
Packages 0
No packages published
Languages
- Python 99.9%
- Shell 0.1%