GitHub - tangweize/SpiderForWebOfScience: python写的一个小爬虫，爬取web of science的文献信息，包含"title","作者全名"， "作者简写","关键词","摘要"一切网页上有的信息，并转成CSV信息表格存储。还有下载web of science存有的pdf文献文件功能。

Skip to content

tangweize / SpiderForWebOfScience Public

Notifications You must be signed in to change notification settings
Fork 18
Star 51

python写的一个小爬虫，爬取web of science的文献信息，包含"title","作者全名"， "作者简写","关键词","摘要"一切网页上有的信息，并转成CSV信息表格存储。还有下载web of science存有的pdf文献文件功能。

51 stars 18 forks Branches Tags Activity

Star

Notifications

Code
Issues 2
Pull requests
Actions
Projects
Security
Insights

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
.idea		.idea
Spider_by_VZ		Spider_by_VZ
assets		assets
venv		venv
.DS_Store		.DS_Store
ReadMe.md		ReadMe.md

Repository files navigation

说明手册

整个代码参数极少，只有三个，并且都是显示易懂的参数。

整个代码运行的前提是能打开web of science并能展示出条件检索结果

整个爬虫代码在Spider_by_VZ里面只有三个主要的py文件分别如下

Main_Methods 里面包含了所有需要提取的信息抽取代码，无需关心
main是使用的入口，main里面有三个参数需要指定，具体后面阐述。
DownloadPdf 是下载web of science 直接可获取的文献pdf

main.py 参数说明：

总共有三个参数需要制定，我将分别用图片文字说明

此时我们已经打开了web of science页面，但是这时候的url链接并不符合这个代码的要求（因为没有翻页参数）
这时候，我们需要在下图箭头标志出随便输入一个页码，激活带有page参数的url。
最终，我们可以根据该页面获得main函数里面的两个参数。

url_root的设置带有page的url链接，但是不需要数字（比如上图里面的2删掉）注意：这个url_root里面是带有验证信息的，一般24小时，需要更换一次
nums_page的设置为下图圆圈里面数字,也就是总页码
filename 指定文献信息表格存的路径以及名字

环境

python 3.6
依赖的包 requests pandas
beautifulsoup4 tqdm

About

python写的一个小爬虫，爬取web of science的文献信息，包含"title","作者全名"， "作者简写","关键词","摘要"一切网页上有的信息，并转成CSV信息表格存储。还有下载web of science存有的pdf文献文件功能。

spider python3 webofscience paperspider

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 99.9%
Shell 0.1%

玻璃钢生产厂家口碑不错玻璃钢卡通雕塑代理商国外一家用马做美陈的商场河北户内玻璃钢雕塑批发公园景观玻璃钢彩绘雕塑河南锻铜校园玻璃钢雕塑湖南玻璃钢仿铜雕塑价格桐乡玻璃钢雕塑公司电话淮北玻璃钢雕塑公司菏泽广场玻璃钢雕塑定制山西欧式玻璃钢雕塑批发商场母亲节美陈西藏玻璃钢雕塑原理玻璃钢花盆儿童画大全德州不锈钢景观玻璃钢雕塑贵州创意玻璃钢雕塑多少钱常见玻璃钢雕塑摆件市场报价十二生肖玻璃钢雕塑哪家有惠安玻璃钢园林雕塑山西阳泉市园林雕塑玻璃钢玻璃钢雕塑作品海鲜随州玻璃钢雕塑厂家广东大型商场美陈制造玻璃钢雕塑生成厂家商场玻璃钢花盆报价玻璃钢雕塑白胚漳州玻璃钢卡通雕塑厂家徐州玻璃钢人物雕塑厂家泉州玻璃钢人物雕塑定制锦州玻璃钢雕塑设计江都玻璃钢卡通雕塑香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤司机系学生 315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人？张立群任西安交通大学校长杨倩无缘巴黎奥运 “重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身！外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒投喂者赔24万房客欠租失踪房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫：哈马斯三号人物被杀测试车高速逃费小米：已补缴老人退休金被冒领16年金额超20万

玻璃钢生产厂家 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化