Python实现文献数据挖掘系统(附源码)

系统简介

设计并实现了一个基于Django+LayUI+HBase的文献数据挖掘系统,以帮助科研人员分析出相关科技前沿领域的专家、机构等的学术影响力。并挖掘领域高频词和不同协作者之间的关系图谱,如此便可达到科研决策支持的目的。

功能架构设计

本系统的功能主要分为三个模块,分别是数据统计分析结果展示平台、后台管理系统和数据存储平台,其总体功能架构如图所示。

1dc44e31b75092cafd054972411fdf52.jpeg

系统实现

1、开发环境及框架配置

考虑到系统需求,采用在CentOS系统上,搭建整个开发和运行环境,其中包括Hadoop分布式平台以及HBase分布式数据库,在Win10上搭建Django框架和关系型数据库MySQL等必要的开发环境。

5ae836b42d6495c41c721b95f2c16697.png

2、主要技术实现过程

  1. 搭建Hadoop平台:使用四台云主机(CentOS7.5)搭建集群,配置好HDFS,ZooKeeper和HBase。

  2. 异步爬取数据:使用Python中的asyncio和aiohttp库实现异步爬虫,从而异步爬取AAAI人工智能会议的历年论文元数据(包括论文标题、摘要、作者、机构以及关键词等数据)存储到Excel表中,并对爬取的数据进行规则清洗和必要的人工清洗得到较为干净的数据。

  3. 数据分析:①利用Excel函数进行数据去重、统计、排序;②利用Python构建作者数据的共现矩阵,然后将其三元组数据导入至Gephi软件进行复杂网络可视化并导出SVG可伸缩矢量图片;③利用LDA主题模型对论文摘要进行主题聚类,得到top5热门话题;④最终将清洗后的完整数据以及分析结果数据存储至位于云端的HBase中。

  4. Web系统开发:使用Django+LayUI+Bootstrap开发(对于前端样式冲突问题可通过提升优先级解决),主要功能有注册登录、忘记密码邮箱验证、个人中心信息修改、全局检索、论文下载、数据分析结果展示(使用Echarts和Gephi进行数据可视化)以及词云图(中文使用jieba分词,英文使用wordcloud分词)等。同时使用Django第三方插件xadmin进行后台管理系统的快速注册和绑定。

  5. 系统部署:最后将系统部署到云端Nginx服务器中。

系统界面展示

1、系统主界面展示

5aeeec38dacd76c5ee2841e4830e2cdc.jpeg 1c8f4bbaa14c6b8cfef2201a2c9ea554.jpeg

2、用户注册登录页面

①. 注册页面如下:

877f35346d1f7b1fb1950c11ec6fd2c7.jpeg

点击注册按钮后,系统邮箱会自动给注册用户邮箱发激活链接(如下图),当用户在个人邮箱中点击激活链接后方可登录,以此来确认注册为本人操作。

d54bfb09a440d5953149c50b6e05707a.jpeg

②. 登录页面如下:

b980f46e8645229ac54b6c1fa37689e4.jpeg

③. 忘记密码页面如下,使用邮箱验证修改密码:

7dea3022c6f0abe30bd1e5fda1cf3b0b.jpeg

用户在收到邮件后点击修改页面链接后,跳转到如下页面进行密码修改。点击“提交”按钮后会自动跳转到登录页面进行登录,如图为修改密码页面图。

49c2e7e03c815ffdbc583bdcf2a7892a.jpeg

3、用户个人中心

用户成功登录进入系统主页面后,可进入个人中心查看个人信息,同时可以完善或修改自己的个人信息,其中包括头像、密码、昵称、性别和地址等信息。

c4b01a07a9d01b0d3d8439cf2be59d73.jpeg

4、全局检索功能

全局检索功能主要方便用户快速查找所需信息。其中,本系统提供了“标题”、“作者”和“机构”三个方面的模糊查询服务,并对英文关键词大小写不敏感。如图为按论文标题查找,关键词为Machine LEARNING。

6b15686625f5cdaee7919bd631e679d7.png

5、系统各项功能模块

1. 论文所属国家分布(图表基于Echarts实现)

17e5ee3f260811d9b1de2cef79c37854.jpeg 681b2d29adacb33a00b88c949a908028.png 95937f514bf3a9d6c038d883ba655fc1.png 2be722ad96d484f4c0ece8d997f4d551.png

2. AAAI会议历年中稿率

6185901bedca233fe9c97e4193cf13ee.png

3. AAAI词云图

①. 动态词云图,使用WordArt第三方在线工具导入。

5ad1fbecd2f314f40c52ac675a1fa122.png

②. 静态词云图,使用Python中的wordcloud制作。

b4cceca043d5f3b65de2384e7c1560a2.png

4. AAAI作者关系图谱

在对作者数据构建共现矩阵并得出其三元组存储形式后,将数据导入到Gephi,使用力引导布局绘制出如下知识图谱,并以SVG矢量可伸缩图片保存,将其导入到HTML中,借用开源JavaScript包svg_Zoom_Pan实现可无限伸缩且可平移的网页效果。

bc20a197b6254a75d2249de255475977.png

5. AAAI会议论文主题聚类(使用LDA主题模型)

其中top5主题分别是:

  • 机器学习的理论和应用

  • 自然语言处理

  • 深度神经网络

  • 知识表现与垂直搜索

  • 博弈论与经济范式

f633423f8dd3fc3bd4106eacc87644e5.png

6. AAAI会议论文概览及下载页面

32a6ef2a8406d893784da0e7d00e123a.png

点击标题链接后可进入到论文详情页面,可看到论文标题、摘要以及作者和所属机构,同时对于已登录用户可提供PDF论文下载服务。

e29f80fe009e802d649505ff17c4c11e.png

7. AAAI会议论文作者统计

本系统对前五年的作者、前三年以及2018年的做了统计(其中细化为所有作者和第一作者两部分)

6790e735fc9fbe63891fbabaebf7ed78.png

8. AAAI会议论文机构统计

本系统同时对前五年、前三年和2018年机构做了统计,细化规则同上,此处不再赘述。

b8236ad04b6fd3b1d93d24e6c00635bb.png

6、系统管理后台

8714da818eb77debd581955aa195727f.png e1127555e7d941c872350935a214ded1.png cad3b998a1d10fa8432cdc7e37fa7ecc.png

完整源码及相关文件获取

c02d9217a35c27f7766ce27f3b28ac47.png

完整源码及相关文件截图

在公众号Python小二后台回复py数据挖掘获取

推荐阅读  点击标题可跳转

Python小二
关注 关注
  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
python在医学研究中的运用,python对医学专业的作用
2301_81895257的博客
03-23 1252
Python在医学科研中的应用非常广泛,涉及到数据处理和分析、医学图像处理和分析、机器学习人工智能、医学数据挖掘和医学自然语言处理等方面。熟练掌握Python相关库和框架,可以帮助研究人员更高效地进行医学研究和创新。
Python数据挖掘和实战课程源码
05-07
源代码和实战非常适合初学者使用,很详细
python数据挖掘
最新发布
2301_80263355的博客
07-30 695
【代码】python数据挖掘
python数据挖掘与实战代码_python数据挖掘入门与实战 源码 python数据挖掘入门与实现一书的源码 - 下载 - 搜珍网...
weixin_39970855的博客
12-03 125
Code_REWRITE/Code_REWRITE/Chapter 1/Code_REWRITE/Chapter 1/.ipynb_checkpoints/Code_REWRITE/Chapter 1/.ipynb_checkpoints/ch1_affinity-checkpoint.ipynbCode_REWRITE/Chapter 1/.ipynb_checkpoints/ch1_oner_...
python写一段数据挖掘分析的代码
weixin_42611177的博客
02-13 413
答:以下是一段使用Python进行数据挖掘分析的示例代码:import pandas as pd # 读取数据 df = pd.read_csv('data.csv') # 数据探索 print(df.head()) # 查看前5行数据 print(df.describe()) # 查看数值型数据的统计特性 # 数据预处理 df.fillna(0, inplace=True) # 缺失值填充 #...
含源代码数据挖掘与分析(Python版).zip
03-29
在学习Python——数据挖掘与分析中,跑过的一些源代码,在博客中已记录,可根据对应关键字在博主主页搜索阅读。
数据挖掘十大算法源代码(Python)
05-29
包含了数据挖掘十大算法中的:Apriori、C4.5、CART、EM、K-means、KNN、PageRank。语言为Python
Python基于Django LayUI HBase的文献数据挖掘系统.zip
11-14
Python基于Django LayUI HBase的文献数据挖掘系统Python基于Django LayUI HBase的文献数据挖掘系统Python基于Django LayUI HBase的文献数据挖掘系统Python基于Django LayUI HBase的文献数据挖掘系统Python基于Django...
基于python的WEB数据挖掘技术实现与研究.pdf
07-14
Python语言在数据挖掘领域有着广泛的应用,不仅因为它的语法简洁易学,还因为其强大的社区支持和丰富、成熟的库资源,使得开发者能够快速搭建起数据挖掘系统Python在处理结构化数据和非结构化数据时都表现出色,并...
python实现的面向推荐系统数据挖掘 完整代码
机器学习深度学习业余选手
01-30 327
python实现的面向推荐系统数据挖掘 完整代码
Python数据挖掘
11-03
Python数据挖掘
数据挖掘源代码(仅供学习)
07-23
数据挖掘源代码(仅供学习) imooc-spider——数据挖掘 python——数据挖掘 源码奉送
数学建模常用算法 Python 程序代码+数据
03-17
第1章 Python语言快速入门 第2章 数据处理与可视化 第3章 Python在高等数学和工程数学的应用 第4章 概率论与数理统计 第5章 线性规划 第6章 整数规划与非线性规划 第7章 插值与拟合 第8章 微分方程模型 第9章 综合评价方法 第10章 图论模型 第11章 多元分析 第12章 回归分析 第13章 差分方程模型 第14章 模糊数学 第15章 灰色系统预测. 第16章 Monte Carlo模拟 第17章 智能算法 第18章 时间序列分析 第19章 支持向量机 第20章 数字图像处理
Python 数学建模数据分析代码
01-19
Python数学建模竞赛可以参考的代码和方法,主要包括层次分析法、插值、二维插值、灰色关联分析、模糊综合评价、相关系数、相关性检验等,自己在PyPi上找的库做的
数据挖掘项目
05-23
数据挖掘项目,不包含数据库。基于超市销售的数据库挖掘,使用SQL2005做成。
python怎样分析文献综述_教你如何做文献综述
weixin_39637256的博客
12-02 2505
如何做文献综述文献综述抽取某一个学科领域中的现有文献,总结这个领域研究的现状,从现有文献及过去的工作中,发现需要进一步研究的问题和角度。文献综述是对某一领域某一方面的课题、问题或研究专题搜集大量情报资料,分析综合当前该课题、问题或研究专题的最新进展、学术见解和建议,从而揭示有关问题的新动态、新趋势、新水平、新原理和新技术等等,为后续研究寻找出发点、立足点和突破口。文献综述看似简单.其实是一项高难度...
李鬼见李逵——我用翟天临的论文做了分析
weixin_34129696的博客
02-21 302
完整源码可在公众号:「01二进制」后台回复:「翟天临」获取 昨天是元宵节,在南京,元宵节一到也意味着这个年过完了,我们也该回到自己的工作岗位上了。都说今年的瓜特别多(葫芦娃的那种),但是过年期间最甜的我想非翟天临的“知网是什么?”莫属了吧。 前段时间,微博上开始不断爆出翟天临学术不端,论文抄袭的消息,以至于牵扯到其导师、院长甚至整个北京电影学院。 我平常不怎么关注娱乐圈,所以刚开始并没有把这...
机器学习数据挖掘参考文献
Final Fantasy
03-24 8537
《统计学习方法》 李航《机器学习》 周志华
Python实现常用数据挖掘算法详解与案例
本资源是一份详细的数据挖掘算法总结及Python实现指南,由XuejunYang在2016年9月18日发布。内容分为五个主要部分: 1. 数据挖掘机器学习数学基础:首先介绍了机器学习的统计基础,包括概率论的概念,如样本空间、...
写文章

热门文章

  • Python 基础(一):入门必备知识 1148800
  • 用Python实现定时自动化收取蚂蚁森林能量,再也不用担心忘记收取了 62840
  • 微信被爆出存在高危漏洞!新版本已修复,看到的更新一下! 42999
  • 黑客帝国中代码雨如何实现?用 Python 就可以! 42456
  • 50 道 Python 基础练习题(附答案详解) 34732

分类专栏

  • Python 53篇
  • 基础 22篇
  • 进阶 10篇
  • 爬虫 5篇
  • 数据分析 5篇

最新评论

  • 朋友过生日,用Python给她画了个生日蛋糕

    2301_79848426: py蛋糕

  • 用Python写一个天天酷跑

    2301_81219996: 怎么下载字体跟图片呀?

  • Python 基础(一):入门必备知识

    长风清留扬: 其实还是看需要使用Python在工作中用来做什么吧,如果只是简单做一些办公自动化或者一些数据处理的话那就很简单,不过要做Python工程师需要写前后端项目的话还差一点的,还是需要多找一些大项目去练习

  • Python 基础(一):入门必备知识

    岚岚的程序员: 这不是很多小游戏,自动化,爬虫,都自己敲出来,基础绝对扎实把,还有那么多库,自动化各种处理逻辑,还缺什么吗表情包,那么难吗

  • 240个Python练习案例附源码(百看不如一练)

    藍&風: 247

大家在看

  • python函数一:函数的概念、函数定义与调用、函数的参数、函数的返回值、说明文档以及函数的嵌套调用 1676
  • 【Kubernetes】常见面试题汇总(二十九) 161
  • 华为OD机试真题-字符串统计及重排-2024年OD统一考试(E卷) 174
  • 【Java】深入解析ThreadLocal——Java并发编程的秘密武器 458

最新文章

  • 支持国家整治程序员的高薪现象?看完悬着的心终于。。。
  • 你的电脑能不能玩?《黑神话:悟空》性能测试工具免费下载
  • 网易云音乐崩了,开发者删库跑路?官方回应
2024
09月 1篇
08月 3篇
07月 4篇
06月 4篇
05月 6篇
04月 4篇
03月 10篇
02月 6篇
01月 8篇
2023年88篇
2022年113篇
2021年205篇
2020年155篇
2019年37篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家广东广州玻璃钢肖像雕塑公仔玻璃钢动物雕塑惠济区人物玻璃钢雕塑玻璃钢花盆简笔画儿童圣诞节玻璃钢雕塑供应商室外玻璃钢雕塑银色怎么处理玻璃钢雕塑公司装修安庆仿木玻璃钢雕塑建邺十一商场美陈商场玻璃钢雕塑摆件销售公司江西玻璃钢花盆山东特色玻璃钢雕塑制作邯郸玻璃钢室外雕塑公司松江区玻璃钢雕塑厂楚雄市玻璃钢雕塑批发厂家玻璃钢韦陀雕塑海南玻璃钢雕塑美人鱼北京动物玻璃钢雕塑价格广州玻璃钢卡通雕塑厂家电话新余大型玻璃钢雕塑定做价格聊城小区玻璃钢雕塑安装朝阳商场美陈搭建楚雄玻璃钢雕塑价格玻璃钢雕塑厂取名常德长沙玻璃钢雕塑厂家电话山西人物玻璃钢雕塑销售厂家杭州天河玻璃钢人物雕塑乐山玻璃钢商场美陈南昌环保玻璃钢雕塑四川周年庆典商场美陈制作香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化