【图神经网络基础】认识数据集--同质数据集Cora

11 篇文章 2 订阅
订阅专栏

        Cora数据集是一个常用于图神经网络(GNN)研究的标准基准数据集,特别是用于节点分类任务。以下是关于Cora数据集的详细介绍:

数据集概述

        Cora数据集由学术论文组成,每篇论文被视为一个节点,引用关系被视为边。该数据集包含七个类别的论文,每个节点都带有特征向量和标签。数据集的主要任务是根据节点的特征和图结构对节点进行分类。

数据集组成

  1. 节点(Papers)

    • 每个节点代表一篇学术论文。
    • 每篇论文有一个独特的特征向量,表示该论文的内容。
  2. 边(Citations)

    • 每条边代表一篇论文对另一篇论文的引用关系。
    • 边是无向的,即引用关系被视为对称的。
  3. 特征(Features)

    • 每个节点的特征向量是一个词袋模型(Bag of Words)表示。
    • 特征向量维度是1433,即词汇表大小为1433。
  4. 标签(Labels)

    • 每个节点(论文)属于一个类别,共有七个类别。
    • 类别标签包括:Case Based, Genetic Algorithms, Neural Networks, Probabilistic Methods, Reinforcement Learning, Rule Learning, Theory.

数据集统计

  • 节点数:2708
  • 边数:5429
  • 特征维度:1433
  • 类别数:7

数据表示

Cora数据集通常以图的形式表示,其中包含以下内容:

  • 邻接矩阵(Adjacency Matrix):表示图的结构,其中A[i,j]=1表示节点i和节点j之间有边,A[i,j]=0表示无边。
  • 特征矩阵(Feature Matrix):表示节点特征,其中每行对应一个节点的特征向量。
  • 标签矩阵(Label Matrix):表示每个节点的类别标签。

示例数据

假设我们有一个简单的子图,包含3个节点和3条边:

节点: Paper1, Paper2, Paper3
边: (Paper1 - Paper2), (Paper2 - Paper3), (Paper3 - Paper1)

假设特征维度为3(实际数据集为1433维),特征矩阵和邻接矩阵可以表示为:

特征矩阵(Feature Matrix)

| Paper | Feature1 | Feature2 | Feature3 |
|-------|----------|----------|----------|
|  1    |    1     |    0     |    3     |
|  2    |    0     |    2     |    1     |
|  3    |    1     |    1     |    0     |

邻接矩阵(Adjacency Matrix)

|       | Paper1 | Paper2 | Paper3 |
|-------|--------|--------|--------|
| Paper1|   0    |   1    |   1    |
| Paper2|   1    |   0    |   1    |
| Paper3|   1    |   1    |   0    |

使用场景

Cora数据集主要用于以下研究场景:

  • 节点分类:基于节点的特征和图结构,预测节点的类别标签。
  • 图嵌入:将节点嵌入到低维向量空间中,以便在嵌入空间中进行分类、聚类等任务。
  • 图神经网络模型评估:评估各种GNN模型的性能,如GCN(Graph Convolutional Network)、GAT(Graph Attention Network)等。

常用处理步骤

  1. 数据预处理

    • 读取特征矩阵、邻接矩阵和标签。
    • 对特征进行标准化处理。
    • 划分训练集、验证集和测试集。
  2. 模型训练

    • 构建GNN模型。
    • 使用训练集进行模型训练,并在验证集上调参。
  3. 模型评估

    • 在测试集上评估模型性能。
    • 使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)等指标进行评估。

参考文献

        Cora数据集最早由 McCallum et al. 在他们的论文 "Automating the Construction of Internet Portals with Machine Learning" 中提出。该数据集现在被广泛用于各种图神经网络的研究和评估。

https://people.csail.mit.edu/jrennie/papers/cora-irj2000.pdficon-default.png?t=N7T8https://people.csail.mit.edu/jrennie/papers/cora-irj2000.pdf        在实验中常用的数据集是什么样子的呢?

【数据集介绍】Cora数据集介绍-CSDN博客文章浏览阅读2.5w次,点赞39次,收藏100次。  在做深度学习任务时,刚入手一个模型用到的一般是经典数据集。而且在模型中都集成好了,不需要做过多的处理。但是,在使用模型跑自己数据集时候,我们就必须了解模型的输入输出是什么。因此,对标准数据集是啥样的必须要掌握。在这里介绍一个Cora引文数据集:[1]图数据集之cora数据集介绍 — 适用于GCN任务[2]8/27 图数据集之cora数据集..._cora数据集https://blog.csdn.net/zfhsfdhdfajhsr/article/details/116137598

完结撒花

        别太向往南飞的雁,不过是为了活下去在奔波罢了

cora数据集科研论文头部信息抽取
07-12
信息抽取,或者所论文头部信息抽取需要的数据集,这里只放了论文头部抽取所需要的数据集,并不是整个cora数据集,整个的很大有几百兆,这里不可能放的下
基于python实现CORA数据集节点级分类项目源码(用GCN、SVM、FNN模型)+项目运行说明.zip
12-01
【资源说明】 基于python实现CORA数据集节点级分类项目源码(用GCN、SVM、FNN模型)+项目运行说明.zip - 数据集CORA 数据集 - 任务:多分类 - 使用模型GCN SVM FNN - 包括构、数据预处理及feature encoding 依赖库安装 ``` pip install requirements.txt # 以下4个库可能会安装失败 torch-scatter torch-sparse torch-cluster torch-spline-conv # 如果出现安装失败的提示,按照如下操作解决 # 1.获取cuda版本 # 2.使用如下命令安装 将${cuda}替换为自己的cuda版本即可,如果没有cuda环境,则将其替换为空字符串,安装cpu版本 pip install torch-scatter -f https://pytorch-geometric.com/whl/torch-${cuda}.html pip install torch-sparse -f https://pytorch-geometric.com/whl/torch-${cuda}.html pip install torch-cluster -f https://pytorch-geometric.com/whl/torch-${cuda}.html pip install torch-spline-conv -f https://pytorch-geometric.com/whl/torch-${cuda}.html ``` ### 程序运行 ``` 移动到main.py所在目录,执行命令: python main.py 等待命令执行完毕,大概需要运行3分钟左右 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载,沟通交流,互相学习,共同进步!
深入理解注意力机制
小白学视觉
06-20 2716
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达作者丨张昊、李牧非、王敏捷、张峥来源丨https://zhuanlan.zhihu.com/p/57168713编辑 |极市平台卷积网络(GCN)告诉我们,将局部的结构和节点特征结合可以在节点分类任务中获得不错的表现。美中不足的是GCN结合邻近节点特征的方式和的结构依依相关,这局限了训练所得模型...
cora_cora数据集_
10-01
样本特征,标签,邻接矩阵该数据集共2708个样本点,每个样本点都是一篇科学论文,所有样本点被分为8个类别,类别分别是1)基于案例;2)遗传算法;3)神经网络;4)概率方法;5)强化学习;6)规则学习;7)理论
Cora数据集
chen的博客
03-11 1143
在使用Cora数据集时,通常需要进行一些预处理工作,例如文本的标记化(Tokenization)、词袋模型的构建、网络的表示等。研究者可以选择将文本信息和引用网络结合起来,以便在模型训练中充分利用这两方面的信息。研究者可以利用该数据集开发算法,探索如何更好地利用文本信息和引用网络结构来进行论文分类Cora数据集包含了一个文献网络,其中节点表示论文,边表示引用关系。Cora数据集是一个用于文献学术论文分类的常用数据集,主要用于机器学习和自然语言处理研究。边表示论文之间的引用关系,构成了一个引用网络。
GNN常用数据集Cora数据集
热门推荐
The Thinker
01-02 3万+
在学习神经网络 GNN 之前,必然要了解一些GNN的常用数据集,这篇博客主要以Cora数据集为例介绍GNN的数据集格式与读取方式,并以一个项目实例进行说明。 GNN常用数据集:https://linqs.soe.ucsc.edu/data 1. Cora数据集介绍 Cora数据集下载地址:https://linqs-data.soe.ucsc.edu/public/lbc/cora.tgz 以...
【PYG】Cora数据集简介
Never Give Up
07-01 1589
通过Planetoid类加载 Cora 数据集,并对特征进行归一化,可以快速方便地准备数据,进行节点分类等任务。PyTorch Geometric 提供的工具使得处理结构数据变得简单和高效,有助于我们在实际应用中充分利用神经网络的强大能力。
【Intro】Cora数据集介绍
Karen_Yu_的博客
06-05 1164
假设我们有一个单一的(如:Cora),将一些节点(而不是)分成训练/验证/测试训练集。重点是——此处不是在使用它们的标签信息(没有使用节点的feature),而是在使用它们的结构信息和特征。基本问题是,虽然像位于规则网格上(你也可以将其视为形),因此具有精确的顺序概念,但不享受这种良好的属性,邻居的数量以及邻居的顺序。事实证明,将注意力的想法与已经存在的形卷积网络(GCN)结合起来是一个很好的举动🤓- GAT是GNN文献中被引用次数第二多的论文(截至该notebook撰写时)。
随机游走聚集的神经网络RAW-GNN:基于路径的邻域的同质和异质节点表示学习
+v:mala2277获取更多论文RAW-GNN:基于随机游走聚集的神经网络天津大学智能与计算学院,天津,中国2Meituan,北京,中国3香港理工大学卫生科技及资讯学系,香港九龙{金迪,wr 1895,葛猛,何东晓}@ tju.edu.cn,...
"基于随机游走聚合的神经网络 RAW-GNN 对同质和异质的性能达到最先进水平
+v:mala2277获取更多论文RAW-GNN:基于随机游走聚集的神经网络天津大学智能与计算学院,天津,中国2Meituan,北京,中国3香港理工大学卫生科技及资讯学系,香港九龙{金迪,wr 1895,葛猛,何东晓}@ tju.edu.cn,...
"基于随机游走聚合的神经网络RAW-GNN的性能验证
+v:mala2277获取更多论文RAW-GNN:基于随机游走聚集的神经网络天津大学智能与计算学院,天津,中国2Meituan,北京,中国3香港理工大学卫生科技及资讯学系,香港九龙{金迪,wr 1895,葛猛,何东晓}@ tju.edu.cn,...
【复杂网络建模】—— 超神经网络【综述】
最新发布
lingxw的博客
07-19 3791
神经网络(Hypergraph Neural Networks,HGNN)是一种用于处理超数据的深度学习模型。与传统的神经网络(Graph Neural Networks,GNN)不同,超神经网络能够处理更复杂的关系和结构,因为超允许一个超边(Hyperedge)连接多个顶点,而不仅仅是两个顶点。
隐私保护的垂直联邦神经网络
+v:mala2277获取更多论文f4 f5f4 f5 f4 f5f6 f7F1f2 f3f4 f5f6 f7F7F6F7F6一A BCA BCA BC用于隐私保护节点分类的垂直联邦神经网络陈超超1,周军1,2,郑龙飞2,吴慧文2,吕玲娟3,吴佳4,吴炳哲5,刘子琪2,王立2...
数据集介绍】Cora数据集介绍
sxl的博客
04-25 2万+
  在做深度学习任务时,刚入手一个模型用到的一般是经典数据集。而且在模型中都集成好了,不需要做过多的处理。但是,在使用模型跑自己数据集时候,我们就必须了解模型的输入输出是什么。因此,对标准数据集是啥样的必须要掌握。在这里介绍一个Cora引文数据集: [1]数据集cora数据集介绍 — 适用于GCN任务 [2]8/27 数据集cora数据集 ...
CORA 数据集 精美可视化+详解 番外篇:PyG框架及Cora数据集简介Obifold Consulting
人工智能曾小健
03-11 3393
CORA 数据集Cora 数据集包含 2708 份科学出版物,分为七类之一。引文网络由 5429 个链接组成。数据集中的每个出版物都由 0/1 值词向量描述,指示词典中相应词的不存在/存在。该词典由 1433 个独特单词组成。该数据集学习中的 MNIST 等价物,我们在其他文章的功能中明确地探索它,一次又一次地使用该数据集作为测试平台。下载并解压,以这edgelist是一个简单的表格,其中source引用了target因此一个节点是每个节点都有一个subject5行×1434列。
神经网络学习——节点分类Cora数据集
Daomiyo的博客
03-05 2915
Cora数据集是一个常用的学术文献引文网络数据集,用于研究文献分类或文献引用关系分析的机器学习任务。该数据集包含了一个关于机器学习领域的学术文献引文网络,以及每篇文献的内容特征和标签信息。由于Cora数据集的规模适中且包含丰富的信息,因此成为了学术界常用的基准数据集之一。:边表示文献之间的引用关系,如果文献A引用了文献B,那么在数据集中会有一条从节点A指向节点B的边。:每个节点还包含了关于文献内容的特征,通常是词袋模型中每个单词的出现情况。:Cora数据集中的节点代表学术文献,每个节点有一个唯一的ID。
Cora数据集介绍+python读取分析
kevin的博客
05-20 2798
最近看GAT的代码使用的是Cora数据,然后小白的我就把一些自己不太懂的地方做上简单标注,以便简单了解大致流程。 数据以及处理方法链接 Core数据在data文件中,处理方法在utils.py中 GAT(pytorch):Diego999/pyGAT Cora数据集介绍(README翻译) Cora数据集机器学习论文组成,是近年来深度学习很喜欢使用的数据集。在数据集中,论文分为以下七类之一: 基于案例 遗传算法 神经网络 概率方法 强化学习 规则学习 理论 论文的选择方式是,在最终语料库中,每篇论文
Cora 数据集介绍+ALL in One,Multi task graph prompt, ProG代码解释
人工智能曾小健
03-04 1102
Cora数据集包含2708篇科学出版物, 5429条边,总共7种类别。数据集中的每个出版物都由一个0/1 值的词向量描述,表示字典中相应词的缺失/存在。该词典由 1433 个独特的词组成。意思就是说每一个出版物都由1433个特征构成,每个特征仅由0/1表示。
数据集cora数据集介绍- 用pyton处理 - 可用于GCN任务
木东的博客
11-25 1930
文章目录 cora数据集- 下载地址 cora数据集- 内容介绍 cora数据集- 用python处理 1.导入数据 2.将论文的编号转化为[0,2707] 3.提取词向量,成为特征矩阵 4.提取标签,进行独热编码 5.导入论文引用数据 6. 创建邻接矩阵 参考 co...
写文章

热门文章

  • 【已解决】RuntimeError: CUDA error: device-side assert triggeredCUDA kernel errors might be asynchronous 33771
  • 【已解决】RuntimeError: The size of tensor a (32) must match the size of tensor b (128) at non-singleton 29957
  • 【已解决】RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasSgemm( handle, opa, o 29078
  • 【已解决】设置SSH主机:VS Code-正在本地下载 VS Code 服务器 26708
  • 【已解决】Failed to initialize NVML: Driver/library version mismatch NVML library version: 535.161 25525

分类专栏

  • python学习 11篇
  • 人工智能 74篇
  • Bugs(程序报错) 144篇
  • 图神经网络 11篇
  • 实用工具 1篇
  • 资源分享(resource) 224篇
  • System(系统相关) 35篇
  • IDE(开发工具) 12篇
  • Algorithms(算法) 4篇
  • JAVA 22篇

最新评论

  • 【项目实现】ResShift:通过残差位移实现图像超分辨率的高效扩散模型(NeurIPS 2023,聚焦)

    汗流浃背了吧,老弟!: cuda要12.*吗

  • 【已解决】 ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1+, currently the ‘ssl‘ module is compiled

    2301_77098511: 我也是反复出现这两个问题表情包,想问问你现在解决了吗表情包

  • ubuntu20.04开机黑屏只有光标闪烁

    2401_87969019: 开机按住shift也没用表情包心碎了

  • 【已解决】ModuleNotFoundError: No module named ‘torch._six‘

    wangpy12321: ImportError: cannot import name 'container_abcs' from 'torch'

  • 【实用工具】Github的2FA(two-factor authentication)认证,github 双重认证2FA

    thouge_r: 现在一个chrome插件,但是放的是安卓Google Play的图?这教程有问题

最新文章

  • 【梯度下降】梯度会累积会有什么影响?什么时候会用到梯度累积?为什么累计多个小批次的梯度再进行模型参数更新会达到和直接使用大批量数据得到梯度一样的结果呢?
  • 【已解决】.py程序一直卡着不动,单步调试也是一直卡着不动该怎么办?
  • 【已解决】RuntimeError: PyTorch has CUDA version 12.1 and torch_sparse has CUDA version 11.8
2024
05月 16篇
04月 38篇
03月 14篇
02月 9篇
01月 53篇
2023年294篇
2020年2篇
2019年23篇
2018年2篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家上海特色玻璃钢雕塑方法文山商场美陈嘉兴玻璃钢佛像雕塑常州frp玻璃钢雕塑咸宁广场玻璃钢雕塑玻璃钢雕塑计算公式焦作广场不锈钢玻璃钢雕塑石家庄景区玻璃钢雕塑哪家便宜武汉湛江玻璃钢动物雕塑义乌玻璃钢雕塑哪家好黄骅玻璃钢动物雕塑柳州玻璃钢酒瓶雕塑咸宁广场玻璃钢雕塑青岛玻璃钢雕塑安装北京大型商场创意商业美陈作品玻璃钢雕塑产品厂家哪里有遂宁商场美陈价格优的玻璃钢雕塑济南唐韵玻璃钢马雕塑珠海玻璃钢透光雕塑定做蚌埠市玻璃钢雕塑玻璃钢艺术雕塑种类广州玻璃钢花盆定做兴化玻璃钢雕塑厂家联系方式青海玻璃钢雕塑工厂玻璃钢白鹭雕塑价格重庆玻璃钢大型雕塑桂林校园玻璃钢雕塑公司榆树玻璃钢雕塑工程产品介绍中国商场美陈香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化