图神经网络和分子表征:5. Completeness

14 篇文章 41 订阅
订阅专栏

大家都知道 “两点确定一线,三点确定一平面”,那么多少个变量可以确定一个分子呢?这是最近顶刊们热烈讨论的话题。
(据笔者不完全统计)最早在 SphereNet (2022 ICLR)论文里,摘要上就开始讨论 completeness 了。后来,ClofNet (2022 ICML)和 ComENet (2022 NeruIPS)直接在标题里就标明 Complete (两个Net名字中的 C 就是 Complete 意思)。

从模型设计角度看,实现 Completeness 似乎成为了提升模型性能的一条捷径。诸多研究小组加入战场,completeness 这个词逐渐演变成了罗生门。在最近的 LEFTNet (2023 NeruIPS)中,作者重新提及 completeness ,似乎能够从一个更高的视角看待这一问题。

本文将首先介绍 SphereNet 和 ClofNet 中有关完备性的观点。两篇论文的作者均花费很多篇幅强调模型的完备性,却没有深入思考 local completeness 如何转化为 global completeness。ComENet 首先意识到了这一点,通过固定两个刚体结构间的旋转键尝试固定整个分支。然而,ComENet 对刚体结构间的相对自由度进行了误判,仅仅考虑了两刚体结构共线平面中的一个自由度,没有将其放在立体的环境中思考。最后,LEFTNet 仔细论证了这一点,补齐了全部三个自由度,最终实现了 Global Completeness。

这篇博客中,我将首先介绍不变模型考虑 Completeness 的代表 SphereNet,向量模型考虑 Completeness 的代表 ClofNet。最后,我将介绍对 local to global 展开讨论的两篇文章 ComENet 和 LEFTNet。

SphereNet 中的 Completeness

在 图神经网络和分子表征:3. 不变网络最后的辉煌-CSDN博客 中我们提到,SphereNet 是 DimeNet 的改进之作。一个朴素的想法是,在引入角度的基础上进一步引入二面角将十分有潜力进一步提高精度。当然,这并非是 AI 研究员首创的想法。

在传统的计算化学领域,距离、角度、二面角所构成的内坐标体系已经被广泛用于改造输入坐标。基于内坐标的几何构型优化被认为大幅降低了势能面的自由度,提高了构型优化的速度。例如,Gaussian 就支持冗余(Redundant)内坐标、z-matrix,广义内坐标(generalized internal coordinates)等关键词。大家感兴趣可以看以下链接中的说明:

z-matrix:

  1. 维基百科:https://en.wikipedia.org/wiki/Z-matrix_(chemistry)
  2. 一个案例:https://www.chm.bris.ac.uk/pt/ajm/mmhtm/MM_L2p16.htm
  3. 优缺点详细解析:https://www.cup.uni-muenchen.de/ch/compchem/geom/internal.html

冗余内坐标(Gaussian 构型优化默认格式):https://gaussian.com/opt/

广义内坐标:https://gaussian.com/gic/

形式多样内坐标的设计本意是希望3D坐标能够由距离、角度、二面角唯一表示,并能够据此复现出原始结构。如下所示:
在这里插入图片描述
SphereNet 原文中多次提到的完备性正是基于这样的理念:

  1. 3D 坐标可以预测性质。
  2. 3D 坐标能够转化为不变性的距离、角度、二面角。
  3. 距离、角度、二面角能够预测不变性质。
    在这里插入图片描述

作者思路可以进一步小结为:之前的模型只是将 3D 坐标转换成了距离和角度,我把二面角添上就完备了,所以一定会有精度提高!具体转换框架见 图神经网络和分子表征:3. 不变网络最后的辉煌-CSDN博客

其实这样的想法忽略了很多问题:

  1. 3D 坐标转化为距离、角度、二面角不能有信息损失。换言之,作者设计的转换框架需要有效鉴别所有结构。但是作者在原文就列举了一个反例,作者设计的框架可以鉴别手性分子(下图a,b),但不能鉴别一些特殊案例(下图b,c):
    在这里插入图片描述

  2. 3D 坐标转换为内坐标的方式并非只有唯一解。在 z-matrix 的这个案例中( Internal coordinates of a molecule (bris.ac.uk)),乙烯6个原子,3个原子的确定都涉及了二面角,但是参考平面可以有多种选择。作者在原文指出,GemNet 3-hop 的消息传递模式可以做到完备性,笔者此处表示质疑。如何设计规则拿到正则、完备、物理的几何信息,传统的量子化学软件已经给出了很多解(见上),SphereNet 和 GemNet 显然没有达到上述方法的理论深度。
    请添加图片描述

  3. 即便转换过程没有损失,消息传递(local to global)过程 也会带来损失。SphereNet 原文完全没有考虑到消息传递(local to global)过程。这一点同样出现在 ClofNet 中,而 ComENet 和 LEFTNet 都对这一过程进行了讨论。

总体来说,SphereNet 中的 Completeness 还是一个 local Completeness。作者的想法就是对 3D 坐标完成不变替代,没有深入考虑后续传递过程。

ClofNet

ClofNet 这个框架本系列还没详细讲过。这篇论文和 LEFTNet 一样,读起来让人非常痛苦。下面就简单介绍下笔者的理解吧。

ClofNet 故事起源

ClofNet 在故事开头指出,现有表征框架无法有效纳入恒电势等真实物理环境。
在这里插入图片描述
在之前的表征框架中(EGNN),两原子排斥力可以映射到原子向量差上。但原子向量差的形式无法有效反应外加的恒电场。作者指出,如果我们能够建立起一个局域的坐标系,就可以将各种方向的向量标量化。如此以来,我们在消息传递的内部,可以只用标量

ClofNet 中的 Complete local frame

ClofNet 论文读起来有着对 EGNN 非常明显的模仿痕迹。比如公式 1 直接照搬了 EGNN 的定义
请添加图片描述

EGNN 本身是一个非常经典的框架,此处碍于笔者的精力,不作展开。

但原作者一个很明显的思路是:EGNN 基于原子坐标向量差去做迭代,只能做原子连线上的性质预测,例如原子受力,类似恒电势就不行。为了解决这个问题,作者拓展了原子坐标向量差的概念:坐标向量差,坐标向量叉乘定义一个平面,加上该平面上的法向向量,三个向量构成了一个正则坐标系

请添加图片描述

任何有关两原子的向量在该正则坐标系下均有唯一标量坐标,这样即可完成向量向标量的映射。

ClofNet 中的消息传递

写到这里的时候,笔者已经看 ClofNet 这篇论文很久了。这篇论文里的定理证明实在是太多了,这里只放一下笔者粗浅的理解。

一种尝试理解新模型的方式是用已经建立起的框架规则去套。在 On the Expressive Power of Geometric Graph Neural Networks 这篇论文里,作者对 PAINN 做了如下归纳总结:

在这里插入图片描述

其消息传递过程可以归纳为向量和标量两条平行的路径。

前文已经提到,ClofNet 的消息传递和 EGNN 是基本一致的:
请添加图片描述

我们从下往上看,第2,3行公式表明 ClofNet 依旧是面向点编程的,将点的性质作为核心的迭代对象。同时,ClofNet 采用和 PAINN 一致的思路,即,标量、向量两条并行的迭代路线

ClofNet 和 PAINN 的不同之处在于消息本身的设计(第一行),以及消息是如何影响向量性质迭代的(第二行),标量性质的迭代似乎和 PAINN 是一样的。

PAINN 里,消息分为了标量的消息和向量的消息,分别用于标量和向量的迭代。但是 ClofNet 似乎仅有标量的消息,向量的消息通过标量的向量化实现。(第二行)

其实说到这里,把上述三段话中的 ClofNet 换成 EGNN 也完全成立。标量的向量化这个概念已经出现在了 EGNN 的设计框架中。所以,ClofNet 真正的创新在于局域坐标系的建立,进而拓展了向量标量间相互转化这个概念。

现在我们小结一下 ClofNet 的消息传递过程:

  1. 从大的视角看, ClofNet 遵从了 PAINN 的设计思想,面向点编程+向量、标量两条平行的迭代路线。我们可以直接套用 PAINN 的图:

    在这里插入图片描述

  2. 当然,需要把两个 m 的来源抹掉,同时向量 m 依赖于标量 m
    在这里插入图片描述

  3. 在构建这两个 m 的过程中, ClofNet 设计了一个完备的局域坐标系,将向量标量化,进行迭代计算后再重新向量化。

具体实现细节,请各位读者阅读原文和源码。

ClofNet 中的 Completeness

前文中,我们介绍了 SphereNet 的 Completeness。可以看到,作者十分强调3D坐标向不变几何信息转化的过程中不能出现信息损失。 ClofNet 中并不涉及复杂的多体几何关系, ClofNet 和 PAINN 一样是向量、标量双通路模型。因此,角度、二面角信息隐藏在了向量模型的加减中,无需多虑。笔者认为, ClofNet 中的 Completeness 更多是相对于 EGNN 而言的。因为 EGNN 只能表示原子连线方向的性质(原子相互作用力等),而 ClofNet 则进一步,通过设计局域坐标系,实现了恒电势等向量信息的拟合。意义不在于增加了多少的几何鉴别能力,而是增加了完备的、无损的向量信息拟合能力,因此叫 complete。

值得注意的是,此处的 complete 依然是一个局域的概念,因为作者并没有考虑 local to global 对 Completeness 的影响,这一点在 LEFTNet 中被重点讨论。

ComENet 和 LEFENet 中的 Completeness

ComENet 的消息传递过程在前面博客已经讲过了。 图神经网络和分子表征:3. 不变网络最后的辉煌-CSDN博客

在 ComENet 论文的2.2节,作者详细介绍了引入第二个二面角的目的:

  1. 在距离+角度+一个二面角的模式下,我们可以做到局域结构的完备性,但这只局限于一近邻的范围。这跟 SphereNet 的思路基本一致 (SphereNet 做到了二近邻的完备性)。
  2. 如下图所示,局域坐标系的设定可以将R1和R2两个基团变成刚体(完备性),但是包含R1和R2的整个分支是否是一个刚性结构呢?

在这里插入图片描述

  1. 这就是前文多次提到的,local to global 的完备性。ComENet 是这样解释的:i 的 local 是蓝色区域,可以看作上图中的其中一个基团 R1。j 的 local 是黄色区域,可以看作上图基团 R2. 刚性结构 R1 和 R2 间唯一的自由度就是两个刚性结构的夹角,下右图。如果我们把这个夹角固定,整个分支就变成了一个刚性结构。考虑到每个节点都将衍生出一个 local,只要我们能将相邻两个 local 完全冻住,整个体系又是一个连通图,这样整个体系都将被唯一确定。

在这里插入图片描述

  1. 这是 ComENet 中的描述,整个论证过程十分精彩,但是在 LEFTNet 中,作者指出 刚性结构 R1 和 R2 间自由度并不唯一,如果我们在 R1 和 R2 中分别建立局域正交坐标系,那么两个坐标系间的相互转换存在 3 个自由度。 ComENet 描述简化了两个刚体结构。将 刚体结构 R1 简化为了 上右图紫色平面, R2 简化为了上右图黄色平面。如果我们只是平面间的 Freeze,确实只需要一个自由度。但事实是,两个刚体结构都是立体的,我们应该考虑的是两个立体空间相互之间的转换。

在这里插入图片描述

  1. 如上图所示,作者十分犀利的指出,ComENet 中的 torsion angle 只是两个 local frames 相互转换间的其中一个自由度。
  2. LEFTNet 通过设计合理的消息传递机制(FTE)实现了 local to global 的完备性. LEFTNet 的技术细节太多,后面再详细展开。
nlp&python | 使用bert提取分子表征(ongoing)
ASKCOS博客
01-14 555
介绍 BERT在自然语言处理(NLP)领域取得了巨大的成功。使用未经标记的数据集进行训练,可以得到能学会复杂的语言表示形式的大规模模型。那么,我们可以将类似的研究方法应用于化学表示中,尤其是SMILES序列: 自监督学习任务 1.Masked language modeling(MASKEDLM) BERT提出的规范任务,通过训练模型来预测mask的真实身份。使用序列输出和输入的mask之间的交叉熵损失来优化任务。 2.SMILES equivalence (SMILES-EQ) 给定第一个smiles
神经网络分子表征:7. LEFTNet
frank_haha的博客
04-19 1053
在执行性质预测任务时,我们需要考虑两个问题:1. 如何正确的将结构进行编码?2. 如何汇聚编码信息预测整个分子的任务? LEFTNet 就是通过回答上述问题来进行模型设计的。
ComNet
weixin_42640948的博客
04-29 1096
1 ComNet 简介 ComNet设计的核心思想就是用深度神经网络来代替OFDM接收机,和FC-DNN类似。但是最大的不同之处,对接收机进行细化,将接收机分为了为信道估计子网和信号检测子网。每个子网由一个DNN构造,使用现有的简单、传统的解决方案作为初始化。FC-DNN缺点是,接收机是被网络整体替代的,并没有利用无线通信的知识,过来使基于fc - dnn的接收器变得不可解释和不可预测。而ComNet 相比于FC-DNN训练参数较少,收敛速度更快。 2. ComNet 结构 ComNet 接收机结构: 其
神经网络分子表征:3. 不变网络最后的辉煌
frank_haha的博客
08-27 1786
本篇博客,我们将依次介绍首次纳入角度信息的DimeNet(2020 ICLR),受DimeNet启发的GemNet (NeurIPS 2021),PAINN(2021 ICML)和SphereNet(2022 ICLR)以及做到局域完备性的ComENet(NeurIPS 2022)。
【综述】分子表示与性质预测中的深度学习方法
qq_45331246的博客
10-09 6398
Drug Discovery Today、分子性质预测综述
Python数据分析案例18——化学分子数据模型(机器学习分类问题全流程)
weixin_46277779的博客
01-01 4139
使用机器学习的方法对化学分子进行分类,分类问题的机器学习全流程,计算准确率、精确度、召回率和F1值。
【笔记】U-net 网络:Left-net 减小片尺寸增加片通道数,Right-net增加片尺寸,通道数与Left-net部通道叠加
nyist_yangguang的博客
07-04 707
U-Net: Convolutional Networks for Biomedical Image Segmentation class ConvBlock(nn.Module): """ implement conv+ReLU two times """ def __init__(self, in_channels, middle_channels, out_channels): super().__init__() ..
循环神经网络(RNN)
weixin_39910711的博客
05-29 2944
吴恩达视频:https://www.bilibili.com/video/av66647398 笔记:http://www.ai-start.com/dl2017/html/lesson5-week1.html
App 审核被拒 2. 1 Performance: App Completeness
热门推荐
u014231427的专栏
08-10 3万+
在公司项目迭代升级上传新版本审核时,被Apple审核拒绝,并带有被拒的原因 发件人 Apple 2. 1 Performance: App Completeness Guideline 2.1 - Information Needed   We have started the review of your app, but weare not able to c
人工智能-神经网络-循环神经网络
09-03
循环神经网络通过使用带自反馈的神经元,能够处理任意长度的时序数据。 循环神经网络比前馈神经网络更加符合生物神经网络的结构。 循环神经网络已经被广泛应用在语音识别、语言模型以及自然语言生成等任务上 灵...
App 提交审核被拒提示:Guideline 2.1 - Performance - App Completeness 的原因及解决
享受开发,颠倒银河
12-22 4494
在本篇博文中,我们讨论了 App 提交审核被拒且提示 “Guideline 2.1 - Performance - App Completeness ” 错误的原因,并给出审核必过的解决方案。
Appstore审核被拒-[2. 1 PERFORMANCE: APP COMPLETENESS]
Shorgan的博客
01-03 1万+
原文如下:原因是苹果误解了我们App的登陆流程,用户名填写错了地方,导致登陆不进去。解决方案是在App审核信息那里的备注里说明清楚,避免歧义。 Performance - 2.1 We discovered one or more bugs in your app when reviewed on iPhone running iOS 10.2 on Wi-Fi c
python sklearn metrics_sequential模型编译时的指标设置:sklearn.metrics:指标
weixin_39587246的博客
01-14 242
官网是最好的学习区。sklearn.metrics模块包括评分函数、性能指标、成对指标和距离计算Model Selection Interface 模型可选接口Get a scorer from stringMake a scorer from a performance metric or loss function.Classification metrics 分类问题的指标See theC...
神经网络构建原理(以MINIST为例)
最新发布
2303_77224751的博客
09-21 848
Adam 优化器通过结合动量和自适应学习率进行参数更新。详细的更新公式在上面的回答中已经给出。计算当前梯度∇θL∇θ​L的加权平均,用来估计梯度的期望。这个一阶动量主要是累积之前的梯度,使得更新方向更加平滑。mtβ1mt−11−β1∇θLmt​β1​mt−1​1−β1​∇θ​Lβ1\beta_1β1​是一阶动量的衰减率,通常取值为 0.9。mtm_tmt​是当前的动量(梯度的指数加权平均)。
深度学习03-神经网络01-什么是神经网络
weixin_41645791的博客
09-19 967
在全连接网络中,当前层的每个神经元都会与下一层的每个神经元进行连接。输出层的神经元数量取决于任务类型,例如,回归任务可能只有一个输出节点,而分类任务则有多个输出节点,表示不同的类别。每个神经元可以接收来自其他神经元的信息,经过加权和激活函数的处理后,再将信息传递到下一个神经元。每个隐藏层的神经元通过权重与前一层的神经元连接,并使用激活函数将线性变换结果转化为非线性输出。:输入层连接到隐藏层,隐藏层再连接到输出层。:每个神经元都会通过特定的权重连接到下一层的所有神经元,称为全连接层。
深度学习】(1)--神经网络
m0_74896766的博客
09-13 2611
本篇介绍了: 1. 神经网络的构造 2. 神经网络的运行过程 3. 感知器
基于LSTM-Adaboost的多输入单输出回归预测神经网络【MATLAB】
沅的博客
09-16 1290
LSTM-Adaboost多输入单输出回归预测是一个结合了长短期记忆网络(LSTM)和AdaBoost算法的回归模型,旨在处理时间序列数据或具有时间依赖性的多输入数据。
深度学习03-神经网络02-激活函数
weixin_41645791的博客
09-20 552
从一个神经网络看,这里就是两部分是我们人关注的,第一部分是我们如何进行权重参数的初始化, 第二部分我们怎么选择激活函数。因为生活中很少有真实的线性关系,基本都是非线性关系。架构决定了,同一层一般是使用同一个非线性激活函数。到谷歌的神经网络可视化网站。
Soundness of SLD Resolution: If the search procedure has derived the goal, the rules used can be used by forward chaining to infer the query. Completeness of SLD Resolution: If forward chaining can derive an atom, then the rules used can be used to construct an SLD derivation 2 .请用中文解释
06-10
SLD Resolution 的 Soundness 和 Completeness 都是关于该搜索过程的正确性和完整性的性质。 Soundness 表明,如果搜索过程已经推导出了目标,那么使用正向链接可以推导出查询。也就是说,如果我们能够通过 SLD Resolution 推导出目标,那么使用正向链接也能够推导出查询。 Completeness 表明,如果正向链接能够推导出一个原子,那么使用的规则也可以被用来构造一个 SLD 推导。也就是说,如果我们能够通过正向链接推导出一个原子,那么使用这些规则也可以构造一个 SLD 推导。
写文章

热门文章

  • 奇技淫巧第二期 12317
  • pytorch中torch.FloatTensor的用法 12311
  • pycharm如何查看某个包的源代码 9941
  • pycharm运行某个特定的.py文件 9672
  • 奇技淫巧第8期 9215

分类专栏

  • 图神经网络和分子表征 14篇

最新评论

  • 图神经网络与分子表征:2. SchNet

    Galactic Romance.: 感谢分享!耐心读下来收获很多表情包

  • 使用 ASE 拼接分子

    weixin_52058703: 其实可以在Gaussian里面写connectivity,然后uff,Gaussian的力场优化写好connectivity会按那个去优化,有机分子这样做测下来是没什么问题,就是这种操作模拟断键产生多个fragment可能控制不好这些碎片的相对距离

  • 图神经网络和分子表征:3. 不变网络最后的辉煌

    zh3971: 你好,请问这些图都是你自己画的吗(比如timeline of geometric GNN)?除了一些paper中的图之外。

  • 图神经网络与分子表征:2. SchNet

    电气白兰地: 博主您好~ 请教一下,“邻居原子对目标原子的影响力会随着距离的增大而衰减(C矩阵)”这点在interaction模块实现中是怎么体现的呢?

  • python命令行调取c++程序并写入文件

    weixin_42948499: 请问return code 是3221225785的问题是如何解决的呢?

最新文章

  • 安装 moleculeSTM 踩坑日记
  • 张量网络碎碎念:从 SO3 到 SO2
  • 张量网络碎碎念:CGC
2024年11篇
2023年19篇
2022年19篇
2021年83篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家新县玻璃钢雕塑厂家哈尔滨定做玻璃钢人物雕塑庆阳户外玻璃钢雕塑厂家中牟便宜的玻璃钢雕塑新年商场美陈购物天水玻璃钢卡通雕塑定制玻璃钢雕塑乐高机器人龙岩玻璃钢仿真水果雕塑广州玻璃钢雕塑摆件有哪些河南太湖石校园玻璃钢雕塑厂家长春玻璃钢艺术小品景观雕塑玻璃钢雕塑抽象人物德州玻璃钢雕塑厂家供应菏泽商场美陈道具盐城玻璃钢雕塑厂家玻璃钢雕塑厂有哪些宁波定制玻璃钢雕塑供应商庆阳大型玻璃钢雕塑安装淮南公园玻璃钢雕塑销售电话龙岩玻璃钢仿真水果雕塑厂家黔南玻璃钢景观雕塑款式多样宣武玻璃钢雕塑工程东莞玻璃钢植物雕塑制作深圳坂田有玻璃钢花盆吗玻璃钢雕塑十大优点湖南玻璃钢雕塑加工临沧广场玻璃钢雕塑价格花溪区玻璃钢雕塑厂哪家好玻璃钢人物雕塑销售方法小鹿玻璃钢雕塑香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化