【Relate-Anything】来了！帮你搞定一切关系！

我爱计算机视觉

于 2023-04-25 13:03:37 发布

阅读量355

点赞数

文章标签：人工智能深度学习计算机视觉机器学习神经网络

原文链接： https://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ==&mid=2247613318&idx=2&sn=d963010015d650f6a15668346a636921&chksm=96f149d2a186c0c4a3d221f49ab197c727eedf62ccf95709899a6d5dbeae52b35cdf0d98b987&scene=126&sessionid=0

版权

关注公众号，发现CV技术之美

本月初，Meta推出的一款可以【分割一切】的模型已经引起了广泛的关注。今天，我们很荣幸向大家介绍一款名为“Relate-Anything-Model（RAM）”的机器学习模型。它赋予了Segment Anything Model（SAM）识别不同视觉概念之间的各种视觉关系的能力。该模型由南洋理工大学MMLab团队和伦敦国王学院和同济大学的VisCom实验室的同学利用闲暇时间合作开发。

演示程序链接：https://huggingface.co/spaces/mmlab-ntu/relate-anything-model

代码链接：https://github.com/Luodian/RelateAnything

数据集链接：https://github.com/Jingkang50/OpenPSG

RAM模型基于ECCV'22 SenseHuman Workshop & 国际算法算例大赛“Panoptic Scene Graph Generation”赛道冠军方案（https://arxiv.org/abs/2302.02651）。

RAM模型大致设计思路是：我们使用Segment Anything Model（SAM）来识别和分割图像中的物体，并提取每个分割物体的特征。我们使用Transformer模块来使分割物体之间产生交互作用，从而得到新的特征，计算它们的配对关系并分类它们的相互关系。

我们使用PSG数据集来训练我们的模型。对于每个训练图像，SAM会分割多个物体，但只有少数与PSG的ground truth（GT）mask相匹配。我们根据它们的交集-并集（IOU）分数进行简单的匹配，以便（几乎）每个GT mask都被分配到一个SAM mask中。然后，我们根据SAM的mask重新生成关系图。最后，我们使用交叉熵损失来训练我们的模型。

方案图如下图所示：