CVPR'24 开源| OMG-Seg: Beyond SAM，一种统一的图像，视频，开集，交互式的分割模型...

最新推荐文章于 2024-08-05 10:40:07 发布

3Ｄ视觉工坊

最新推荐文章于 2024-08-05 10:40:07 发布

阅读量163

点赞数

原文链接： https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247686546&idx=2&sn=70a0c4462d57b9a75bdc2dad68457ffe&chksm=fa31edcde299a959fed41788868e44fa3f1295bb0056050263b2df6f5430c57b16c18cacd11b&scene=126&sessionid=0

版权

本次分享我们邀请到了字节跳动(Tiktok)算法研究员李祥泰，为大家详细介绍他们CVPR2024中稿的工作：OMG-Seg.如果您有相关工作需要分享，欢迎文末联系我们

项目主页：https://lxtgh.github.io/project/omg_seg

直播信息

时间

2024年6月14日（周五）晚上20：00

主题

CVPR'24开源|OMG-Seg: Beyond SAM，一种统一的图像，视频，开集，交互式的分割模型

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播，或前往B站搜索3D视觉工坊观看直播

3DCV视频号也将同步直播

嘉宾介绍

李祥泰

目前担任字节跳动(Tiktok)算法研究员，曾担任南洋理工大学博士后研究员(MMLab@NTU)，博士毕业于北京大学。个人的主要研究方向包括：图像分割与检测、多模态学习和视频理解，以第一作者身份在计算机视觉国际顶级会议(CVPR、ICCV、ECC)和期刊上发表多篇论文。
个人主页：https://lxtgh.github.io/

直播大纲

分割任务隶属于计算机视觉的基础感知任务，不同的分割任务在形式上和解法上都有很大的区别。现有的一些基于Transformer的模型可以在一定程度上使用同一个模型进而统一解决不同的分割任务。本文提出了OMG-Seg框架，它是一种统一的分割模型可以把超过10个以上的不同的分割任务统一到一个框架下，仅仅使用70M的训练参数，即在多个不同的分割数据集上取得不错的结果。OMG-Seg的代码仓库已经完全开放了，包括训练，测试，以及demo的代码。OMG-Seg作为一个全面的分割工具，可以很容易和其他的模型结合，这里我们给出了和经典的多模态的LLaVA结合，做到了把细粒度分割任务和多模态任务的统一。