CVPR'24 开源| OMG-Seg: Beyond SAM,一种统一的图像,视频,开集,交互式的分割模型...
本次分享我们邀请到了字节跳动(Tiktok)算法研究员李祥泰,为大家详细介绍他们CVPR2024中稿的工作:OMG-Seg.如果您有相关工作需要分享,欢迎文末联系我们
项目主页:https://lxtgh.github.io/project/omg_seg
直播信息
时间
2024年6月14日(周五)晚上20:00
主题
CVPR'24开源|OMG-Seg: Beyond SAM,一种统一的图像,视频,开集,交互式的分割模型
直播平台
3D视觉工坊哔哩哔哩
扫码观看直播,或前往B站搜索3D视觉工坊观看直播
3DCV视频号也将同步直播
嘉宾介绍
李祥泰
目前担任字节跳动(Tiktok)算法研究员,曾担任南洋理工大学博士后研究员(MMLab@NTU), 博士毕业于北京大学。个人的主要研究方向包括:图像分割与检测、多模态学习和视频理解,以第一作者身份在计算机视觉国际顶级会议(CVPR、ICCV、ECC)和期刊上发表多篇论文。
个人主页:https://lxtgh.github.io/
直播大纲
分割任务隶属于计算机视觉的基础感知任务,不同的分割任务在形式上和解法上都有很大的区别。现有的一些基于Transformer的模型可以在一定程度上使用同一个模型进而统一解决不同的分割任务。本文提出了OMG-Seg框架,它是一种统一的分割模型可以把超过10个以上的不同的分割任务统一到一个框架下,仅仅使用70M的训练参数,即在多个不同的分割数据集上取得不错的结果。OMG-Seg的代码仓库已经完全开放了,包括训练,测试,以及demo的代码。OMG-Seg作为一个全面的分割工具,可以很容易和其他的模型结合,这里我们给出了和经典的多模态的LLaVA结合,做到了把细粒度分割任务和多模态任务的统一。
现有的主流分割技术回顾,包括SAM以及open-set、video segmentation等。
我们的OMG-Seg的技术细节。
实验结果展示和分析。
OMG-Seg的应用扩展:OMG-LLaVA。
未来工作讨论。
参与方式
注:本次分享我们邀请到了字节跳动(Tiktok)算法研究员李祥泰,为大家详细介绍他们的工作:OMG-Seg.如果您有相关工作需要分享,欢迎联系:cv3d008
YourDickie: 液晶面板的表面缺陷数据集求一份!
ruierxl: 关键的是Z的公式,做一条平行于头部的虚线的线与L交,L下面一部分记作L‘,实际上H=L-L’=(y/z-y'/z')Z,H公式的两个比值实际上就是脚和头与相机形成的角度。
SunshineGtl: 什么价格啊
心已死何来心: 论文给的代码里面好像没有保存模型权重
佑禹: 请问直播有回放么?