CVPR'24 开源| OMG-Seg: Beyond SAM,一种统一的图像,视频,开集,交互式的分割模型...

本次分享我们邀请到了字节跳动(Tiktok)算法研究员李祥泰,为大家详细介绍他们CVPR2024中稿的工作:OMG-Seg.如果您有相关工作需要分享,欢迎文末联系我们

e74a70c94be48c8f00eaf4bd82a405e1.png

项目主页https://lxtgh.github.io/project/omg_seg

直播信息

时间

2024年6月14日(周五)晚上20:00

主题

CVPR'24开源|OMG-Seg: Beyond SAM,一种统一的图像,视频,开集,交互式的分割模型

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

c5177bfc55c4ace89058e18c419f938a.png

3DCV视频号也将同步直播

嘉宾介绍

45026a2a173a3919e83de7ef8a126590.png

李祥泰

目前担任字节跳动(Tiktok)算法研究员,曾担任南洋理工大学博士后研究员(MMLab@NTU), 博士毕业于北京大学。个人的主要研究方向包括:图像分割与检测、多模态学习和视频理解,以第一作者身份在计算机视觉国际顶级会议(CVPR、ICCV、ECC)和期刊上发表多篇论文。
个人主页https://lxtgh.github.io/

直播大纲

分割任务隶属于计算机视觉的基础感知任务,不同的分割任务在形式上和解法上都有很大的区别。现有的一些基于Transformer的模型可以在一定程度上使用同一个模型进而统一解决不同的分割任务。本文提出了OMG-Seg框架,它是一种统一的分割模型可以把超过10个以上的不同的分割任务统一到一个框架下,仅仅使用70M的训练参数,即在多个不同的分割数据集上取得不错的结果。OMG-Seg的代码仓库已经完全开放了,包括训练,测试,以及demo的代码。OMG-Seg作为一个全面的分割工具,可以很容易和其他的模型结合,这里我们给出了和经典的多模态的LLaVA结合,做到了把细粒度分割任务和多模态任务的统一。

  1. 现有的主流分割技术回顾,包括SAM以及open-set、video segmentation等。

  2. 我们的OMG-Seg的技术细节。

  3. 实验结果展示和分析。

  4. OMG-Seg的应用扩展:OMG-LLaVA。

  5. 未来工作讨论。

参与方式

e49e77bb1ef7273c9043871415426627.jpeg

:本次分享我们邀请到了字节跳动(Tiktok)算法研究员李祥泰,为大家详细介绍他们的工作:OMG-Seg.如果您有相关工作需要分享,欢迎联系:cv3d008

3D视觉工坊
关注 关注
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)
勿忘初心,方得始终
01-20 1122
本文研究了人机交互(HRI)中导致聊天失败和麻烦的一些常见问题。给定用例的设计决策始于合适的机器人、合适的聊天模型、识别导致故障的常见问题、识别潜在的解决方案以及规划持续改进。总之,建议使用闭环控制算法来指导训练过的人工智能(AI)预训练模型的使用,并提供词汇过滤,在新数据集上重新训练批处理模型,从数据流中在线学习,和/或使用强化学习模型来自我更新训练过的模型并减少错误。
CVPR 2021|DS-TransUNet:Transformer医学图像分割,表现SOTA
李响
03-22 6417
论文标题:DS-TransUNet: Dual Swin Transformer U-Net for Medical Image Segmentation 论文地址:https://arxiv.org/pdf/2106.06716.pdf 文章目录 1 前言 1.1 Transformer 1.2 Swin Transformer结构 2 Hierarchical Feature Representation 3 局部dependency 4 DS-TransUNet:医学图.
CVPR2024论文解读大盘点
FL1623863129的博客
06-08 7095
1.CVPR2024 | 多边形全能战士Monkey:华科大提出的高分辨率多模态视觉-语言大模型,刷新多个SOTA2.CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步3.CVPR 2024|多模态大模型解决无源域适应问题!DIFO:新颖的蒸馏多模态基础模型(DIFO)方法4.CVPR 2024|多视角深度估计新SOTA!AFNet:自动驾驶单视图和多视图深度的自适应融合5.CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解6.CVPR'24 | 无需微调,
OMG-Seg
whaosoft143ai的博客
01-18 497
对于数据增强,本文采用大规模的抖动,与先前的工作一样,以构建强大的基线。听起来很玄乎,对于本文的统一所有分割来说,做法也很好理解,本质上就是在Mask2former的基础上增加了SAM的提示来支持prompt驱动以及交互式分割,同时增加CLIP encoder来支持开放域,给query加ID使其同时支持图像视频分割;本文展示了 OMG-Seg,这是一个基于Transformer的编码器-解码器架构,具有任务特定的查询和输出,可以支持十多种不同的分割任务,并显著减少跨各种任务和数据集的计算和参数开销。
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding
s_m_c的博客
08-05 473
将基于ConxNeXt-L的CLIP模型作为Image Encoder,将分辨率为 1024×1024 的图片作为输入,通过32倍下采样和pixel shuffle得到256个视觉token。和LLaVA一样,文中也是用了MLP作为Visual Projector,同时也是用了MLP作为Text Projector将LLM输出的[SEG]token对应的特征映射到视觉空间。本文提出了OMG-LLAVA,这是一个新颖而优雅的框架,结合了强大的像素级视觉理解与推理能力。表现出强大的基于视觉的对话和推理能力,
标题:OMG-Seg:一网打尽所有分割任务的全能模型
gitblog_00041的博客
05-31 426
标题:OMG-Seg:一网打尽所有分割任务的全能模型 项目地址:https://gitcode.com/lxtGH/OMG-Seg 【项目介绍】 在计算机视觉领域,图像视频分割是至关重要的任务,通常需要不同的模型来处理各种细分场景。然而,OMG-Seg的出现打破了这一局面,它是一个开创性的开源项目,旨在通过一个单一的模型解决包括语义、实例、全景分割在内的多种图像视频分割任务。不仅如此,OMG-...
【大模型】论文解读《 OMG-Seg : Is One Model Good Enough For All Segmentation》
weixin_63219670的博客
05-13 972
语义分割任务旨在将图像中的每个像素分配到特定的语义类别,实例分割任务旨在将图像中的每个物体实例分割为单独的掩码,全景分割任务是语义分割和实例分割统一,包括可数的物体类别和不可数的背景类别。具体而言,一个对象查询对应一个掩码mi,标签ci,IDdi,根据不同的任务设置,mi,di的格式和范围是不同的。然而,mi,ci,di的格式和范围是相似的,因此,将所有这些任务放入一个共享的编码器和解码器框架中,并对所有分割任务进行共同训练是自然而然的。不同的部分包括用于图像视频分割的共享掩码解码器和视觉提示编码器。
SAM之后,视觉分割的路在何方?
CV_Autobot的博客
01-25 155
汽车人昨天分享了一篇OMG-Seg,这篇文章基本上把所有的分割任务都纳入到一个模型中。可以说分割已经迎来大一统。还记得去年SAM分割万物Segment Anything)出来以后,最开始给汽车人的震撼很大,那会儿觉得计算机视觉即将迎来大变革和大一统的时代。几年前,汽车人也做过一些分割任务,像行车、泊车中的语义分割/全景分割、交通场景中的实例分割,也接触过一些交互式分割的内容。今天就借这个机会,和...
[CVPR'19]3D-SIS:RGB-D扫描的3D语义实例分割_Python_C++_下载.zip
04-30
标题中的 "[CVPR'19]3D-SIS" 指的是在2019年计算机视觉与模式识别会议(CVPR)上发表的一项研究,名为“3D-SIS”,全称为3D语义实例分割。这项研究专注于处理RGB-D(红绿蓝深度)扫描数据,以实现对三维场景的精细化...
光流法分割matlab代码-ObjectFlow:论文的实施:“通过对象流进行视频分割”,Y.-H。蔡,M.-H。杨和MJBlack,CVPR
06-16
光流法分割matlab代码对象流 项目网页: 联系人:Yi-Hsuan Tsai (wasidennis at gmail dot com) 纸 通过对象流进行视频分割Yi-Hsuan Tsai、Ming-Hsuan Yang 和 Michael J. Black IEEE 计算机视觉和模式识别会议 ...
[CVPR'19] 3D- sis: 3D语义实例分割的RGB-D扫描- Sekunde/3D- sis
01-27
3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans (CVPR2019 Oral) We present 3D-SIS, a new framework for 3d instance segmentation. Data Generation Data generation code is detailed in . Download...
图片分割matlab代码-clothing-co-parsing:来自“通过联合图像分割和标签进行服装共解析”的CCP数据集(CVPR2014
05-20
图片分割matlab代码服装协同分析(CCP)数据集 服装共同分析(CCP)数据集是一个新的服装数据库,其中包括精心标注的服装项目。 2,098张高分辨率街头时尚照片,共59个标签 多种样式,配件,服装和姿势 所有图像均带...
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--机器人相关、强化学习
勿忘初心,方得始终
01-21 1335
多智能体人——机器人团队通过利用和结合人类和机器人的优势,可以更有效地收集各种环境的信息。在国防、搜索和救援、急救等行业,异构人机团队有望通过将人类从未知和潜在危险的情况中移除来加速数据收集和提高团队安全性。这项工作建立在AugRE的基础上,AugRE是一个基于增强现实(AR)的可扩展人机团队框架。它使用户能够本地化并与50多个自主代理通信。通过我们的努力,用户能够指挥、控制和监督大型团队中的代理,无论是视距还是非视距,而无需事先修改环境,也无需用户使用典型的硬件(即操纵杆、键盘、笔记本电脑、平板电脑等)
读hugging face的daily paper随笔
m0_61667323的博客
07-01 593
像素级视觉理解、推理。实现了image-level、object-level、pixel-level的推理和理解。
模型日报|15 篇必读的大模型论文
AMiner2006的博客
07-06 794
模型日报|15 篇必读的大模型论文
自制Arduino 扩展板
最新发布
09-22
自制Arduino 扩展板,AD软件做的,包含原理图,PCB.主要是在学习Arduino不想用杜邦线连接LED灯,搞得座位乱七八糟,所以画了一块板,直接插到Arduino上使用,兼容Arduino MEGA 2560
路基路面工程试卷及答案
09-22
路基路面工程试卷及答案
ACM的常用算法模板.pdf
09-22
ACM的常用算法模板.pdf
写文章

热门文章

  • YOLOV5 的小目标检测网络结构优化方法汇总(附代码) 46843
  • 一分钟详解「手眼标定」基本原理 37377
  • 手眼标定之基本原理 27417
  • 机器人操作系统ROS—深度相机+激光雷达实现vSLAM建图与导航 26138
  • undistortPoints()函数用法总结 24420

分类专栏

  • 3D视觉从入门到精通 付费 598篇
  • 3D视觉杂记 149篇
  • C++编程实战 3篇

最新评论

  • 液晶面板的表面缺陷及其检测方法

    YourDickie: 液晶面板的表面缺陷数据集求一份!

  • 如何用视觉的方法量身高?

    ruierxl: 关键的是Z的公式,做一条平行于头部的虚线的线与L交,L下面一部分记作L‘,实际上H=L-L’=(y/z-y'/z')Z,H公式的两个比值实际上就是脚和头与相机形成的角度。

  • 全网最详细PX4控制算法教程

    SunshineGtl: 什么价格啊

  • CVPR'24 | 视觉-语言模型在医学异常检测中的创新应用

    心已死何来心: 论文给的代码里面好像没有保存模型权重

  • 重磅直播!ICML'24开源 | AVTrack:最强实时无人机跟踪算法!

    佑禹: 请问直播有回放么?表情包

最新文章

  • 图像生成大一统!OmniGen:文生图、图像编辑!还能姿态检测?
  • CVPR'24最佳 | 大一统!英伟达最新FoundationPose:打消无模型顾虑的6D位姿估计与跟踪SOTA!...
  • 太牛了!小米要新招 5000 人...
2024
09月 64篇
08月 101篇
07月 96篇
06月 107篇
05月 116篇
04月 109篇
03月 118篇
02月 49篇
01月 84篇
2023年992篇
2022年764篇
2021年1113篇
2020年879篇
2019年71篇
2018年69篇
2017年3篇
2016年9篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家黔东南商场美陈道具梅州主题玻璃钢雕塑厂家定制小型玻璃钢花盆市场报价石首大型户外玻璃钢雕塑街区商场美陈园林玻璃钢雕塑造型淮南白雪公主玻璃钢雕塑厂家弥勒市玻璃钢雕塑设计报价安徽卡通玻璃钢雕塑制作广西园林景观玻璃钢雕塑厂家吴忠玻璃钢景观雕塑款式多样广东超市商场美陈订购玻璃钢鹿雕塑咨询金华定制玻璃钢雕塑销售厂家鼎湖玻璃钢抽象雕塑批发普陀区拉丝玻璃钢雕塑厂家直供湖州抽象玻璃钢雕塑制作辽源玻璃钢雕塑工程产品介绍杭州玻璃钢卡通雕塑价格玻璃钢大白菜雕塑报价开封景观园林玻璃钢仿铜雕塑公司商业街雕塑蘑菇屋玻璃钢雕塑安阳佛像玻璃钢仿铜雕塑玻璃钢古代人物雕塑设计价格众象玻璃钢雕塑工厂德惠定制玻璃钢花盆广州玻璃钢梅花鹿雕塑浮雕玻璃钢雕塑制作园林玻璃钢动物雕塑销售曲靖商场美陈香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化