为复杂场景而生，NTU、字节等开源大型视频目标分割数据集MOSE-世界印刷网

机器之心专栏

机器之心编辑部

【资料图】

视频目标分割 (Video Object Segmentation, VOS) 的现有 SOTA 方法在已有数据集上已经取得 90+% J&F 的优异性能，似乎已经很好地解决了这一研究问题。那么现有方法在更复杂场景中的处理能力如何呢？

为了探究这个问题，来自南洋理工大学、浙江大学、牛津大学、和字节跳动的研究者们构建了一个专门针对复杂场景的大规模视频目标分割数据集 coMplex video Object SEgmentation (MOSE)。

论文地址：https://arxiv.org/abs/2302.01872

项目主页：https://henghuiding.github.io/MOSE

视频目标分割 (Video Object Segmentation, VOS) 是计算机视觉中的一个热点问题。在一段视频中，给定目标物体在视频第一帧中某些线索 (如 mask, bounding box, 或者 scribble 等形式)，VOS 旨在准确地分割和追踪该目标物体，获取该物体在整个视频序列中每一帧的高质量 mask。与现有的 VOS 数据集相比，MOSE 最主要的特点是在大量复杂场景中包含了拥挤的目标群、各式各样的遮挡、消失并重现的物体、以及不明显的小物体等富有挑战的情景。因此，MOSE 可以很好地衡量 VOS 算法在复杂场景下的视频目标分割性能，并推动 VOS 在更真实场景下的应用研究。

在 MOSE 数据集上，研究者们在 4 种不同设置下对 18 种视频目标分割方法进行了广泛实验，包括 6 种使用 mask 的半监督 (semi-supervised) 方法、2 种使用 bounding box 的半监督方法、3 种多目标无监督 (unsupervised) 方法、和 7 种交互式视频分割方法。实验表明，现有方法尚不能在复杂场景下取得令人满意的结果。如在最热点的 semi-supervised VOS 任务中，现有方法的 VOS 性能从 DAVIS 和 YouTube-VOS 上的 80%～90% J&F 下降到仅 40%～50% J&F。这些实验表明，尽管当前方法在现有数据集上取得了优异的性能，但在复杂场景下的视频目标分割仍存在很多未解决的挑战，未来需要更多工作来研究和探索这些挑战。

MOSE 数据集简介

MOSE 包含共 2149 个，总时长达 443 分钟的视频，包含有 36 个类别的 5200 个物体。标注的 mask 数总计达 431,725 个。从下表中可以看出，MOSE 在标注规模和总时长上明显相较于其他数据集更大。

不仅在规模上，MOSE 在难度上也尤为突出。从表中的消失率 (Disapp. Rate) 一列来看，MOSE 中有 28.8% 的物体在至少一帧中完全消失，非常考验模型对物体的再跟踪能力。同时，从反映物体遮挡强度的 mBOR 指标来看，MOSE 视频的遮挡现象相较于其他 VOS 数据集也更加显著。

此外，在保证目标物体的多样性和复杂性的同时，MOSE 也丰富了视频长度的多样性。数据集中包含了短至 5 秒的短视频和长至 1 分钟的长视频。在保证标注帧率最低为 5fps 的基础上，数据集中还包含了很多高达 30fps 的完全标注视频，这考验模型在追踪速度方面的稳定性，也进一步提高了 MOSE 数据集的难度。

可视化

MOSE 数据集中包括大量的拥挤、消失、遮挡和非显著 / 小物体等复杂场景。下面介绍一些数据集中的典型视频。

如下视频展示了一个非常拥挤复杂但贴近现实的球赛场景。红色球员首先以背对镜头的状态被其他球员所遮挡，之后在转身后以面向镜头的状态重新出现，与蓝色球员相互遮挡，这种被遮挡前和重新出现后的巨大差别极大地增加了视频的难度。

下面的视频片段中同时包含了面积较大的物体（汽车）和面积较小的物体（行人）。对于行人来说，汽车在行驶过程中几乎将两个行人完全遮挡。而大型物体（汽车）首先被环境（树木）所遮挡，而后遮挡位于画面后方的较小物体（行人）。

如下视频展示了七只山羊大步往前跑，相互之间外观高度相似且彼此遮挡，极大增加了视频目标分割的难度。且 mask 标注质量很高，对动物的尾巴和羊角等细节都进行了精细的标注。

更多可视化片段参见项目主页。

实验

以给定第一帧 mask 的半监督 (semi-supervised) 任务为例，研究者在 MOSE 上尝试了 6 种现有的开源的 VOS 算法，结果如下表所示。可以看到 MOSE 非常具有挑战性。在之前的数据集 DAVIS 和 Youtube-VOS 上，各方法均取得了 80% J&F 以上的好成绩，近乎饱和。然而，在新的 MOSE 数据集上，各方法的性能却并不尽人意。如目前最优的方法 DeAOT 在 DAVIS 2017 上的成绩为 85.2% J&F，但在 MOSE 上却只有 59.4% J&F。实验结果表明，尽管很多方法已经在之前的基准测试中取得了出色的 VOS 性能，但在复杂场景下仍存在未解决的挑战，未来需要更多努力来探索这些挑战。

研究者基于 VOS 其他子任务：无监督视频目标分割 (Unsupervised Video Object Segmentation) 以及交互式视频目标分割 (Interactive Video Object Segmentation) 也进行了实验，更多实验结果请见论文。

总结

研究者构建了一个名为 MOSE 的大规模复杂场景视频目标分割数据集，以推动 VOS 在更真实复杂场景下的应用研究。基于提出的 MOSE 数据集，作者对现有 VOS 方法进行了基准测试并进行了全面比较。发现在拥挤、消失、遮挡、以及非显著 / 小物体等复杂场景频繁出现时，会给现有算法带来了巨大挑战，期待 MOSE 能够启发更多研究人员进行复杂场景下的视频目标理解的研究。

更多细节请参考论文原文。

©THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

关键词：机器之心实验结果基准测试

为复杂场景而生，NTU、字节等开源大型视频目标分割数据集MOSE

推荐阅读

为复杂场景而生，NTU、字节等开源大型视频目标分割数据集MOSE

环球热门:女生朋友过生日应该送什么礼物

全球资讯：美拍视频怎么保存到手机_美图美拍视频怎么保存

67岁比尔盖茨恋上小7岁富婆，女方身价千亿，是其对手的遗孀_全球资讯

每日热议!笔记本键盘字母变数字怎么解决_笔记本键盘字母变数字

描写冬天的优美短句_关于冬天的美句|世界通讯

天天热消息：被公司辞退怎么谈赔偿金

历史性挺进前十！这个经济大省，为何这么猛？环球观速讯

木耳炒海带怎么做好吃如何做木耳炒海带好吃

环球速讯：tiktok账号注册教程是什么？TikTok视频素材哪里找？

美国可能在2023年成为原油净出口国

高中艺术学校有哪些_艺术学校有哪些

二手柴油轻卡汽车_轻卡二手车交易市场-当前最新

台江县：扎实推进“今冬明春”职业技能培训项目促进群众好就业就好业

网站关键词优化多少钱:微资讯

雅本化学股东户数增加85户，户均持股12.72万元:全球播报

美国多地拟以国家安全为由禁止中国公民在美购置房产中方回应

华泰b21车怎么样_华泰b21报价

当前短讯！求青春疼痛小说如花火小说

巨亏超百亿，裁员9000人！|环球速讯

987路公交车路线_807路公交车路线

吴孟达去世了吗

每刻美丨洋溢着爱恋味道的情人节美甲天天热闻

为什么叫大姨妈是什么意思_为什么叫大姨妈

世界看点：天猫和淘宝区别是啥_天猫和淘宝什么区别

为伊消得人憔悴前一句是什么?_为伊消得人憔悴的上一句-速递

女人面相大全图解详解

柚子能和酸奶一起吃吗柚子和酸奶可以一起食用吗

太阳神鸟金饰_商周太阳神鸟金饰

有研硅：预计年底形成月产11万片硅片产能-全球视讯

资讯

头条

快讯

热点

设备

纸箱