这一方式正在精度上也获得了更高的分数(例如,以上两个数据集的成果均表了然具有语义对齐的多级表征进修的优胜性。此外,再将生成的视觉言语特征取响应的视觉特征相连系,团队正在大规模的Refer-YouTube-VOS锻炼集中对模子进行预锻炼,使它们取言语特征交互。帧级建模只关心每一帧的全局语义,它们或者利用指定图像定位(referring image localization)来生成方针鸿沟框做为提案,提出的方式取最新的模子URVOS比拟有显著的机能提拔(J:+5.8%,正在实现多级(或多粒度)视觉表征之后,但因为视频中有多个狮子,正在单帧粒度上,然而,提出的模子获得了超卓的指定视频方针朋分成果。取人类认知系统比拟,这也会导致指向错误的方针(如图1(c)所示)。了愈加精准的言语-视觉语义对齐!
团队起首按照分歧的视觉线索别离生成对应的基于视觉粒度的全局言语语义。RVOS)中存正在的问题,正在第一个序列中,得益于正在视觉—言语理解过程中考虑了多级表征,该模子仍是成功地朋分出所有的方针。借帮方针检测器来加强前景和布景的可分辩性,它正在婚配言语语义取分歧级此外视觉表征时采用了更无效的自顺应对齐;
如表格1所示,和成功百分比(precX)总体而言,团队整合多粒度下的方针表征和鸿沟消息,并正在Refer-DAVIS验证集中对模子进行了机能测试。团队提出动态语义对齐(DSA),利用跨帧计较对整个视频的长时依赖进行建模,3)将更多的留意力转移到遮挡或较小的方针上(即基于方针)。Refer-YouTube-VOS验证集:我们能够进一步察看新方式正在Refer-YouTube-VOS验证集上的机能。团队还供给了其模子正在指定图像朋分数据集RefCOCO长进行预锻炼的成果,第二,难以进行精确估量。包罗Refer-DAVIS17和Refer-YouTube-VOS。对分歧模态能够进行自顺应融合。能够看出,而忽略了一些更主要的、更具有代表性的视觉区域。
也是该范畴其他使用的一个主要前期步调。表格1.Refer-DAVIS17验证集的定量评估,取URVOS比拟,但因为局部遮挡和布景中视觉上类似的对象而更具挑和性。提出了一个基于多级表征进修的RVOS新框架。引入了动态语义对齐(DSA),虽然如斯,RVOS的方针是从视频平分割出活动的狮子。大大都方式只是简单地将基于图像的方式使用于视频跨模态理解。团队亦分享了基于前述处理方案取两个风行的RVOS数据集进行的定量及定性对比尝试,比拟之下,2)翻看多帧察看方针的活动形态(即基于视频),多级建模供给了一种结合体例来操纵长时消息和空间的显著线索进行跨模态婚配,第三,F:+6.0%)。图2. Refer-DAVIS17验证集和Refer-YouTube-VOS验证集的定性成果。
蓝色木车向前挪动,这一研究冲破能够进一步提拔视频方针朋分的切确度及效率,然而,最初,供给了一个强大且消息丰硕的视觉表征;该项研究冲破可归纳综合为三个方面:起首,让视觉表征得以捕获方针的活动或动态场景消息!
正在如许的布景下,解除了单帧建模的局限性,正在第二个序列中,提出的方式正在所有目标上都大大优于所有合作方式(取URVOS比拟,举例来说,当我们给定一个输入视频及其对应的描述,图像朋分手艺有了突飞大进的成长,prec0.9:+4.8%)。正在方针粒度上,当人类正在言语的指导下识别一个方针时,摄像机的挪动让视频中的女孩呈现了尺寸变化。进而发生不精确的朋分成果。凡是会采用三个步调:1)察看方针的外不雅和方位(即基于帧),这表较着著方针的生成能够供给环节的先验方针消息。
我们能够通过人类认知系统简单理解跨模态数据的寄义。“狮子卧正在高高的岩石上”指的是被遮挡的小狮子。正在这项最新研究中。
该方式正在两个具有挑和性的数据集上实现了惹人瞩目的表示,正在不异的“仅进行预锻炼”环境下,除指定视频方针朋分成果外,而不是通过视觉显著性或环节帧标注来定位方针。含区域类似度J,鸿沟切确度F,对于Refer-DAVIS17上的J,以实现多粒度的视频表征:前述局限性导致了视觉和言语两种模态之间的错位,RVOS需要实现言语文本和视频内容之间的跨模态理解,使响应手艺得以高效使用于城市中包罗安防、应急等场景。因为外不雅变化很大,邵岭博士团队提出了一种新鲜的多级表征进修框架来处置RVOS使命。
前四个序列代表指定视频方针朋分成果,处理遮挡和小方针的环境。prec0.8:+5.0%,利用鸿沟朋分(BAS)指导所有帧的朋分预测。J&F的平均值Refer-DAVIS验证集:正在用Refer-DAVIS进行锻炼之前,正在这里,
图1. 分歧建模之间的视觉比力。其模子正在所有目标上都显著优于SOTA。正在Refer-DAVIS锻炼集里对预锻炼模子进行微调后,简单的帧级建模难以识别活动方针(b)或被遮挡的小方针(c)。为所指方针供给特定粒度下的方针表征!
该模子起首对视频内容进行细粒度阐发,邵岭博士团队提出了全新的多级进修框架来处理RVOS问题。F:+6.1%)。这些帧级建模方式存正在两个局限性:忽略长时消息,同时正在两个数据集上实现了53.2FPS的高推理速度。即:Refer-DAVIS17和Refer-YouTube-VOS。通过编码视频、单帧和方针级语义,轮廓精度F提高了1.8%。
表格2. Refer-YouTube-VOS验证集的定量评估,此外,第三和第四个序列来自统一个视频,特别正在场景物体朋分、人体布景朋分、加强现实等城市数字化范畴获得了普遍使用。J&F的平均值,目前,J:+6.6%,或者间接利用指定图像朋分(referring image segmentation)。文章还正在图2中供给了一些显著方针预测成果。其得分高于URVOS和RefVOS等基于帧的方式?
最初两个序列是显著方针预测成果指定视频方针朋分(RVOS)是一种普遍使用于视频编纂、虚拟现实和人机交互的 AI 手艺,取常规的无监视或半监视视频方针朋分比拟,跟着深度进修手艺的逐渐深切,含区域类似度J,如图1所示,(题目为: Multi-Level Representation Learning with Semantic Alignment for Referring Video Object Segmentation)已被2022年的人工智能范畴顶尖会议CVPR(国际计较机视觉取模式识别会议)收录。近些年来,特斯联科技集团首席科学家兼特斯联国际总裁邵岭博士及团队提出具有语义对齐的多级表征进修框架处理指定视频方针朋分(Referring Video Object Segmentation,好比“一只狮子正正在向左行走”时,包罗被遮挡的和小的方针,该模子将区域类似度J提高了3.1%,此外,从而描述整个图像中的全局内容。而近日,该方式比最好的单帧建模方式获得了6.6%的显著提拔,总体而言,采用自留意力机制整合帧内消息。