我们介绍了一些源自摄影师的本地化数据集,他们实际上试图了解他们拍摄的图像中的视觉内容。它包括有4,500多个视觉障碍者拍摄的超过4,500张图像中的100个类别的近10,000个细分。与现有的少数弹射对象检测和实例分段数据集相比,我们的数据集是第一个在对象中找到孔(例如,在我们的分段的12.3 \%中找到),它显示的对象相对于占据相对于尺寸的范围较大。图像和文本在我们的对象中的常见五倍以上(例如,在我们的分割的22.4%中找到)。对三种现代少量定位算法的分析表明,它们概括为我们的新数据集。这些算法通常很难找到带有孔,非常小且非常大的物体以及缺乏文本的物体的对象。为了鼓励更大的社区致力于这些尚未解决的挑战,我们在https://vizwiz.org上公开分享了带注释的少数数据集。
translated by 谷歌翻译
引入广义的少量拍摄语义分割以超越仅在新颖的类上评估几次分段模型,以包括测试他们记住基础类的能力。虽然目前所有方法都是基于Meta-Learning,但在观察只有几张镜头后,他们在学习中表现得差,并且在学习中达到差。我们提出了第一种微调解决方案,并证明它在两个数据集上实现最先进的结果时讨论了饱和度问题,Pascal-$ 5 ^ I $和Coco-$ 20 ^ i $。我们还表明它优于现有方法是否微调多个最终层或仅最终层。最后,我们提出了一个三重损失正常化,展示了如何重新分配新颖和基本类别之间的性能平衡,以便它们之间存在较小的差距。
translated by 谷歌翻译
准确的语义分割模型通常需要大量的计算资源,从而抑制其在实际应用中的使用。最近的作品依靠精心制作的轻质模型来快速推断。但是,这些模型不能灵活地适应不同的准确性和效率要求。在本文中,我们提出了一种简单但有效的微小语义细分(SLIMSEG)方法,该方法可以在推理期间以不同的能力执行,具体取决于所需的准确性效率 - 折衷。更具体地说,我们在训练过程中采用逐步向下知识蒸馏采用参数化通道。观察到每个子模型的分割结果之间的差异主要在语义边界附近,我们引入了额外的边界指导语义分割损失,以进一步提高每个子模型的性能。我们表明,我们提出的具有各种主流网络的Slimseg可以产生灵活的模型,从而使计算成本的动态调整和比独立模型更好。关于语义分割基准,城市景观和Camvid的广泛实验证明了我们框架的概括能力。
translated by 谷歌翻译