我们介绍了一些源自摄影师的本地化数据集,他们实际上试图了解他们拍摄的图像中的视觉内容。它包括有4,500多个视觉障碍者拍摄的超过4,500张图像中的100个类别的近10,000个细分。与现有的少数弹射对象检测和实例分段数据集相比,我们的数据集是第一个在对象中找到孔(例如,在我们的分段的12.3 \%中找到),它显示的对象相对于占据相对于尺寸的范围较大。图像和文本在我们的对象中的常见五倍以上(例如,在我们的分割的22.4%中找到)。对三种现代少量定位算法的分析表明,它们概括为我们的新数据集。这些算法通常很难找到带有孔,非常小且非常大的物体以及缺乏文本的物体的对象。为了鼓励更大的社区致力于这些尚未解决的挑战,我们在https://vizwiz.org上公开分享了带注释的少数数据集。
translated by 谷歌翻译