对具有代理商初始位置未知的有限3D环境的多代理探索是一个具有挑战性的问题。它需要快速探索环境,并坚定合并代理商构建的子图。我们认为现有方法是侵略性或保守的:在检测到重叠时,积极的策略合并了两种由不同代理构建的子图,这可能导致由于对重叠的错误阳性检测而导致不正确的合并,因此是如此。不健全。保守策略指导一个代理人在合并之前重新审视另一个代理商的过量验证历史轨迹,这可以降低由于对同一空间的反复探索而引起的勘探效率。为了巧妙地平衡子图合并和勘探效率的鲁棒性,我们为基于激光雷达的多代理探索开发了一种新方法,该方法可以指导一个代理商以\ emph {自适应}方式重复另一个代理商的轨迹子图合并过程的指标。此外,我们的方法通过计划合并子图的代理人共同计划,以进一步提高勘探效率,以\ emph {Cooperative}方式将最近的单格分层勘探策略扩展到多个代理。我们的实验表明,我们的方法平均比基线高出50 \%,同时稳固地合并子映射。
translated by 谷歌翻译
需要高质量的面部图像来保证在监视和安全场景中自动识别系统(FR)系统的稳定性和可靠性。但是,由于传输或存储的限制,在分析之前,通常会压缩大量的面部数据。压缩图像可能会失去强大的身份信息,从而导致FR系统的性能降低。在此,我们首次尝试研究FR系统的明显差异(JND),可以将其定义为FR系统无法注意到的最大失真。更具体地说,我们建立了一个JND数据集,其中包括3530个原始图像和137,670个由高级参考编码/解码软件生成的压缩图像,该图像基于多功能视频编码(VVC)标准(VTM-15.0)。随后,我们开发了一种新型的JND预测模型,以直接推断FR系统的JND图像。特别是,为了最大程度地删除冗余性,在不损害鲁棒身份信息的情况下,我们将编码器应用于多个功能提取和基于注意力的特征分解模块,以将面部特征逐渐分解为两个不相关的组件,即身份和残差特征,通过自我 - 监督学习。然后,剩余特征被馈入解码器以生成残差图。最后,通过从原始图像中减去残差图来获得预测的JND映射。实验结果表明,与最先进的JND模型相比,所提出的模型可以实现JND MAP预测的更高准确性,并且能够在维持FR系统的性能的同时保存更多的位置,而与VTM-15.0相比。
translated by 谷歌翻译
步态描绘了个人独特而区别的步行模式,并已成为人类识别最有希望的生物识别特征之一。作为一项精细的识别任务,步态识别很容易受到许多因素的影响,并且通常需要大量完全注释的数据,这些数据是昂贵且无法满足的。本文提出了一个大规模的自我监督基准,以通过对比度学习进行步态识别,旨在通过提供信息丰富的步行先验和各种现实世界中的多样化的变化,从大型的无标记的步行视频中学习一般步态代表。具体而言,我们收集了一个由1.02m步行序列组成的大规模的无标记的步态数据集gaitu-1m,并提出了一个概念上简单而经验上强大的基线模型步态。在实验上,我们在四个广泛使用的步态基准(Casia-B,Ou-Mvlp,Grew and Grew and Gait3d)上评估了预训练的模型,或者在不转移学习的情况下。无监督的结果与基于早期模型和基于GEI的早期方法相当甚至更好。在转移学习后,我们的方法在大多数情况下都超过现有方法。从理论上讲,我们讨论了步态特异性对比框架的关键问题,并提供了一些进一步研究的见解。据我们所知,Gaitlu-1M是第一个大规模未标记的步态数据集,而GaitSSB是第一种在上述基准测试基准上取得显着无监督结果的方法。 GaitSSB的源代码将集成到OpenGait中,可在https://github.com/shiqiyu/opengait上获得。
translated by 谷歌翻译
步态识别旨在通过相机来识别一个距离的人。随着深度学习的出现,步态识别的重大进步通过使用深度学习技术在许多情况下取得了鼓舞人心的成功。然而,对视频监视的越来越多的需求引入了更多的挑战,包括在各种方差下进行良好的识别,步态序列中的运动信息建模,由于协议方差,生物量标准安全性和预防隐私而引起的不公平性能比较。本文对步态识别的深度学习进行了全面的调查。我们首先介绍了从传统算法到深层模型的步态识别的奥德赛,从而提供了对步态识别系统的整个工作流程的明确知识。然后,从深度表示和建筑的角度讨论了步态识别的深入学习,并深入摘要。具体而言,深层步态表示分为静态和动态特征,而深度体系结构包括单流和多流架构。遵循我们提出的新颖性分类法,它可能有益于提供灵感并促进对步态认识的感知。此外,我们还提供了所有基于视觉的步态数据集和性能分析的全面摘要。最后,本文讨论了一些潜在潜在前景的开放问题。
translated by 谷歌翻译
步态是长距离识别个体的最有前途的生物识别技术之一。尽管大多数以前的方法都集中在识别轮廓上,但直接从RGB图像中提取步态特征的几种端到端方法表现更好。但是,我们证明了这些端到端方法可能不可避免地会遭受步态液化的噪音,即低级纹理和丰富多彩的信息。在实验上,我们设计了跨域评估以支持这种观点。在这项工作中,我们提出了一个名为Gaitedge的新颖端到端框架,该框架可以有效地阻止步态 - 近距离信息并发布端到端训练潜力。具体而言,Gaitede合成了行人分割网络的输出,然后将其馈送到随后的识别网络中,在该网络中,合成轮廓由身体的可训练边缘和固定内部室内装饰组成,以限制识别网络接收的信息。此外,对齐轮廓的步态嵌入了盖地,而不会失去不同的性能。关于CASIA-B和我们新建的TTG-200的实验结果表明,Gaitedge明显优于先前的方法,并提供了更实用的端到端范式。所有源代码均可在https://github.com/shiqiyu/opengait上获得。
translated by 谷歌翻译
随着深度学习技术的快速发展和计算能力的提高,深度学习已广泛应用于高光谱图像(HSI)分类领域。通常,深度学习模型通常包含许多可训练参数,并且需要大量标记的样品来实现最佳性能。然而,关于HSI分类,由于手动标记的难度和耗时的性质,大量标记的样本通常难以获取。因此,许多研究工作侧重于建立一个少数标记样本的HSI分类的深层学习模型。在本文中,我们专注于这一主题,并对相关文献提供系统审查。具体而言,本文的贡献是双重的。首先,相关方法的研究进展根据学习范式分类,包括转移学习,积极学习和少量学习。其次,已经进行了许多具有各种最先进的方法的实验,总结了结果以揭示潜在的研究方向。更重要的是,虽然深度学习模型(通常需要足够的标记样本)和具有少量标记样本的HSI场景之间存在巨大差距,但是通过深度学习融合,可以很好地表征小样本集的问题方法和相关技术,如转移学习和轻量级模型。为了再现性,可以在HTTPS://github.com/shuguoj/hsi-classification中找到纸张中评估的方法的源代码.git。
translated by 谷歌翻译
在现代探测器中,默认使用四变独立回归定位损耗,如平滑 - $ \ ell_1 $丢失。然而,这种损失超薄了,使其与联盟(iou)的最终评估度量,交叉口不一致。直接采用标准IOU也不是不可行的,因为在非重叠盒的情况下的恒定零高原和最小值的非零梯度可能使其不可培养。因此,我们提出了一种解决这些问题的系统方法。首先,我们提出了一个新的公制,延伸的iou(eiou),当两个盒子没有重叠时,它是良好的定义,当重叠时,它是不重叠的并且减少到标准iou。其次,我们介绍了凸化技术(CT)以在EIOU的基础上构建损失,这可以保证梯度最小为零。第三,我们提出了一种稳定的优化技术(SOT),使分数欧盟损失更加稳定,平稳地接近最低。第四,为了充分利用基于EIOO的损失的能力,我们引入了一个相互关联的iou预测头,以进一步提升本地化准确性。通过拟议的贡献,新方法与Reset50 + FPN的备用R-CNN掺入,作为骨干收益率\ TextBF {4.2 Map} Gain on Voc2007和Coco2017上的基准下滑 - $ \ ell_1 $损失,几乎\ textbf {没有培训和推理计算成本}。具体而言,度量标准更长的是,增益越令人显着,在Coco2017上的VOC2007和\ TextBF {5.4 MAP}上越突出,可以在Coco2017上以公式$ AP_ {90} $。
translated by 谷歌翻译
面部检测是为了在图像中搜索面部的所有可能区域,并且如果有任何情况,则定位面部。包括面部识别,面部表情识别,面部跟踪和头部姿势估计的许多应用假设面部的位置和尺寸在图像中是已知的。近几十年来,研究人员从Viola-Jones脸上检测器创造了许多典型和有效的面部探测器到当前的基于CNN的CNN。然而,随着图像和视频的巨大增加,具有面部刻度的变化,外观,表达,遮挡和姿势,传统的面部探测器被挑战来检测野外面孔的各种“脸部。深度学习技术的出现带来了非凡的检测突破,以及计算的价格相当大的价格。本文介绍了代表性的深度学习的方法,并在准确性和效率方面提出了深度和全面的分析。我们进一步比较并讨论了流行的并挑战数据集及其评估指标。进行了几种成功的基于深度学习的面部探测器的全面比较,以使用两个度量来揭示其效率:拖鞋和延迟。本文可以指导为不同应用选择合适的面部探测器,也可以开发更高效和准确的探测器。
translated by 谷歌翻译
Code generation models have achieved impressive performance. However, they tend to be brittle as slight edits to a prompt could lead to very different generations; these robustness properties, critical for user experience when deployed in real-life applications, are not well understood. Most existing works on robustness in text or code tasks have focused on classification, while robustness in generation tasks is an uncharted area and to date there is no comprehensive benchmark for robustness in code generation. In this paper, we propose ReCode, a comprehensive robustness evaluation benchmark for code generation models. We customize over 30 transformations specifically for code on docstrings, function and variable names, code syntax, and code format. They are carefully designed to be natural in real-life coding practice, preserve the original semantic meaning, and thus provide multifaceted assessments of a model's robustness performance. With human annotators, we verified that over 90% of the perturbed prompts do not alter the semantic meaning of the original prompt. In addition, we define robustness metrics for code generation models considering the worst-case behavior under each type of perturbation, taking advantage of the fact that executing the generated code can serve as objective evaluation. We demonstrate ReCode on SOTA models using HumanEval, MBPP, as well as function completion tasks derived from them. Interesting observations include: better robustness for CodeGen over InCoder and GPT-J; models are most sensitive to syntax perturbations; more challenging robustness evaluation on MBPP over HumanEval.
translated by 谷歌翻译
Federated learning (FL) is an effective technique to directly involve edge devices in machine learning training while preserving client privacy. However, the substantial communication overhead of FL makes training challenging when edge devices have limited network bandwidth. Existing work to optimize FL bandwidth overlooks downstream transmission and does not account for FL client sampling. In this paper we propose GlueFL, a framework that incorporates new client sampling and model compression algorithms to mitigate low download bandwidths of FL clients. GlueFL prioritizes recently used clients and bounds the number of changed positions in compression masks in each round. Across three popular FL datasets and three state-of-the-art strategies, GlueFL reduces downstream client bandwidth by 27% on average and reduces training time by 29% on average.
translated by 谷歌翻译