Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
对非线性不确定系统的控制是机器人技术领域的常见挑战。非线性潜在力模型结合了以高斯流程为特征的潜在不确定性,具有有效代表此类系统的希望,我们专注于这项工作的控制设计。为了实现设计,我们采用了高斯过程的状态空间表示来重塑非线性潜在力模型,从而建立了同时预测未来状态和不确定性的能力。使用此功能,制定了随机模型预测控制问题。为了得出问题的计算算法,我们使用基于方案的方法来制定随机优化的确定性近似。我们通过基于自动驾驶汽车的运动计划的仿真研究评估了最终方案的模型预测控制方法,该研究表现出很大的有效性。拟议的方法可以在其他各种机器人应用中找到前瞻性使用。
translated by 谷歌翻译
标签分配在现代对象检测模型中起着重要作用。检测模型可能会通过不同的标签分配策略产生完全不同的性能。对于基于锚的检测模型,锚点及其相应的地面真实边界框之间的IO(与联合的交点)是关键要素,因为正面样品和负样品除以IOU阈值。早期对象探测器仅利用所有训练样本的固定阈值,而最近的检测算法则基于基于IOUS到地面真相框的分布而着重于自适应阈值。在本文中,我们介绍了一种简单的同时有效的方法,可以根据预测的培训状态动态执行标签分配。通过在标签分配中引入预测,选择了更高的地面真相对象的高质量样本作为正样本,这可以减少分类得分和IOU分数之间的差异,并生成更高质量的边界框。我们的方法显示了使用自适应标签分配算法和这些正面样本的下限框损失的检测模型的性能的改进,这表明将更多具有较高质量预测盒的样品选择为阳性。
translated by 谷歌翻译
在本文中,我们提出了一种使用域鉴别特征模块的双模块网络架构,以鼓励域不变的特征模块学习更多域不变的功能。该建议的架构可以应用于任何利用域不变功能的任何模型,用于无监督域适应,以提高其提取域不变特征的能力。我们在作为代表性算法的神经网络(DANN)模型的区域 - 对抗训练进行实验。在培训过程中,我们为两个模块提供相同的输入,然后分别提取它们的特征分布和预测结果。我们提出了差异损失,以找到预测结果的差异和两个模块之间的特征分布。通过对抗训练来最大化其特征分布和最小化其预测结果的差异,鼓励两个模块分别学习更多域歧视和域不变特征。进行了广泛的比较评估,拟议的方法在大多数无监督的域适应任务中表现出最先进的。
translated by 谷歌翻译
具有变压器(DETR)和相关工程的对象检测达到或甚至超越了具有自我关注网络架构的高度优化的更优化的rcnn基线。灵感灵感来自纯粹的自我关注具有强烈的电感偏差,导致变压器对网络深度失去表现力的能力,我们通过在变压器中应用可能的直接映射连接来提出具有减轻自我关注机制的变压器架构建筑以缓解排名崩溃,以抵消特征表达式损失并增强模型性能。我们在对象检测任务中应用此提议,并开发名为Miti-Detr的型号。 MITI-DETR将每个单一注意层的输入保留到该层的输出,以便“非关注”信息参与了任何关注传播。形成的残余自我关注网络解决了两个关键问题:(1)停止自我关注网络从退化到秩1到最大程度; (2)进一步多样化参数更新的路径分布,以便预期更容易学习。 MITI-DETR显着提高了在挑战COCO对象检测数据集上实现了现有DETR基模型的平均检测精度和收敛速度。此外,具有剩余自我关注网络的所提出的变压器可以在没有特定定制的情况下容易地概括或插入其他相关任务模型。
translated by 谷歌翻译
本文通过模仿人脑的学习和思维过程来提出基于语义聚类的扣除学习。人类可以根据经验和认知做出判决,结果,没有人会识别一个未知的动物作为汽车。灵感来自这种观察,我们建议使用之前的聚类培训深度学习模型,可以指导模型来学习语义的能力,从分类属性中宣传和总结,例如属于动物的猫而与车辆有关的汽车。特别是,如果图像被标记为猫,则培训模型以了解“此图像完全不是动物的异常值”。所提出的方法实现了语义空间中的高级聚类,使模型能够在学习过程中推断各种类之间的关系。此外,本文介绍了一种基于语义的基于语义的随机搜索,对相反的标签,以确保聚类的平滑分布和分类器的鲁棒性。理论上和经验通过广泛的实验支持拟议的方法。我们将跨新型分类器的性能进行比较,在流行的基准上,通过向数据集添加噪声标记来验证泛化能力。实验结果表明了所提出的方法的优越性。
translated by 谷歌翻译
本文侧重于改善基于人群计数的最近的即插即用补丁重新分校模块(PRM)方法。为了充分利用PRM潜力,并获得更具可靠和准确的结果,以满足人群变异,大的视角,极端闭塞和杂乱的背景区域,我们提出了一种基于PRM的多分辨率和多任务人群通过利用更多有效性和效力来计算网络来计算网络。所提出的模型由三个深层分支组成,每个分支都会生成不同分辨率的特征图。这些分支机构互相执行特征级融合,以构建用于最终人群估计的重要集体知识。此外,早期的特征图会经受视觉注意力,以加强对前景地区的后期频道的理解。与PRM模块的这些深度分支的整合和早期的块通过四个基准数据集上的广泛数值和视觉评估而比原始的PRM基础级更有效。拟议的方法在RMSE评估标准方面产生了12.6%的余量。它还优于跨数据集评估中的最先进的方法。
translated by 谷歌翻译
已证明卷积神经网络中的渠道注意机制在各种计算机视觉任务中有效。但是,性能改进具有额外的模型复杂性和计算成本。在本文中,我们提出了一种被称为信道分流块的轻量级和有效的注意模块,以通过在全球层面建立信道关系来增强全局背景。与其他通道注意机制不同,所提出的模块通过在考虑信道激活时更加关注空间可区分的渠道,专注于最辨别的特征。与其他介绍模块不同的其他中间层之间的其他关注模型不同,所提出的模块嵌入在骨干网络的末尾,使其易于实现。在CiFar-10,SVHN和微型想象中心数据集上进行了广泛的实验表明,所提出的模块平均提高了基线网络的性能3%的余量。
translated by 谷歌翻译
为了通过分布式在线学习中的本地光计算处理复杂的约束,最近的一项研究提出了一种称为分布式在线条件梯度(D-OCG)的无投影算法(D-OCG),并获得了$ O(T^{3/4})$遗憾的是凸出损失,其中$ t $是总回合的数量。但是,它需要$ t $通信回合,并且不能利用强大的损失凸度。在本文中,我们提出了一个改进的D-OCG的变体,即D-BOCG,可以达到相同的$ O(t^{3/4})$遗憾,只有$ o(\ sqrt {t})$凸损失的通信回合,以及$ o(t^{2/3}(\ log t)^{1/3})$的更好遗憾,少于$ o(t^{1/3}(\ log log) t)^{2/3})$通信回合,以实现强烈凸出的损失。关键思想是采用延迟的更新机制,以降低通信复杂性,并重新定义D-OCG中的替代损失功能以利用强凸度。此外,我们提供了下限,以证明D-BOCG所需的$ O(\ sqrt {t})$通信回合是最佳的(以$ t $为单位)实现$ O(T^{3/4} )$遗憾带有凸损失,以及$ o(t^{1/3}(\ log t)^{2/3})$ d-bocg所需的通信回合近距离)实现$ o(t^{2/3}(\ log t)^{1/3})$遗憾的是,强烈凸出的损失归属于多凝集因子。最后,为了处理更具挑战性的强盗设置,其中只有损失值可用,我们将经典的单点梯度估计器纳入D-BOCG,并获得类似的理论保证。
translated by 谷歌翻译
本文提出了一种有效融合多暴露输入并使用未配对数据集生成高质量的高动态范围(HDR)图像的方法。基于深度学习的HDR图像生成方法在很大程度上依赖于配对的数据集。地面真相图像在生成合理的HDR图像中起着领导作用。没有地面真理的数据集很难应用于训练深层神经网络。最近,在没有配对示例的情况下,生成对抗网络(GAN)证明了它们将图像从源域X转换为目标域y的潜力。在本文中,我们提出了一个基于GAN的网络,用于解决此类问题,同时产生愉快的HDR结果,名为Uphdr-Gan。提出的方法放松了配对数据集的约束,并了解了从LDR域到HDR域的映射。尽管丢失了这些对数据,但UPHDR-GAN可以借助修改后的GAN丢失,改进的歧视器网络和有用的初始化阶段正确处理由移动对象或未对准引起的幽灵伪像。所提出的方法保留了重要区域的细节并提高了总图像感知质量。与代表性方法的定性和定量比较证明了拟议的UPHDR-GAN的优越性。
translated by 谷歌翻译