随着相机和激光雷达传感器捕获用于自主驾驶的互补信息,已经做出了巨大的努力,通过多模式数据融合来开发语义分割算法。但是,基于融合的方法需要配对的数据,即具有严格的点对像素映射的激光点云和相机图像,因为培训和推理的输入都严重阻碍了在实际情况下的应用。因此,在这项工作中,我们建议通过充分利用具有丰富外观的2D图像来提高对点云上的代表性学习的2D先验辅助语义分割(2DPass),以增强对点云的表示。实际上,通过利用辅助模态融合和多尺度融合到单个知识蒸馏(MSFSKD),2DAPS从多模式数据中获取更丰富的语义和结构信息,然后在线蒸馏到纯3D网络。结果,配备了2DAPS,我们的基线仅使用点云输入显示出显着的改进。具体而言,它在两个大规模的基准(即Semantickitti和Nuscenes)上实现了最先进的方法,其中包括TOP-1的semantickitti的单扫描和多次扫描竞赛。
translated by 谷歌翻译
在广泛的实用应用中,需要进行远程感知的城市场景图像的语义细分,例如土地覆盖地图,城市变化检测,环境保护和经济评估。在深度学习技术的快速发展,卷积神经网络(CNN)的迅速发展。 )多年来一直在语义细分中占主导地位。 CNN采用层次特征表示,证明了局部信息提取的强大功能。但是,卷积层的本地属性限制了网络捕获全局上下文。最近,作为计算机视觉领域的热门话题,Transformer在全球信息建模中展示了其巨大的潜力,从而增强了许多与视觉相关的任务,例如图像分类,对象检测,尤其是语义细分。在本文中,我们提出了一个基于变压器的解码器,并为实时城市场景细分构建了一个类似Unet的变压器(UneTformer)。为了有效的分割,不显示器将轻量级RESNET18选择作为编码器,并开发出有效的全球关注机制,以模拟解码器中的全局和局部信息。广泛的实验表明,我们的方法不仅运行速度更快,而且与最先进的轻量级模型相比,其准确性更高。具体而言,拟议的未显示器分别在无人机和洛夫加数据集上分别达到了67.8%和52.4%的MIOU,而在单个NVIDIA GTX 3090 GPU上输入了512x512输入的推理速度最多可以达到322.4 fps。在进一步的探索中,拟议的基于变压器的解码器与SWIN变压器编码器结合使用,还可以在Vaihingen数据集上实现最新的结果(91.3%F1和84.1%MIOU)。源代码将在https://github.com/wanglibo1995/geoseg上免费获得。
translated by 谷歌翻译
具有编码器解码器架构的全卷积网络(FCN)是语义分段的标准范例。编码器 - 解码器架构利用编码器来捕获多级特征映射,其被解码器结合到最终预测中。随着上下文对于精确分割至关重要,已经提出了以智能方式提取此类信息的巨大努力,包括采用扩张/不受欢迎的卷曲或插入注意模块。但是,这些努力都基于与Reset或其他底座的FCN架构,它不能完全利用理论概念的上下文。相比之下,我们提出了Swin变压器作为骨干,以提取上下文信息并设计密集连接的特征聚合模块(DCFAM)的新型解码器,以恢复分辨率并产生分割图。两个遥感语义分割数据集的实验结果证明了提出方案的有效性。
translated by 谷歌翻译
联合学习通过与大量参与者启用学习统计模型的同时将其数据保留在本地客户中,从而提供了沟通效率和隐私的培训过程。但是,将平均损失函数天真地最小化的标准联合学习技术容易受到来自异常值,系统错误标签甚至对手的数据损坏。此外,由于对用户数据隐私的关注,服务提供商通常会禁止使用数据样本的质量。在本文中,我们通过提出自动加权的强大联合学习(ARFL)来应对这一挑战,这是一种新颖的方法,可以共同学习全球模型和本地更新的权重,以提供针对损坏的数据源的鲁棒性。我们证明了关于预测因素和客户权重的预期风险的学习,这指导着强大的联合学习目标的定义。通过将客户的经验损失与最佳P客户的平均损失进行比较,可以分配权重,因此我们可以减少损失较高的客户,从而降低对全球模型的贡献。我们表明,当损坏的客户的数据与良性不同时,这种方法可以实现鲁棒性。为了优化目标函数,我们根据基于块最小化范式提出了一种通信效率算法。我们考虑了不同的深层神经网络模型,在包括CIFAR-10,女权主义者和莎士比亚在内的多个基准数据集上进行实验。结果表明,我们的解决方案在不同的情况下具有鲁棒性,包括标签改组,标签翻转和嘈杂的功能,并且在大多数情况下都优于最先进的方法。
translated by 谷歌翻译
In frequency-division duplexing (FDD) massive multiple-input multiple-output (MIMO) systems, downlink channel state information (CSI) needs to be sent from users back to the base station (BS), which causes prohibitive feedback overhead. In this paper, we propose a lightweight and adaptive deep learning-based CSI feedback scheme by capitalizing on deep equilibrium models. Different from existing deep learning-based approaches that stack multiple explicit layers, we propose an implicit equilibrium block to mimic the process of an infinite-depth neural network. In particular, the implicit equilibrium block is defined by a fixed-point iteration and the trainable parameters in each iteration are shared, which results in a lightweight model. Furthermore, the number of forward iterations can be adjusted according to the users' computational capability, achieving an online accuracy-efficiency trade-off. Simulation results will show that the proposed method obtains a comparable performance as the existing benchmarks but with much-reduced complexity and permits an accuracy-efficiency trade-off at runtime.
translated by 谷歌翻译
被广泛采用的缩减采样是为了在视觉识别的准确性和延迟之间取得良好的权衡。不幸的是,没有学习常用的合并层,因此无法保留重要信息。作为另一个降低方法,自适应采样权重和与任务相关的过程区域,因此能够更好地保留有用的信息。但是,自适应采样的使用仅限于某些层。在本文中,我们表明,在深神经网络的构件中使用自适应采样可以提高其效率。特别是,我们提出了SSBNET,该SSBNET是通过将采样层反复插入Resnet等现有网络构建的。实验结果表明,所提出的SSBNET可以在ImageNet和可可数据集上实现竞争性图像分类和对象检测性能。例如,SSB-Resnet-RS-200在Imagenet数据集上的精度达到82.6%,比基线RESNET-RS-152高0.6%,具有相似的复杂性。可视化显示了SSBNET在允许不同层专注于不同位置的优势,而消融研究进一步验证了自适应采样比均匀方法的优势。
translated by 谷歌翻译
图像颜色协调算法旨在自动匹配在不同条件下捕获的前景图像的颜色分布和背景图像。以前的基于深度学习的模型忽略了两个对于实际应用至关重要的问题,即高分辨率(HR)图像处理和模型的可理解性。在本文中,我们提出了一个新型的深层综合颜色滤波器(DCCF)学习框架,用于高分辨率图像协调。具体而言,DCCF首先将原始输入图像列为其低分辨率(LR)对抗零件,然后以端到端的方式学习四个人类可理解的神经过滤器(即色相,饱和,饱和,价值和细心的渲染过滤器),最终以将这些过滤器应用于原始输入图像以获得统一的结果。从可理解的神经过滤器中受益,我们可以为用户提供一个简单而有效的处理程序,以便用户与Deep Model合作,以便在必要时很少努力获得所需的结果。广泛的实验证明了DCCF学习框架的有效性,并且它在IHARMONY4数据集上的最先进的后处理方法优于图像的全分辨率,分别在MSE和PSNR上实现了7.63%和1.69%的相对改进,从而超过了图像的全分辨率。
translated by 谷歌翻译
作为全球发病率的主要原因,肠道寄生虫感染仍然缺乏节省时间,高敏性和用户友好的检查方法。深度学习技术的发展揭示了其在生物形象中的广泛应用潜力。在本文中,我们应用了几个对象探测器,例如yolov5和变体cascadercnns,以自动区分显微镜图像中的寄生卵。通过专门设计的优化,包括原始数据增强,模型集合,传输学习和测试时间扩展,我们的模型在挑战数据集上实现了出色的性能。此外,我们的模型接受了增加的噪声训练,可以提高污染输入的较高鲁棒性,从而进一步扩大了其实践中的适用性。
translated by 谷歌翻译
联合学习(FL)是一种新兴的隐私保留分布式学习计划。由于型号大小和频繁的模型聚集,FL受到关键通信瓶颈。已经提出了许多技术来减少通信量,包括模型压缩和量化。现有的自适应量化方案使用升高趋势量化,其中量化水平随着训练阶段而增加。在本文中,我们制定了优化给定通信量的训练收敛速率的问题。结果表明,最佳的量化水平可以由两个因素,即训练丢失和模型更新范围表示,并且优选降低量化水平而不是增加。然后,我们提出了基于训练损耗和模型范围的两个降序量化方案。实验结果表明,与当前升序量化相比,建议的方案不仅可以减少通信量,而且还可以更快地收敛。
translated by 谷歌翻译
视频摘要方法通常分为射击级或帧级方法,这些方法以一般方式单独使用。本文研究了框架级别和射击级方法之间的潜在互补性,并提出了一种堆叠合奏方法以进行监督视频摘要。首先,我们建立了一个堆叠模型,以同时预测关键框架概率和时间兴趣段。然后通过软决策融合组合两个组件,以获得视频中每个帧的最终分数。这里提出了联合损失函数来训练模型。消融实验结果表明,所提出的方法的表现优于两个相应的单个方法。此外,与最先进的方法相比,两个基准数据集的广泛实验和分析证明了我们方法的有效性及其出色的性能。
translated by 谷歌翻译