深度立体声匹配近年来取得了重大进展。然而,最先进的方法基于昂贵的4D成本体积,这限制了它们在现实世界中的应用。要解决此问题,已经提出了3D相关映射和迭代差异更新。关于在现实世界平台中,如自动驾驶汽车和机器人,通常安装LIDAR。因此,我们进一步将稀疏的LIDAR点引入了迭代更新,这减轻了网络更新从零状态的差异的负担。此外,我们提出以自我监督的方式培训网络,以便可以在任何捕获的数据上培训,以获得更好的泛化能力。实验和比较表明,呈现的方法是有效的,并通过相关方法实现了可比的结果。
translated by 谷歌翻译
成功地应用生成的对抗性网络(GaN)以研究感知单个图像超级度(SISR)。然而,GaN经常倾向于产生具有高频率细节的图像与真实的细节不一致。灵感来自传统细节增强算法,我们提出了一种新的先前知识,先前的细节,帮助GaN减轻这个问题并恢复更现实的细节。所提出的方法名为DSRAN,包括良好设计的详细提取算法,用于捕获图像中最重要的高频信息。然后,两种鉴别器分别用于在图像域和细节域修复上进行监督。 DSRGAN通过细节增强方式将恢复的细节合并到最终输出中。 DSRGAN的特殊设计从基于模型的常规算法和数据驱动的深度学习网络中获得了优势。实验结果表明,DSRGAN在感知度量上表现出最先进的SISR方法,并同时达到保真度量的可比结果。在DSRGAN之后,将其他传统的图像处理算法结合到深度学习网络中,以形成基于模型的深SISR。
translated by 谷歌翻译
最近,自我监督的学习技术已经应用于计算单眼视频的深度和自我运动,实现了自动驾驶场景中的显着性能。一种广泛采用的深度和自我运动自我监督学习的假设是图像亮度在附近框架内保持恒定。遗憾的是,内窥镜场景不符合这种假设,因为在数据收集期间的照明变化,非灯泡反射和孤立性引起的严重亮度波动,并且这些亮度波动不可避免地恶化深度和自我运动估计精度。在这项工作中,我们介绍了一个新颖的概念,称为外观流动,以解决亮度不一致问题。外观流程考虑了亮度图案中的任何变型,使我们能够开发广义动态图像约束。此外,我们建立一个统一的自我监督框架,以在内窥镜场景中同时估计单眼深度和自我运动,该内窥镜场景包括结构模块,运动模块,外观模块和对应模块,以准确地重建外观并校准图像亮度。广泛的实验是在害怕的数据集和内酷数据集上进行的,拟议的统一框架超过了大幅度的其他自我监控方法。为了验证我们在不同患者和相机上的框架的泛化能力,我们训练我们的模型害怕,但在没有任何微调的情况下测试它在Serv-CT和Hamlyn数据集上,并且卓越的结果揭示了其强大的泛化能力。代码将可用:\ url {https://github.com/shuweishao/af-sfmlearner}。
translated by 谷歌翻译
现有方法以非可分子点检测关键点,因此它们不能直接通过背部传播优化关键点的位置。为解决此问题,我们呈现了一个可差异的关键点检测模块,其输出精确的子像素键点。然后提出了再分断损耗直接优化这些子像素键点,并且呈现了分散峰值损耗以获得准确的关键点正则化。我们还以子像素方式提取描述符,并通过稳定的神经输注误差丢失训练。此外,轻量化网络被设计用于关键点检测和描述符提取,其可以在商业GPU上以每秒95帧运行为95帧。在同性记估计,相机姿态估计和视觉(重新)定位任务中,所提出的方法通过最先进的方法实现了相同的性能,而大大减少了推理时间。
translated by 谷歌翻译
半监控视频对象分段(VOS)旨在在视频序列中分段一些移动对象,其中通过注释第一帧来指定这些对象。已经考虑了许多现有的半监督VOS方法以提高分割精度的光学流程。然而,由于光学流量估计的高复杂性,光流基的半监控VOS方法不能实时运行。在该研究中提出了由特征提取网络(F),外观网络(A),运动网络(A)和集成网络(I)组成的FAMINET,以解决上述问题。外观网络基于对象的静态外观输出初始分割结果。运动网络通过很少的参数估计光学流量,这些参数通过在线记忆算法快速优化,该算法被称为松弛最陡血迹。集成网络使用光流来改进初始分割结果。广泛的实验表明,FAMINET在DAVIS和YOUTUBE-VOS基准上表现出其他最先进的半监督VOS方法,并且它在准确性和效率之间实现了良好的权衡。我们的代码可在https://github.com/liuziyang123/faminet获得。
translated by 谷歌翻译
关键点匹配是多个图像相关应用的关键组件,例如图像拼接,视觉同时定位和映射(SLAM)等。基于手工制作和最近出现的深度学习的关键点匹配方法仅依赖于关键点和本地功能,同时在上述应用中丢失其他可用传感器(如惯性测量单元(IMU))的视觉。在本文中,我们证明IMU集成的运动估计可用于利用图像之间的关键点之前的空间分布。为此,提出了一种注意力制剂的概率视角,以自然地将空间分布集成到注意力图神经网络中。在空间分布的帮助下,可以减少用于建模隐藏特征的网络的努力。此外,我们为所提出的关键点匹配网络提出了一个投影损耗,它在匹配和未匹配的关键点之间提供了平滑的边缘。图像匹配在Visual Slam数据集上的实验表明了呈现的方法的有效性和效率。
translated by 谷歌翻译
深度估计在计算机视觉社区中越来越受欢迎,并且仍然很难仅使用一个单个RGB图像恢复精确的深度图。在这项工作中,我们观察了现有方法倾向于表现出不对称误差的现象,这可能会为准确和坚固的深度估计开辟一个新的方向。我们仔细调查了该现象,并构建了一个两级合奏计划Nenet,将多种预测的多种预测集成到不同的基础预测。 NENET形成更可靠的深度估计器,这大大提升了基础预测器的性能。值得注意的是,这是第一次尝试引入集成学习,并评估其符合我们知识中的单眼深度估计的效用。广泛的实验表明,拟议的NENET比NYU-Deaft-V2和Kitti数据集上以前的最先进方法实现了更好的结果。特别是,我们的方法将先前最先进的方法从0.365到0.349上的NYU数据集上的公制RMSE提高到0.349。为了验证相机的概括性,我们直接将培训的型号应用于NYU数据集的模型到Sun RGB-D数据集,而无需任何微调,并且实现了卓越的结果,这表明其具有强大的普遍性。源代码和培训的型号将公开接受。
translated by 谷歌翻译
由于可能的颜色失真和输入图像的最亮和最黑暗的区域中可能的颜色失真和丢失丢失,缝合不同曝光的多个图像充满挑战。本文首先通过引入加权直方图平均(WHA)的新概念来提出一种新型颜色映射算法。所提出的WHA算法利用通过使用颜色映射函数(CMFS)的非降低性能而建立的两个图像的直方图间距之间的对应关系。然后采用WHA算法来合成一组不同暴露的全景图像。中间全景图像最终通过最先进的多尺度曝光融合(MEF)算法融合以产生最终的全景图像。广泛的实验表明,所提出的WHA算法显着超越了相关最新的彩色映射方法。基于MEF的提出的高动态范围(HDR)拼接算法也在输入图像的最亮和最黑暗的区域中保留细节。相关材料将在https://github.com/yilun-xu/wha公开访问可重复的研究。
translated by 谷歌翻译
空间变化暴露(SVE)是高动态(HDR)成像(HDRI)的有希望的选择。被称为单射HDRI的SVE的HDRI是一种有效的解决方案,以避免重影文物。然而,恢复从真实世界的图像与SVE恢复全分辨率的HDR图像是非常具有挑战性的,因为:a)在拜耳图案中,通过相机捕获具有不同曝光的三分之一的像素,B)捕获的一些捕获像素过于和暴露。对于以前的挑战,设计了一种空间变化的卷积(SVC)来设计以改变曝光的携带携带的拜耳图像。对于后者,提出了一种曝光 - 引导方法,以防止来自暴露和暴露的像素的干扰。最后,联合去脱模和HDRI深度学习框架被形式化以包括两种新型组件,并实现端到端的单次HDRI。实验表明,所提出的端到端框架避免了累积误差问题并超越了相关的最先进的方法。
translated by 谷歌翻译
Deep learning models can achieve high accuracy when trained on large amounts of labeled data. However, real-world scenarios often involve several challenges: Training data may become available in installments, may originate from multiple different domains, and may not contain labels for training. Certain settings, for instance medical applications, often involve further restrictions that prohibit retention of previously seen data due to privacy regulations. In this work, to address such challenges, we study unsupervised segmentation in continual learning scenarios that involve domain shift. To that end, we introduce GarDA (Generative Appearance Replay for continual Domain Adaptation), a generative-replay based approach that can adapt a segmentation model sequentially to new domains with unlabeled data. In contrast to single-step unsupervised domain adaptation (UDA), continual adaptation to a sequence of domains enables leveraging and consolidation of information from multiple domains. Unlike previous approaches in incremental UDA, our method does not require access to previously seen data, making it applicable in many practical scenarios. We evaluate GarDA on two datasets with different organs and modalities, where it substantially outperforms existing techniques.
translated by 谷歌翻译