Various datasets have been proposed for simultaneous localization and mapping (SLAM) and related problems. Existing datasets often include small environments, have incomplete ground truth, or lack important sensor data, such as depth and infrared images. We propose an easy-to-use framework for acquiring building-scale 3D reconstruction using a consumer depth camera. Unlike complex and expensive acquisition setups, our system enables crowd-sourcing, which can greatly benefit data-hungry algorithms. Compared to similar systems, we utilize raw depth maps for odometry computation and loop closure refinement which results in better reconstructions. We acquire a building-scale 3D dataset (BS3D) and demonstrate its value by training an improved monocular depth estimation model. As a unique experiment, we benchmark visual-inertial odometry methods using both color and active infrared images.
translated by 谷歌翻译
Deep models for facial expression recognition achieve high performance by training on large-scale labeled data. However, publicly available datasets contain uncertain facial expressions caused by ambiguous annotations or confusing emotions, which could severely decline the robustness. Previous studies usually follow the bias elimination method in general tasks without considering the uncertainty problem from the perspective of different corresponding sources. In this paper, we propose a novel method of multi-task assisted correction in addressing uncertain facial expression recognition called MTAC. Specifically, a confidence estimation block and a weighted regularization module are applied to highlight solid samples and suppress uncertain samples in every batch. In addition, two auxiliary tasks, i.e., action unit detection and valence-arousal measurement, are introduced to learn semantic distributions from a data-driven AU graph and mitigate category imbalance based on latent dependencies between discrete and continuous emotions, respectively. Moreover, a re-labeling strategy guided by feature-level similarity constraint further generates new labels for identified uncertain samples to promote model learning. The proposed method can flexibly combine with existing frameworks in a fully-supervised or weakly-supervised manner. Experiments on RAF-DB, AffectNet, and AffWild2 datasets demonstrate that the MTAC obtains substantial improvements over baselines when facing synthetic and real uncertainties and outperforms the state-of-the-art methods.
translated by 谷歌翻译
我们提出了HRF-NET,这是一种基于整体辐射场的新型视图合成方法,该方法使用一组稀疏输入来呈现新视图。最近的概括视图合成方法还利用了光辉场,但渲染速度不是实时的。现有的方法可以有效地训练和呈现新颖的观点,但它们无法概括地看不到场景。我们的方法解决了用于概括视图合成的实时渲染问题,并由两个主要阶段组成:整体辐射场预测指标和基于卷积的神经渲染器。该架构不仅基于隐式神经场的一致场景几何形状,而且还可以使用单个GPU有效地呈现新视图。我们首先在DTU数据集的多个3D场景上训练HRF-NET,并且网络只能仅使用光度损耗就看不见的真实和合成数据产生合理的新视图。此外,我们的方法可以利用单个场景的密集参考图像集来产生准确的新颖视图,而无需依赖其他明确表示,并且仍然保持了预训练模型的高速渲染。实验结果表明,HRF-NET优于各种合成和真实数据集的最先进的神经渲染方法。
translated by 谷歌翻译
本文介绍了一个有效的对称性和无对应框架,称为SC6D,对于单个单眼RGB图像的6D对象姿势估计。SC6D既不需要对象的3D CAD模型,也不需要对称对称的任何先验知识。姿势估计分解为三个子任务:a)对象3D旋转表示学习和匹配;b)估计对象中心的2D位置;和c)通过分类的比例不变距离估计(沿Z轴的翻译)。SC6D在三个基准数据集(T-less,YCB-V和ITODD)上进行了评估,并在T-less数据集中获得最先进的性能。此外,SC6D在计算上比以前的最新方法Surfemb更有效。实施和预培训模型可在https://github.com/dingdingcai/sc6d-pose上公开获得。
translated by 谷歌翻译
我们提出了一个视频生成模型,该模型可以准确地重现对象运动,摄像头视图的变化以及随着时间的推移而产生的新内容。现有的视频生成方法通常无法生成新内容作为时间的函数,同时保持在真实环境中预期的一致性,例如合理的动态和对象持久性。一个常见的故障情况是,由于过度依赖归纳偏见而提供时间一致性,因此内容永远不会改变,例如单个潜在代码决定整个视频的内容。在另一个极端情况下,没有长期一致性,生成的视频可能会在不同场景之间不切实际。为了解决这些限制,我们通过重新设计暂时的潜在表示并通过较长的视频培训从数据中学习长期一致性来优先考虑时间轴。为此,我们利用了两阶段的培训策略,在该策略中,我们以低分辨率和高分辨率的较短视频分别训练了较长的视频。为了评估模型的功能,我们介绍了两个新的基准数据集,并明确关注长期时间动态。
translated by 谷歌翻译
High-quality annotated images are significant to deep facial expression recognition (FER) methods. However, uncertain labels, mostly existing in large-scale public datasets, often mislead the training process. In this paper, we achieve uncertain label correction of facial expressions using auxiliary action unit (AU) graphs, called ULC-AG. Specifically, a weighted regularization module is introduced to highlight valid samples and suppress category imbalance in every batch. Based on the latent dependency between emotions and AUs, an auxiliary branch using graph convolutional layers is added to extract the semantic information from graph topologies. Finally, a re-labeling strategy corrects the ambiguous annotations by comparing their feature similarities with semantic templates. Experiments show that our ULC-AG achieves 89.31% and 61.57% accuracy on RAF-DB and AffectNet datasets, respectively, outperforming the baseline and state-of-the-art methods.
translated by 谷歌翻译
最近在无线通信领域的许多任务中考虑了机器学习算法。以前,我们已经提出了使用深度卷积神经网络(CNN)进行接收器处理的使用,并证明它可以提供可观的性能提高。在这项研究中,我们专注于发射器的机器学习算法。特别是,我们考虑进行波束形成并提出一个CNN,该CNN对于给定上行链路通道估计值作为输入,输出下链路通道信息用于波束成形。考虑到基于UE接收器性能的损失函数的上行链路传输和下行链路传输,CNN以有监督的方式进行培训。神经网络的主要任务是预测上行链路和下行链路插槽之间的通道演变,但它也可以学会处理整个链中的效率低下和错误,包括实际的光束成型阶段。提供的数值实验证明了波束形成性能的改善。
translated by 谷歌翻译
我们提出了一种框架插值算法,该算法从两个输入图像中综合了具有大型内部运动的两个输入图像。最近的方法使用多个网络来估计光流或深度以及专用于框架合成的单独网络。这通常是复杂的,需要稀缺的光流或深度地面真相。在这项工作中,我们提出了一个单一的统一网络,该网络以多尺度的特征提取器为特色,该特征提取器在各个尺度上共享权重,并且可以单独从框架中训练。为了综合酥脆和令人愉悦的框架,我们建议使用革兰氏矩阵损失来优化我们的网络,从而衡量特征地图之间的相关差异。我们的方法优于XIPH大型运动基准的最先进方法。与使用感知损失的方法相比,我们还可以在Vimeo-90K,Middlebury和UCF101上获得更高的分数。我们研究了体重共享和培训的效果,该数据集的运动范围不断增加。最后,我们证明了模型在综合高质量和临时连贯的视频中的有效性,该视频在具有挑战性的近乎修复的照片数据集中。代码和预训练模型可在https://film-net.github.io上找到。
translated by 谷歌翻译
用于运动中的人类的新型视图综合是一个具有挑战性的计算机视觉问题,使得诸如自由视视频之类的应用。现有方法通常使用具有多个输入视图,3D监控或预训练模型的复杂设置,这些模型不会概括为新标识。旨在解决这些限制,我们提出了一种新颖的视图综合框架,以从单视图传感器捕获的任何人的看法生成现实渲染,其具有稀疏的RGB-D,类似于低成本深度摄像头,而没有参与者特定的楷模。我们提出了一种架构来学习由基于球体的神经渲染获得的小说视图中的密集功能,并使用全局上下文修复模型创建完整的渲染。此外,增强剂网络利用了整体保真度,即使在原始视图中的遮挡区域中也能够产生细节的清晰渲染。我们展示了我们的方法为单个稀疏RGB-D输入产生高质量的合成和真实人体演员的新颖视图。它概括了看不见的身份,新的姿势,忠实地重建面部表情。我们的方法优于现有人体观测合成方法,并且对不同水平的输入稀疏性具有稳健性。
translated by 谷歌翻译
机器学习方法利用多参数生物标志物,特别是基于神经影像动物,具有改善痴呆早期诊断的巨大潜力,并预测哪些个体存在发展痴呆的风险。对于机器学习领域的基准算法和痴呆症中的神经影像症,并评估他们在临床实践中使用的潜力和临床试验,七年的大挑战已经在过去十年中组织:Miriad,Alzheimer的疾病大数据梦,Caddementia,机器学习挑战,MCI神经影像动物,蝌蚪和预测分析竞争。基于两个挑战评估框架,我们分析了这些大挑战如何互相补充研究问题,数据集,验证方法,结果和影响。七个大挑战解决了与(临床前)痴呆症(临床)痴呆症的筛查,诊断,预测和监测有关的问题。临床问题,任务和性能指标几乎没有重叠。然而,这具有提供对广泛问题的洞察力的优势,它也会限制对挑战的结果的验证。通常,获胜算法执行严格的数据预处理并组合了广泛的输入特征。尽管最先进的表演,但临床上没有挑战评估的大部分方法。为了增加影响,未来的挑战可以更加关注统计分析,对其与高于阿尔茨海默病的临床问题,以及使用超越阿尔茨海默病神经影像疾病的临床问题,以及超越阿尔茨海默病的临床问题。鉴于过去十年中汲取的潜力和经验教训,我们在未来十年及其超越的机器学习和神经影像中的大挑战前景兴奋。
translated by 谷歌翻译