We propose an analysis in fair learning that preserves the utility of the data while reducing prediction disparities under the criteria of group sufficiency. We focus on the scenario where the data contains multiple or even many subgroups, each with limited number of samples. As a result, we present a principled method for learning a fair predictor for all subgroups via formulating it as a bilevel objective. Specifically, the subgroup specific predictors are learned in the lower-level through a small amount of data and the fair predictor. In the upper-level, the fair predictor is updated to be close to all subgroup specific predictors. We further prove that such a bilevel objective can effectively control the group sufficiency and generalization error. We evaluate the proposed framework on real-world datasets. Empirical evidence suggests the consistently improved fair predictions, as well as the comparable accuracy to the baselines.
translated by 谷歌翻译
微小的行动挑战的重点是理解现实监视中的人类活动。基本上,在这种情况下,活动识别有两个主要困难。首先,人类活动通常在远处记录,并以小分辨率出现,没有太多歧视线索。其次,这些活动是自然而然地以一种长尾分发的。很难减轻这种沉重类别失衡的数据偏见。为了解决这些问题,我们在本文中提出了一种全面的识别解决方案。首先,我们训练具有数据平衡的视频骨干,以减轻挑战基准中的过度拟合。其次,我们设计了双分辨率蒸馏框架,可以通过超分辨率知识有效地指导低分辨率的动作识别。最后,我们将模型融合到后处理中,这可以进一步增强长尾类别的每种形式。我们的解决方案在排行榜上排名第一。
translated by 谷歌翻译
Face Animation是计算机视觉中最热门的主题之一,在生成模型的帮助下取得了有希望的性能。但是,由于复杂的运动变形和复杂的面部细节建模,生成保留身份和光真实图像的身份仍然是一个关键的挑战。为了解决这些问题,我们提出了一个面部神经量渲染(FNEVR)网络,以充分探索在统一框架中2D运动翘曲和3D体积渲染的潜力。在FNEVR中,我们设计了一个3D面积渲染(FVR)模块,以增强图像渲染的面部细节。具体而言,我们首先使用精心设计的体系结构提取3D信息,然后引入一个正交自适应射线采样模块以进行有效的渲染。我们还设计了一个轻巧的姿势编辑器,使FNEVR能够以简单而有效的方式编辑面部姿势。广泛的实验表明,我们的FNEVR在广泛使用的说话头基准上获得了最佳的总体质量和性能。
translated by 谷歌翻译
近年来,移动机器人变得雄心勃勃,并在大规模场景中部署。作为对环境的高级理解,稀疏的骨骼图对更有效的全球计划有益。当前,现有的骨骼图生成解决方案受到了几个主要局限性,包括对不同地图表示的适应性不佳,对机器人检查轨迹的依赖和高计算开销。在本文中,我们提出了一种有效且柔性的算法,该算法生成轨迹独立的3D稀疏拓扑骨架图,捕获了自由空间的空间结构。在我们的方法中,采用了有效的射线采样和验证机制来找到独特的自由空间区域,这有助于骨架图顶点,并且在相邻的顶点作为边缘之间具有遍历性。周期形成方案还用于维持骨架图紧凑度。基准测试与最先进的作品的比较表明,我们的方法在较短的时间内生成稀疏的图形,从而提供了高质量的全球计划路径。在现实世界中进行的实验进一步验证了我们在现实情况下我们方法的能力。我们的方法将成为开源以使社区受益的开源。
translated by 谷歌翻译
属性网络上的节点分类是一项半监督任务,对于网络分析至关重要。通过将图形卷积网络(GCN)中的两个关键操作解耦,即具有转换和邻域聚合,截断的GCN的一些最新作品可以支持这些信息,以更深入地传播并实现高级性能。但是,它们遵循GCN的传统结构感知的传播策略,因此很难捕获节点的属性相关性,并对由两个端点属于不同类别的边缘描述的结构噪声敏感。为了解决这些问题,我们提出了一种新方法,称为“裂开式”传播,然后训练(PAMT)。关键思想是将属性相似性掩码整合到结构感知的传播过程中。这样,PAMT可以在传播过程中保留相邻节点的属性相关性,并有效地减少结构噪声的影响。此外,我们开发了一种迭代改进机制,以在改善培训性能的培训过程中更新相似性面罩。在四个现实世界数据集上进行的广泛实验证明了PAMT的出色性能和鲁棒性。
translated by 谷歌翻译
利用通用神经结构来替代手动设计或感应偏见,最近引起了广泛的兴趣。但是,现有的跟踪方法依赖于定制的子模块,需要进行架构选择的先验知识,从而阻碍了更通用系统中的跟踪开发。本文通过利用变压器主链进行关节特征提取和交互来提供简化的跟踪体系结构(SIMTRACK)。与现有的暹罗跟踪器不同,我们将输入图像序列化,并在单支骨架上直接串联。主链中的特征相互作用有助于删除精心设计的交互模块并产生更有效的框架。为了减少视觉变压器中的减速采样的信息丢失,我们进一步提出了动脉窗口策略,以可接受的计算成本提供更多多样化的输入补丁。我们的SimTrack在Lasot/TNL2K上以2.5%/2.6%的AUC增益提高了基线,并获得了与其他没有铃铛和哨声的其他专业跟踪算法竞争的结果。
translated by 谷歌翻译
最近,基于图形神经网络(GNN)的文本分类模型引起了越来越多的关注。大多数这些模型采用类似的网络范例,即使用预训练节点嵌入初始化和两层图卷积。在这项工作中,我们提出了Textrgnn,一种改进的GNN结构,它引入了剩余连接以加深卷积网络深度。我们的结构可以获得更广泛的节点接收领域,有效地抑制节点特征的过平滑。此外,我们将概率语言模型集成到图形节点嵌入的初始化中,从而可以更好地提取非图形语义信息。实验结果表明,我们的模型是一般和高效的。无论是语料库级别还是文本级别,它都可以显着提高分类准确性,并在各种文本分类数据集中实现SOTA性能。
translated by 谷歌翻译
来自视频的行动质量评估(AQA)是一个具有挑战性的愿景任务,因为视频和行动分数之间的关系很难模拟。因此,文献中已广泛研究了行动质量评估。传统上,AQA任务被视为回归问题,以了解视频和动作分数之间的底层映射。最近,由于引入标签分配学习(LDL),不确定分数分配学习(USDL)的方法取得了成功。但USDL不适用于具有连续标签的数据集,需要在培训方面进行固定的差异。在本文中,为了解决上述问题,我们进一步开发了分发自动编码器(DAE)。 DAE采用回归算法和标签分发学习(LDL)的两者。特殊地,它将视频编码为分布,并使用变分自动编码器(VAE)中的Reparameterization技巧来进行采样分数,这在视频和分数之间建立更准确的映射。同时,建造了综合损失以加速DAE的训练。进一步提出DAE-MT以在多任务数据集上处理AQA。我们在MTL-AQA和拼图数据集中评估我们的DAE方法。公共数据集上的实验结果表明,我们的方法在Spearman的秩相关下实现了最先进的:0.9449对MTL-AQA和0.73的拼图。
translated by 谷歌翻译
To generate high quality rendering images for real time applications, it is often to trace only a few samples-per-pixel (spp) at a lower resolution and then supersample to the high resolution. Based on the observation that the rendered pixels at a low resolution are typically highly aliased, we present a novel method for neural supersampling based on ray tracing 1/4-spp samples at the high resolution. Our key insight is that the ray-traced samples at the target resolution are accurate and reliable, which makes the supersampling an interpolation problem. We present a mask-reinforced neural network to reconstruct and interpolate high-quality image sequences. First, a novel temporal accumulation network is introduced to compute the correlation between current and previous features to significantly improve their temporal stability. Then a reconstruct network based on a multi-scale U-Net with skip connections is adopted for reconstruction and generation of the desired high-resolution image. Experimental results and comparisons have shown that our proposed method can generate higher quality results of supersampling, without increasing the total number of ray-tracing samples, over current state-of-the-art methods.
translated by 谷歌翻译
Representing and synthesizing novel views in real-world dynamic scenes from casual monocular videos is a long-standing problem. Existing solutions typically approach dynamic scenes by applying geometry techniques or utilizing temporal information between several adjacent frames without considering the underlying background distribution in the entire scene or the transmittance over the ray dimension, limiting their performance on static and occlusion areas. Our approach $\textbf{D}$istribution-$\textbf{D}$riven neural radiance fields offers high-quality view synthesis and a 3D solution to $\textbf{D}$etach the background from the entire $\textbf{D}$ynamic scene, which is called $\text{D}^4$NeRF. Specifically, it employs a neural representation to capture the scene distribution in the static background and a 6D-input NeRF to represent dynamic objects, respectively. Each ray sample is given an additional occlusion weight to indicate the transmittance lying in the static and dynamic components. We evaluate $\text{D}^4$NeRF on public dynamic scenes and our urban driving scenes acquired from an autonomous-driving dataset. Extensive experiments demonstrate that our approach outperforms previous methods in rendering texture details and motion areas while also producing a clean static background. Our code will be released at https://github.com/Luciferbobo/D4NeRF.
translated by 谷歌翻译