Weakly supervised semantic segmentation is typically inspired by class activation maps, which serve as pseudo masks with class-discriminative regions highlighted. Although tremendous efforts have been made to recall precise and complete locations for each class, existing methods still commonly suffer from the unsolicited Out-of-Candidate (OC) error predictions that not belongs to the label candidates, which could be avoidable since the contradiction with image-level class tags is easy to be detected. In this paper, we develop a group ranking-based Out-of-Candidate Rectification (OCR) mechanism in a plug-and-play fashion. Firstly, we adaptively split the semantic categories into In-Candidate (IC) and OC groups for each OC pixel according to their prior annotation correlation and posterior prediction correlation. Then, we derive a differentiable rectification loss to force OC pixels to shift to the IC group. Incorporating our OCR with seminal baselines (e.g., AffinityNet, SEAM, MCTformer), we can achieve remarkable performance gains on both Pascal VOC (+3.2%, +3.3%, +0.8% mIoU) and MS COCO (+1.0%, +1.3%, +0.5% mIoU) datasets with negligible extra training overhead, which justifies the effectiveness and generality of our OCR.
translated by 谷歌翻译
The success of state-of-the-art deep neural networks heavily relies on the presence of large-scale labelled datasets, which are extremely expensive and time-consuming to annotate. This paper focuses on tackling semi-supervised part segmentation tasks by generating high-quality images with a pre-trained GAN and labelling the generated images with an automatic annotator. In particular, we formulate the annotator learning as a learning-to-learn problem. Given a pre-trained GAN, the annotator learns to label object parts in a set of randomly generated images such that a part segmentation model trained on these synthetic images with their predicted labels obtains low segmentation error on a small validation set of manually labelled images. We further reduce this nested-loop optimization problem to a simple gradient matching problem and efficiently solve it with an iterative algorithm. We show that our method can learn annotators from a broad range of labelled images including real images, generated images, and even analytically rendered images. Our method is evaluated with semi-supervised part segmentation tasks and significantly outperforms other semi-supervised competitors when the amount of labelled examples is extremely limited.
translated by 谷歌翻译
In recent years, generative adversarial networks (GANs) have been an actively studied topic and shown to successfully produce high-quality realistic images in various domains. The controllable synthesis ability of GAN generators suggests that they maintain informative, disentangled, and explainable image representations, but leveraging and transferring their representations to downstream tasks is largely unexplored. In this paper, we propose to distill knowledge from GAN generators by squeezing and spanning their representations. We squeeze the generator features into representations that are invariant to semantic-preserving transformations through a network before they are distilled into the student network. We span the distilled representation of the synthetic domain to the real domain by also using real training data to remedy the mode collapse of GANs and boost the student network performance in a real domain. Experiments justify the efficacy of our method and reveal its great significance in self-supervised representation learning. Code is available at https://github.com/yangyu12/squeeze-and-span.
translated by 谷歌翻译
拓扑不平衡是由标记节点的不均匀拓扑位置引起的一个特异性不平衡问题,它大大损害了GNN的性能。什么拓扑不平衡意味着如何衡量其对图形学习的影响。在本文中,从全球视图中,我们对监督信息分布的全球视图提供了对拓扑 - 不平衡的新理解,从不足和过度划分的角度来看,这激发了两个定量指标作为测量。鉴于我们的分析,我们提出了一个新颖的位置感知的图形结构学习框架,该框架名为柔和,该框架直接优化了信息传播路径并解决了本质上解决拓扑 - 不平衡问题。我们的关键见解是增强同一类中节点的连接性,以获取更多的监督信息,从而减轻不足和过度的现象。具体而言,我们设计了一个基于锚的位置编码机制,该机制可以更好地结合相对拓扑位置并通过最大化标签影响来增强类内部电感偏置。我们进一步提出了作为边缘权重的阶级冲突度量,这有利于不同节点类别的分离。广泛的实验表明,在不同的数据注释方案中增强GNNS的功率方面,柔和的能力具有较高的潜力和适应性。
translated by 谷歌翻译
预测历史姿势序列的人类运动对于机器具有成功与人类智能相互作用的关键。到目前为止已经避免的一个方面是,我们代表骨骼姿势的事实是对预测结果的关键影响。然而,没有努力调查不同的姿势代表方案。我们对各种姿势表示进行了深入研究,重点关注它们对运动预测任务的影响。此外,最近的方法在现成的RNN单位上构建,用于运动预测。这些方法在捕获长期依赖性方面,顺序地并固有地具有困难。在本文中,我们提出了一种新颖的RNN架构,用于运动预测的AHMR(殷勤分层运动复发网络),其同时模拟局部运动上下文和全局上下文。我们进一步探索了运动预测任务的测地损失和前向运动学损失,其具有比广泛采用的L2损耗更多的几何意义。有趣的是,我们将我们的方法应用于一系列铰接物对象,包括人类,鱼类和鼠标。经验结果表明,我们的方法在短期预测中占据了最先进的方法,实现了大量增强的长期预测熟练程度,例如在50秒的预测中保留自然人样的运动。我们的代码已发布。
translated by 谷歌翻译
深度神经网络(DNN)已经证明了他们在各种域中的表现。但是,它提出了社会问题,如果他们适用于涉及有价值的资源分配的敏感域,如教育,贷款和就业,则会引发社会问题。在DNN可靠地部署到这样的敏感域之前,执行公平性测试至关重要,即,尽可能多地生成以发现公平违规的情况。然而,现有的测试方法仍然有限于三个方面:可解释性,性能和概括性。为了克服挑战,我们提出了一个新的DNN公平测试框架,与以前的工作不同于在几个关键方面的内容:(1)可解释 - 它定量解释DNNS的公平违反偏见决定的公平违规; (2)有效 - 它使用解释结果在更少的时间内引导更多样化的情况; (3)通用 - 它可以处理结构化和非结构化数据。在7个数据集中的广泛评估和相应的DNN展示了神经元的优越性。例如,在结构化数据集上,它会产生更多的实例(〜x5.84)并节省更多时间(平均加速度为534.56%),与最先进的方法相比。此外,还可以利用神经元的情况来改善偏置DNN的公平,这有助于构建更公平和值得信赖的深度学习系统。
translated by 谷歌翻译
图形神经网络(GNNS)在广泛的应用方面显示了有希望的结果。 GNN的大多数实证研究直接将观察图视为输入,假设观察到的结构完美地描绘了节点之间的准确性和完全关系。然而,现实世界中的图形是不可避免的或不完整的,甚至可以加剧图表表示的质量。在这项工作中,我们提出了一种新颖的变分信息瓶颈引导图形结构学习框架,即vib-gsl,在信息理论的角度下。 VIB-GSL推进了图形结构学习的信息瓶颈(IB)原则,为挖掘潜在的任务关系提供了更优雅且普遍的框架。 VIB-GSL了解一个信息和压缩图形结构,用于蒸馏出特定的下游任务的可操作信息。 VIB-GSL为不规则图数据推导了变化近似,以形成促进训练稳定性的易切换IB目标函数。广泛的实验结果表明,VIB-GSL的卓越有效性和鲁棒性。
translated by 谷歌翻译
神经科学领域的研究揭示了情绪模式和脑功能区域之间的关系,展示了不同脑区之间的动态关系是影响通过脑电图(EEG)确定的情绪识别的必要因素。此外,在脑电情绪识别中,我们可以观察到,基于相同的脑电图数据,我们可以观察到粗粒情绪之间的粗粒情绪之间的边界;这表明大型粗糙和小细粒度情绪变化的同意。因此,来自粗糙到细粒度类别的渐进分类过程可能有助于EEG情绪识别。因此,在本研究中,我们提出了一种逐步的图表卷积网络(PGCN),用于捕获EEG情绪信号中的这种固有特性,并逐步学习鉴别性EEG特征。为了适应不同的EEG模式,我们构建了一个双图模块,以表征不同EEG通道之间的内在关系,其中包含神经科学研究的动态功能连接和脑区的静态空间接近信息。此外,通过观察粗糙和细粒度的情绪之间的关系,我们采用双头模块,使PGCN能够逐步了解更多辨别性EEG特征,从粗粒(简单)到细粒度的类别(困难),参考情绪的分层特征。为了验证我们模型的性能,在两个公共数据集中进行了广泛的实验:种子-46和多模态生理情绪数据库(MPED)。
translated by 谷歌翻译
本文认为共同解决估计3D人体的高度相关任务,并从RGB图像序列预测未来的3D运动。基于Lie代数姿势表示,提出了一种新的自投影机制,自然保留了人类运动运动学。通过基于编码器 - 解码器拓扑的序列到序列的多任务架构进一步促进了这一点,这使我们能够利用两个任务共享的公共场所。最后,提出了一个全球细化模块来提高框架的性能。我们的方法称为PoMomemet的效力是通过消融测试和人文3.6M和Humaneva-I基准的实证评估,从而获得与最先进的竞争性能。
translated by 谷歌翻译
联合学习(FL)支持地理分布式设备的培训模型。然而,传统的FL系统采用集中式同步策略,提高了高通信压力和模型泛化挑战。 FL的现有优化未能加速异构设备的培训或遭受差的通信效率。在本文中,我们提出了一个支持在异构设备上分散的异步训练的框架的Hadfl。使用本地数据的异质性感知本地步骤本地培训设备。在每个聚合循环中,基于执行模型同步和聚合的概率来选择它们。与传统的FL系统相比,HADFL可以减轻中心服务器的通信压力,有效地利用异构计算能力,并且可以分别实现比Pytorch分布式训练方案分别的最大加速度为3.15倍,而不是Pytorch分布式训练方案,几乎没有损失收敛准确性。
translated by 谷歌翻译