与多标签学习相反,标签分布学习通过标签分布来表征示例的多义,以代表更丰富的语义。在标签分布的学习过程中,培训数据主要是通过手动注释或标签增强算法来生成标签分布的。不幸的是,手动注释任务的复杂性或标签增强算法的不准确性导致标签分布训练集中的噪声和不确定性。为了减轻此问题,我们在标签分布学习框架中介绍了隐式分布,以表征每个标签值的不确定性。具体而言,我们使用深层隐式表示学习来构建具有高斯先前约束的标签分布矩阵,其中每个行组件对应于每个标签值的分布估计,并且该行组件受到先验的高斯分布来限制以调节噪声和不确定性标签分布数据集的干扰。最后,通过使用自我注意力算法将标签分布矩阵的每个行分量转换为标准标签分布形式。此外,在训练阶段进行了一些具有正则化特征的方法,以提高模型的性能。
translated by 谷歌翻译
图形卷积网络(GCN)由于学习图信息的显着表示能力而实现了令人印象深刻的性能。但是,GCN在深网上实施时需要昂贵的计算功率,因此很难将其部署在电池供电的设备上。相比之下,执行生物保真推理过程的尖峰神经网络(SNN)提供了节能的神经结构。在这项工作中,我们提出了SpikingGCN,这是一个端到端框架,旨在将GCN的嵌入与SNN的生物层性特征相结合。原始图数据根据图形卷积的合并编码为尖峰列车。我们通过利用与神经元节点结合的完全连接的层来进一步对生物信息处理进行建模。在各种场景(例如引用网络,图像图分类和推荐系统)中,我们的实验结果表明,该方法可以针对最新方法获得竞争性能。此外,我们表明,在神经形态芯片上的SpikingGCN可以将能源效率的明显优势带入图形数据分析中,这表明了其构建环境友好的机器学习模型的巨大潜力。
translated by 谷歌翻译
当前,基于变压器的算法正在在图像脱张的域中引起飞溅。它们的成就取决于CNN茎的自我发挥机制,以模拟令牌之间的长距离依赖性。不幸的是,这种令人愉悦的管道引入了较高的计算复杂性,因此很难实时在单个GPU上运行超高定义图像。为了取消准确性和效率,在没有自我注意力的机制的情况下,在三维($ c $,$ w $和$ h $)信号的三维($ c $,$ w $和$ h $)信号上周期性计算的输入降级图像进行了计算。我们将此深层网络称为多尺度立方混合物,在快速傅立叶变换后,它在真实和虚构的组件上都作用,以估计傅立叶系数,从而获得脱毛的图像。此外,我们将多尺度立方混合物与切片策略相结合,以低得多的计算成本产生高质量结果。实验结果表明,所提出的算法对几个基准的最先进的脱蓝色方法和在精度和速度方面的新超高定义数据集有利。
translated by 谷歌翻译
Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
尽管神经形态计算的快速进展,但尖刺神经网络(SNNS)的能力不足和不足的表现力严重限制了其在实践中的应用范围。剩余学习和捷径被证明是培训深层神经网络的重要方法,但以前的工作评估了他们对基于尖峰的通信和时空动力学的特征的适用性。在本文中,我们首先确定这种疏忽导致受阻信息流程和伴随以前的残留SNN中的降解问题。然后,我们提出了一种新型的SNN定向的残余块MS-Reset,能够显着地扩展直接训练的SNN的深度,例如,在ImageNet上最多可在CiFar-10和104层上完成482层,而不会观察到任何轻微的降级问题。我们验证了基于帧和神经形态数据集的MS-Reset的有效性,并且MS-Resnet104在直接训练的SNN的域中的第一次实现了在ImageNet上的76.02%精度的优越结果。还观察到巨大的能量效率,平均仅需要每根神经元的一穗来分类输入样本。我们相信我们强大且可扩展的型号将为进一步探索SNN提供强大的支持。
translated by 谷歌翻译
Tactile sensing is essential for a variety of daily tasks. And recent advances in event-driven tactile sensors and Spiking Neural Networks (SNNs) spur the research in related fields. However, SNN-enabled event-driven tactile learning is still in its infancy due to the limited representation abilities of existing spiking neurons and high spatio-temporal complexity in the event-driven tactile data. In this paper, to improve the representation capability of existing spiking neurons, we propose a novel neuron model called "location spiking neuron", which enables us to extract features of event-based data in a novel way. Specifically, based on the classical Time Spike Response Model (TSRM), we develop the Location Spike Response Model (LSRM). In addition, based on the most commonly-used Time Leaky Integrate-and-Fire (TLIF) model, we develop the Location Leaky Integrate-and-Fire (LLIF) model. Moreover, to demonstrate the representation effectiveness of our proposed neurons and capture the complex spatio-temporal dependencies in the event-driven tactile data, we exploit the location spiking neurons to propose two hybrid models for event-driven tactile learning. Specifically, the first hybrid model combines a fully-connected SNN with TSRM neurons and a fully-connected SNN with LSRM neurons. And the second hybrid model fuses the spatial spiking graph neural network with TLIF neurons and the temporal spiking graph neural network with LLIF neurons. Extensive experiments demonstrate the significant improvements of our models over the state-of-the-art methods on event-driven tactile learning. Moreover, compared to the counterpart artificial neural networks (ANNs), our SNN models are 10x to 100x energy-efficient, which shows the superior energy efficiency of our models and may bring new opportunities to the spike-based learning community and neuromorphic engineering.
translated by 谷歌翻译
Facial attractiveness prediction (FAP) aims to assess the facial attractiveness automatically based on human aesthetic perception. Previous methods using deep convolutional neural networks have boosted the performance, but their giant models lead to a deficiency in flexibility. Besides, most of them fail to take full advantage of the dataset. In this paper, we present a novel end-to-end FAP approach integrating dual label distribution and lightweight design. To make the best use of the dataset, the manual ratings, attractiveness score, and standard deviation are aggregated explicitly to construct a dual label distribution, including the attractiveness distribution and the rating distribution. Such distributions, as well as the attractiveness score, are optimized under a joint learning framework based on the label distribution learning (LDL) paradigm. As for the lightweight design, the data processing is simplified to minimum, and MobileNetV2 is selected as our backbone. Extensive experiments are conducted on two benchmark datasets, where our approach achieves promising results and succeeds in striking a balance between performance and efficiency. Ablation studies demonstrate that our delicately designed learning modules are indispensable and correlated. Additionally, the visualization indicates that our approach is capable of perceiving facial attractiveness and capturing attractive facial regions to facilitate semantic predictions.
translated by 谷歌翻译
从大脑的事件驱动和稀疏的尖峰特征中受益,尖峰神经网络(SNN)已成为人工神经网络(ANN)的一种节能替代品。但是,SNNS和ANN之间的性能差距很长一段时间以来一直在延伸SNNS。为了利用SNN的全部潜力,我们研究了SNN中注意机制的影响。我们首先使用插件套件提出了我们的注意力,称为多维关注(MA)。然后,提出了一种新的注意力SNN体系结构,并提出了端到端训练,称为“ ma-snn”,该体系结构分别或同时或同时延伸了沿时间,通道以及空间维度的注意力重量。基于现有的神经科学理论,我们利用注意力重量来优化膜电位,进而以数据依赖性方式调节尖峰响应。 MA以可忽略的其他参数为代价,促进了香草SNN,以实现更稀疏的尖峰活动,更好的性能和能源效率。实验是在基于事件的DVS128手势/步态动作识别和Imagenet-1K图像分类中进行的。在手势/步态上,尖峰计数减少了84.9%/81.6%,任务准确性和能源效率提高了5.9%/4.7%和3.4 $ \ times $/3.2 $ \ times $。在ImagEnet-1K上,我们在单个/4步res-SNN-104上获得了75.92%和77.08%的TOP-1精度,这是SNN的最新结果。据我们所知,这是SNN社区与大规模数据集中的ANN相比,SNN社区取得了可比甚至更好的性能。我们的工作阐明了SNN作为支持SNN的各种应用程序的一般骨干的潜力,在有效性和效率之间取得了巨大平衡。
translated by 谷歌翻译
使用卷积神经网络,面部属性(例如,年龄和吸引力)估算性能得到了大大提高。然而,现有方法在培训目标和评估度量之间存在不一致,因此它们可能是次优。此外,这些方法始终采用具有大量参数的图像分类或面部识别模型,其携带昂贵的计算成本和存储开销。在本文中,我们首先分析了两种最新方法(排名CNN和DLDL)之间的基本关系,并表明排名方法实际上是隐含的学习标签分布。因此,该结果首先将两个现有的最新方法统一到DLDL框架中。其次,为了减轻不一致和降低资源消耗,我们设计了一种轻量级网络架构,并提出了一个统一的框架,可以共同学习面部属性分发和回归属性值。在面部年龄和吸引力估算任务中都证明了我们的方法的有效性。我们的方法使用单一模型实现新的最先进的结果,使用36美元\倍,参数减少3美元,在面部年龄/吸引力估算上的推动速度为3美元。此外,即使参数的数量进一步降低到0.9m(3.8MB磁盘存储),我们的方法也可以实现与最先进的结果。
translated by 谷歌翻译
数据增强已广泛用于图像数据和语言数据,但仍然探索图形神经网络(GNN)。现有方法专注于从全局视角增强图表数据,并大大属于两个类型:具有特征噪声注入的结构操纵和对抗训练。但是,最近的图表数据增强方法忽略了GNNS“消息传递机制的本地信息的重要性。在这项工作中,我们介绍了本地增强,这通过其子图结构增强了节点表示的局部。具体而言,我们将数据增强模拟为特征生成过程。鉴于节点的功能,我们的本地增强方法了解其邻居功能的条件分布,并生成更多邻居功能,以提高下游任务的性能。基于本地增强,我们进一步设计了一个新颖的框架:La-GNN,可以以即插即用的方式应用于任何GNN模型。广泛的实验和分析表明,局部增强一致地对各种基准的各种GNN架构始终如一地产生性能改进。
translated by 谷歌翻译
由于其强大的时空信息表示能力,尖峰神经网络(SNN)引起了很多关注。胶囊神经网络(CAPSNET)在不同级别的组装和耦合功能方面做得好。在这里,我们通过将胶囊引入尖刺神经网络的建模来提出尖峰帽。此外,我们提出了更具生物合理的尖峰定时依赖性可塑性路线机构。通过充分考虑低水平尖峰胶囊与高级尖峰胶囊之间的时空关系,它们之间的耦合能力进一步提高。我们在Mnist和FashionMnist数据集上进行了验证的实验。与其他优秀的SNN模型相比,我们的算法仍然实现了高性能。我们的尖峰帽完全结合了SNN和Capsnet的增强,并对噪声和仿射变换表现出强大的稳健性。通过向测试数据集添加不同的盐胡椒和高斯噪声,实验结果表明,当有更多的噪音时,我们的尖峰帽显示出更强大的性能,而人工神经网络无法正确澄清。同样,我们的尖峰帽显示出强烈的概括,可以在漂式数据集上仿射转换。
translated by 谷歌翻译
用尖峰神经网络(SNN)对基于事件的数据集开发神经形态智能最近引起了很多研究的关注。但是,基于事件的数据集的大小有限,使SNN易于过度拟合和不稳定的收敛性。以前的学术工作仍未探索这个问题。为了最大程度地减少这种泛化差距,我们提出了神经形态数据增强(NDA),这是一个专门针对基于事件的数据集设计的几何增强家族,目的是显着稳定SNN训练并减少训练和测试性能之间的概括差距。所提出的方法简单且与现有的SNN训练管道兼容。我们首次使用所提出的增强作用,证明了无监督的SNN对比度学习的可行性。我们对盛行的神经形态视觉基准进行了全面的实验,并表明NDA比以前的最新结果产生了实质性改进。例如,基于NDA的SNN分别在CIFAR10-DV和N-Caltech 101上获得了101%和13.7%的准确性增长。代码可在github https://github.com/intelligent-computing-lab-yale/nda_snn上找到。
translated by 谷歌翻译
图形结构的数据集通常具有不规则的图表尺寸和连接,渲染使用最近的数据增强技术,例如混合,困难。为了解决这一挑战,我们在名为曲线图移植的图形级别提供了第一个混合图形增强方法,其在数据空间中混合了不规则图。要在图形的各种尺度上定义,我们的方法将子结构标识为可以保留本地信息的混合单元。由于没有特殊考虑上下文的​​基于混合的方法易于产生噪声样本,因此我们的方法明确地使用节点显着信息来选择有意义的子图并自适应地确定标签。我们在多个图形分类基准数据集中广泛地验证了我们多样化的GNN架构,来自不同尺寸的各种图形域。实验结果显示了我们对其他基本数据增强基线的方法的一致优势。我们还证明了曲线图移植在鲁棒性和模型校准方面提高了性能。
translated by 谷歌翻译
多标签遥感图像分类(MLRSIC)已获得越来越多的研究兴趣。将多个标签的辅助关系作为其他信息有助于提高此任务的性能。当前方法着重于使用它来限制卷积神经网络(CNN)的最终功能输出。一方面,这些方法不会充分利用标签相关来形成特征表示。另一方面,它们增加了系统的标签噪声灵敏度,导致稳健性差。在本文中,提出了一种称为语义交织的全球通道注意(Signa)的新颖方法。首先,根据数据集的统计信息获得标签共发生图。标签共发生图用作图形神经网络(GNN)的输入,以生成最佳特征表示。然后,语义特征和视觉特征交错,以指导图像从原始特征空间到具有嵌入式标签关系的语义特征空间的特征表达。 Signa在新的语义特征空间中触发了特征地图通道的全球关注,以提取更重要的视觉特征。提出了基于多头签名的功能自适应加权网络,以插件的方式对任何CNN作用。对于遥感图像,可以通过将CNN插入浅层层来实现更好的分类性能。我们对三个数据集进行了广泛的实验比较:UCM数据集,AID数据集和DFC15数据集。实验结果表明,与最新方法(SOTA)方法相比,所提出的Signa具有出色的分类性能。值得一提的是,本文的代码将向社区开放,以进行可重复性研究。我们的代码可在https://github.com/kyle-one/signa上找到。
translated by 谷歌翻译
Deep models for facial expression recognition achieve high performance by training on large-scale labeled data. However, publicly available datasets contain uncertain facial expressions caused by ambiguous annotations or confusing emotions, which could severely decline the robustness. Previous studies usually follow the bias elimination method in general tasks without considering the uncertainty problem from the perspective of different corresponding sources. In this paper, we propose a novel method of multi-task assisted correction in addressing uncertain facial expression recognition called MTAC. Specifically, a confidence estimation block and a weighted regularization module are applied to highlight solid samples and suppress uncertain samples in every batch. In addition, two auxiliary tasks, i.e., action unit detection and valence-arousal measurement, are introduced to learn semantic distributions from a data-driven AU graph and mitigate category imbalance based on latent dependencies between discrete and continuous emotions, respectively. Moreover, a re-labeling strategy guided by feature-level similarity constraint further generates new labels for identified uncertain samples to promote model learning. The proposed method can flexibly combine with existing frameworks in a fully-supervised or weakly-supervised manner. Experiments on RAF-DB, AffectNet, and AffWild2 datasets demonstrate that the MTAC obtains substantial improvements over baselines when facing synthetic and real uncertainties and outperforms the state-of-the-art methods.
translated by 谷歌翻译
Spiking Neural networks (SNN) have emerged as an attractive spatio-temporal computing paradigm for a wide range of low-power vision tasks. However, state-of-the-art (SOTA) SNN models either incur multiple time steps which hinder their deployment in real-time use cases or increase the training complexity significantly. To mitigate this concern, we present a training framework (from scratch) for one-time-step SNNs that uses a novel variant of the recently proposed Hoyer regularizer. We estimate the threshold of each SNN layer as the Hoyer extremum of a clipped version of its activation map, where the clipping threshold is trained using gradient descent with our Hoyer regularizer. This approach not only downscales the value of the trainable threshold, thereby emitting a large number of spikes for weight update with a limited number of iterations (due to only one time step) but also shifts the membrane potential values away from the threshold, thereby mitigating the effect of noise that can degrade the SNN accuracy. Our approach outperforms existing spiking, binary, and adder neural networks in terms of the accuracy-FLOPs trade-off for complex image recognition tasks. Downstream experiments on object detection also demonstrate the efficacy of our approach.
translated by 谷歌翻译
可以通过对手动预定义目标的监督(例如,一hot或Hadamard代码)进行深入的表示学习来解决细粒度的视觉分类。这种目标编码方案对于模型间相关性的灵活性较小,并且对稀疏和不平衡的数据分布也很敏感。鉴于此,本文介绍了一种新颖的目标编码方案 - 动态目标关系图(DTRG),作为辅助特征正则化,是一个自生成的结构输出,可根据输入图像映射。具体而言,类级特征中心的在线计算旨在在表示空间中生成跨类别距离,因此可以通过非参数方式通过动态图来描绘。明确最大程度地减少锚定在这些级别中心的阶层内特征变化可以鼓励学习判别特征。此外,由于利用了类间的依赖性,提出的目标图可以减轻代表学习中的数据稀疏性和不稳定。受混合风格数据增强的最新成功的启发,本文将随机性引入了动态目标关系图的软结构,以进一步探索目标类别的关系多样性。实验结果可以证明我们方法对多个视觉分类任务的许多不同基准的有效性,尤其是在流行的细粒对象基准上实现最先进的性能以及针对稀疏和不平衡数据的出色鲁棒性。源代码可在https://github.com/akonlau/dtrg上公开提供。
translated by 谷歌翻译
由于具有高生物学合理性和低能消耗在神经形态硬件上的特性,因此尖峰神经网络(SNN)非常重要。作为获得深SNN的有效方法,转化方法在各种大型数据集上表现出高性能。但是,它通常遭受严重的性能降解和高时间延迟。特别是,以前的大多数工作都集中在简单的分类任务上,同时忽略了与ANN输出的精确近似。在本文中,我们首先从理论上分析转换误差,并得出时间变化极端对突触电流的有害影响。我们提出尖峰校准(Spicalib),以消除离散尖峰对输出分布的损坏,并修改脂肪,以使任意最大化层无损地转换。此外,提出了针对最佳标准化参数的贝叶斯优化,以避免经验设置。实验结果证明了分类,对象检测和分割任务的最新性能。据我们所知,这是第一次获得与ANN同时在这些任务上相当的SNN。此外,我们只需要先前在检测任务上工作的1/50推理时间,并且可以在0.492 $ \ times $ $下在分段任务上实现相同的性能。
translated by 谷歌翻译
尖峰神经网络(SNNS)是一种实用方法,可以通过模拟神经元对时间信息的杠杆作用来进行更高的数据有效学习。在本文中,我们提出了时间通道联合注意(TCJA)架构单元,这是一种有效的SNN技术,依赖于注意机制,通过有效地沿空间和时间维度沿着尖峰序列的相关性来实现。我们的基本技术贡献在于:1)通过采用挤压操作,将尖峰流压缩为平均矩阵,然后使用具有高效1-D卷积的两种局部注意机制来建立时间和渠道关系,以在频道和渠道关系中进行特征提取灵活的时尚。 2)利用交叉卷积融合(CCF)层在时间范围和通道范围之间建模相互依赖性,从而破坏了两个维度的独立性,并实现了特征之间的相互作用。通过共同探索和重新启用数据流,我们的方法在所有测试的主流静态和神经形态数据集上,在包括时尚量的所有测试的主流静态数据集上,最高可先进的(SOTA)高达15.7% ,CIFAR10-DVS,N-Caltech 101和DVS128手势。
translated by 谷歌翻译
人类的情感认可是人工智能的积极研究领域,在过去几年中取得了实质性的进展。许多最近的作品主要关注面部区域以推断人类的情感,而周围的上下文信息没有有效地利用。在本文中,我们提出了一种新的深网络,有效地识别使用新的全球局部注意机制的人类情绪。我们的网络旨在独立地从两个面部和上下文区域提取特征,然后使用注意模块一起学习它们。以这种方式,面部和上下文信息都用于推断人类的情绪,从而增强分类器的歧视。密集实验表明,我们的方法超越了最近的最先进的方法,最近的情感数据集是公平的保证金。定性地,我们的全球局部注意力模块可以提取比以前的方法更有意义的注意图。我们网络的源代码和培训模型可在https://github.com/minhnhatvt/glamor-net上获得
translated by 谷歌翻译