Recent advances on text-to-image generation have witnessed the rise of diffusion models which act as powerful generative models. Nevertheless, it is not trivial to exploit such latent variable models to capture the dependency among discrete words and meanwhile pursue complex visual-language alignment in image captioning. In this paper, we break the deeply rooted conventions in learning Transformer-based encoder-decoder, and propose a new diffusion model based paradigm tailored for image captioning, namely Semantic-Conditional Diffusion Networks (SCD-Net). Technically, for each input image, we first search the semantically relevant sentences via cross-modal retrieval model to convey the comprehensive semantic information. The rich semantics are further regarded as semantic prior to trigger the learning of Diffusion Transformer, which produces the output sentence in a diffusion process. In SCD-Net, multiple Diffusion Transformer structures are stacked to progressively strengthen the output sentence with better visional-language alignment and linguistical coherence in a cascaded manner. Furthermore, to stabilize the diffusion process, a new self-critical sequence training strategy is designed to guide the learning of SCD-Net with the knowledge of a standard autoregressive Transformer model. Extensive experiments on COCO dataset demonstrate the promising potential of using diffusion models in the challenging image captioning task. Source code is available at \url{https://github.com/YehLi/xmodaler/tree/master/configs/image_caption/scdnet}.
translated by 谷歌翻译
Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
As the demand for user privacy grows, controlled data removal (machine unlearning) is becoming an important feature of machine learning models for data-sensitive Web applications such as social networks and recommender systems. Nevertheless, at this point it is still largely unknown how to perform efficient machine unlearning of graph neural networks (GNNs); this is especially the case when the number of training samples is small, in which case unlearning can seriously compromise the performance of the model. To address this issue, we initiate the study of unlearning the Graph Scattering Transform (GST), a mathematical framework that is efficient, provably stable under feature or graph topology perturbations, and offers graph classification performance comparable to that of GNNs. Our main contribution is the first known nonlinear approximate graph unlearning method based on GSTs. Our second contribution is a theoretical analysis of the computational complexity of the proposed unlearning mechanism, which is hard to replicate for deep neural networks. Our third contribution are extensive simulation results which show that, compared to complete retraining of GNNs after each removal request, the new GST-based approach offers, on average, a $10.38$x speed-up and leads to a $2.6$% increase in test accuracy during unlearning of $90$ out of $100$ training graphs from the IMDB dataset ($10$% training ratio).
translated by 谷歌翻译
异常检测任务在AI安全中起着至关重要的作用。处理这项任务存在巨大的挑战。观察结果表明,深度神经网络分类器通常倾向于以高信心将分布(OOD)输入分为分配类别。现有的工作试图通过在培训期间向分类器暴露于分类器时明确对分类器施加不确定性来解决问题。在本文中,我们提出了一种替代概率范式,该范式实际上对OOD检测任务既有用,又可行。特别是,我们在培训过程中施加了近距离和离群数据之间的统计独立性,以确保inlier数据在培训期间向深度估计器显示有关OOD数据的信息很少。具体而言,我们通过Hilbert-Schmidt独立标准(HSIC)估算了Inlier和离群数据之间的统计依赖性,并在培训期间对此类度量进行了惩罚。我们还将方法与推理期间的新型统计测试相关联,加上我们的原则动机。经验结果表明,我们的方法对各种基准测试的OOD检测是有效且可靠的。与SOTA模型相比,我们的方法在FPR95,AUROC和AUPR指标方面取得了重大改进。代码可用:\ url {https://github.com/jylins/hone}。
translated by 谷歌翻译
作为一般类型的机器学习方法,人工神经网络已在许多模式识别和数据分析任务中建立了最先进的基准。在各种神经网络体系结构中,多项式神经网络(PNN)最近已证明可以通过神经切线核分析进行分析,并且在图像生成和面部识别方面尤其有效。但是,获得对PNNS的计算和样本复杂性的理论见解仍然是一个开放的问题。在本文中,我们将先前文献中的分析扩展到PNN,并获得有关PNNS样品复杂性的新结果,该结果在解释PNN的概括能力方面提供了一些见解。
translated by 谷歌翻译
现有视频超分辨率(VSR)算法的成功主要是从相邻框架中利用时间信息。但是,这些方法都没有讨论带有固定物体和背景的贴片中时间冗余的影响,并且通常使用相邻框架中的所有信息而没有任何歧视。在本文中,我们观察到时间冗余将对信息传播产生不利影响,这限制了最现有的VSR方法的性能。在这一观察结果的推动下,我们旨在通过以优化的方式处理时间冗余贴片来改善现有的VSR算法。我们开发了两种简单但有效的插件方法,以提高广泛使用的公共视频中现有的本地和非本地传播算法的性能。为了更全面地评估现有VSR算法的鲁棒性和性能,我们还收集了一个新数据集,其中包含各种公共视频作为测试集。广泛的评估表明,所提出的方法可以显着提高野生场景中收集的视频的现有VSR方法的性能,同时保持其在现有常用数据集上的性能。该代码可在https://github.com/hyhsimon/boosted-vsr上找到。
translated by 谷歌翻译
最近,基于生理信号的生物识别系统已受到广泛关注。与传统的生物特征特征不同,生理信号不容易被妥协(通常对人眼无法观察)。光杀解物学(PPG)信号易于测量,使其比许多其他用于生物特征验证的生理信号更具吸引力。但是,随着远程PPG(RPPG)的出现,当攻击者可以通过监视受害者的脸部远程窃取RPPG信号时,挑战不可观察,随后对基于PPG的生物识别构成威胁。在基于PPG的生物识别身份验证中,当前的攻击方法要求受害者的PPG信号,从而忽略了基于RPPG的攻击。在本文中,我们首先分析基于PPG的生物识别技术的安全性,包括用户身份验证和通信协议。我们评估了通过五种RPPG方法提取的信号波形,心率和脉冲间间隔信息,包括四种传统的光学计算方法(Chrom,POS,LGI,PCA)和一种深度学习方法(CL_RPPG)。我们在五个数据集(Pure,UBFC_RPPG,UBFC_PHYS,LGI_PPGI和COHFACE)上进行了实验,以收集一系列全面的结果集。我们的实证研究表明,RPPG对身份验证系统构成了严重威胁。用户身份验证系统中RPPG信号欺骗攻击的成功率达到0.35。基于脉冲间间隔的安全协议中的位命中率为0.6。此外,我们提出了一种积极的防御策略,以隐藏面部的生理信号以抵抗攻击。它将用户身份验证中RPPG欺骗攻击的成功率降低到0.05。位命中率降低到0.5,这是一个随机猜测的水平。我们的策略有效地阻止了PPG信号的暴露,以保护用户的敏感生理数据。
translated by 谷歌翻译
图形结构化数据在实践中无处不在,并且经常使用图神经网络(GNN)处理。随着最近的法律确保``被遗忘的权利''的法律,删除图数据的问题已变得非常重要。为了解决该问题,我们介绍了GNNS的\ emph {认证图形}的第一个已知框架。与标准机器学习相反,在处理复杂的图形数据时,出现了新的分析和启发式学位挑战。首先,需要考虑三种不同类型的未学习请求,包括节点功能,边缘和节点学习。其次,为了建立可证明的绩效保证,需要解决与传播过程中功能混合相关的挑战。简单的图卷积(SGC)及其广泛的Pagerank(GPR)扩展的示例说明了基本分析,从而为GNN的认证未学习奠定了理论基础。我们对六个基准数据集的实证研究表明,与不利用图形信息的完整再培训方法和方法相比,相比之下,表现出色的性能复杂性权衡。例如,当在CORA数据集上学习$ 20 \%$的节点时,我们的方法仅遭受$ 0.1 \%$ $的测试准确性损失,而与完整的再培训相比,提供了$ 4 $倍的加速。我们的方案还胜过未利用图形信息的学习方法,其测试准确性提高了$ 12 \%$,以相当的时间复杂性。
translated by 谷歌翻译
在各种计算机视觉任务(例如对象检测,实例分段等)中,无监督的域适应至关重要。他们试图减少域偏差诱导的性能下降,同时还促进模型应用速度。域适应对象检测中的先前作品尝试使图像级和实例级别变化对准以最大程度地减少域差异,但是它们可能会使单级功能与图像级域适应中的混合级功能相结合,因为对象中的每个图像中的每个图像检测任务可能不止一个类和对象。为了通过单级对齐获得单级和混合级对齐方式,我们将功能的混合级视为新班级,并建议使用混合级$ h-divergence $,以供对象检测到实现均匀特征对准并减少负转移。然后,还提出了基于混合级$ h-Divergence $的语义一致性特征对齐模型(SCFAM)。为了改善单层和混合级的语义信息并完成语义分离,SCFAM模型提出了语义预测模型(SPM)和语义桥接组件(SBC)。然后根据SPM结果更改PIX域鉴别器损耗的重量,以减少样品不平衡。广泛使用的数据集上的广泛无监督域的适应实验说明了我们所提出的方法在域偏置设置中的强大对象检测。
translated by 谷歌翻译
在本文中,我们提出了一个简单而通用的网络,该网络称为SEQTR,用于视觉接地任务,例如短语本地化,参考表达理解(REC)和分割(RES)。视觉接地的规范范例通常需要在设计网络体系结构和损失功能方面具有丰富的专业知识,从而使它们难以跨越跨任务进行推广。为了简化和统一建模,我们将视觉接地作为点预测问题在图像和文本输入上进行条件,其中边界框或二进制掩码表示为一系列离散坐标令牌。在此范式下,视觉接地任务是在我们的SEQTR网络中统一的,而没有特定于任务的分支或头部,例如RES的卷积蒙版解码器,这大大降低了多任务建模的复杂性。此外,SEQTR还具有简单的交叉渗透损失,共享所有任务的相同优化目标,从而进一步降低了部署手工制作的损失功能的复杂性。五个基准数据集的实验表明,所提出的SEQTR优于现有的最新技术(或与之相提并论),这证明了一种简单而通用的视觉接地方法确实是可行的。源代码可在https://github.com/sean-zhuh/seqtr上获得。
translated by 谷歌翻译