弱监督的参考表达接地(REG)旨在将特定目标扎根于语言表达描述的图像中,同时缺乏目标和表达之间的对应关系。弱监督的REG存在两个主要问题。首先,缺乏区域级注释会引入建议和查询之间的歧义。其次,大多数以前的弱监督的REG方法忽略了指南的判别位置和上下文,从而在将目标与其他相同类别对象区分开时造成了困难。为了应对上述挑战,我们设计了实体增强的自适应重建网络(enail)。具体而言,赚取包括三个模块:实体增强,自适应接地和协作重建。在实体增强中,我们计算语义相似性作为监督选择候选建议。自适应接地可以在主题,位置和背景下以分层关注计算候选提案的排名评分。协作重建从三个角度衡量排名结果:自适应重建,语言重建和属性分类。自适应机制有助于减轻不同参考表达式的差异。五个数据集的实验表明,赚取胜于现有的最新方法。定性结果表明,提议的收入可以更好地处理特定类别的多个对象在一起的情况。
translated by 谷歌翻译
低光图像增强是一个固有的主观过程,其目标随用户的美学而变化。在此激励的情况下,已经研究了几种个性化的增强方法。但是,基于这些技术中用户偏好的增强过程是不可见的,即“黑匣子”。在这项工作中,我们为低光图像提出了一个可理解的无监督个性化增强器(Iupenhancer),该图像建立了与三个用户友好型属性(亮度,色彩和噪音)有关的低光与未配对的参考图像之间的相关性。 。拟议的IUP增强剂接受了这些相关性的指导和相应的无监督损失函数的培训。我们的IUP-Enhancer不是“黑匣子”过程,而是带有上述属性的可理解增强过程。广泛的实验表明,所提出的算法会产生竞争性的定性和定量结果,同时保持出色的灵活性和可伸缩性。可以通过单个/多个参考,交叉归因引用或仅调整参数的个性化来验证。
translated by 谷歌翻译
神经网络的等级测量跨层流动的信息。它是关键结构条件的一个实例,适用于机器学习的广泛领域。特别是,低排名特征表示的假设会导致许多体系结构中的算法发展。然而,对于神经网络,产生低级别结构的内在机制仍然模糊不清。为了填补这一空白,我们对网络等级的行为进行了严格的研究,尤其关注排名不足的概念。从理论上讲,我们从差分和代数组成的基本规则中建立了通用的单调降低属性,并发现网络块和深度函数耦合的等级缺陷。借助我们的数值工具,我们提供了对实际设置中网络等级的每层行为的首次经验分析,即ImageNet上的重新NET,DEEP MLP和变压器。这些经验结果与我们的理论直接一致。此外,我们揭示了由深网的排名不足引起的一种新颖的独立赤字现象,在这种情况下,给定类别的分类信心可以通过少数其他类别的信心来线性地决定。这项工作的理论结果以及经验结果可能会提高对深神经网络固有原理的理解。
translated by 谷歌翻译
未经监督的域名自适应人员重新识别(Reid)已被广泛调查以减轻域间隙的不利影响。这些作品假设目标域数据可以一次访问。然而,对于真实世界的流数据,这会阻碍及时适应改变数据统计数据以及对增加样本的充分利用。在本文中,为了解决更实际的情况,我们提出了一项新任务,终身无监督域自适应(Luda)人Reid。这是具有挑战性的,因为它要求模型不断适应目标环境的未标记数据,同时减轻灾难性的遗忘,为这么细粒度的检索任务。我们为这项任务设计了一个有效的计划,被称为Cluda-Reid,在那里反忘记与适应协调。具体地,提出了基于元的协调数据重放策略来重播旧数据并以协调的优化方向更新网络,以便适应和记忆。此外,我们提出了符合基于检索的任务的目标的旧知识蒸馏/继承的关系一致性学习。我们设置了两个评估设置来模拟实际应用方案。广泛的实验展示了我们Cluda-Reid与具有动态目标流的静止目标流和场景的方案的有效性。
translated by 谷歌翻译
基于现有的基于解除拘淀的概括性的方法,即可在直接解开人称的旨在转变为域相关干扰和身份相关特征。然而,它们忽略了一些重要的特征在域相关干扰和身份相关特征中顽固地纠缠于,这是难以以无监督的方式分解的。在本文中,我们提出了一种简单但有效的校准功能分解(CFD)模块,专注于通过更明智的特征分解和强化策略来提高人员重新识别的泛化能力。具体地,校准和标准化的批量归一化(CSBN)旨在通过联合探索域内校准和域间标准化的多源域特征来学习校准的人表示。 CSBN限制每个域的特征分布的实例级别不一致,捕获内部域级别的特定统计信息。校准人称表示在细微分解为身份相关功能,域功能,剩余纠结的纠结之一。为了提高泛化能力并确保高度辨别身份相关特征,引入了校准的实例归一化(CIN)以强制执行判别ID相关信息,并滤除ID-Intrelate的信息,同时剩余的富互补线索纠缠特征进一步用于加强它。广泛的实验表明了我们框架的强烈概括能力。我们的模型由CFD模块赋予授权,显着优于多个广泛使用的基准测试的最先进的域广义方法。代码将公开:https://github.com/zkcys001/cfd。
translated by 谷歌翻译
视频标题的当前度量主要基于参考和候选字幕之间的文本级别比较。然而,它们具有一些不可能的缺点,例如,它们不能在没有参考的情况下处理视频,并且由于视频到文本的一对多性质和忽视视觉相关性的一对多性质,它们可能导致偏见的评估。从人类评估者的观点来看,高质量的标题应与提供的视频一致,但不一定类似于文字或语义中的参考。灵感来自人类评估,我们提出了Emscore(基于匹配的分数),是视频字幕的一种新颖的无参考度量,其直接测量视频和候选字幕之间的相似性。受益于最近的大规模预训练模型的发展,我们利用了一个良好的预先训练的视觉语言模型来提取用于计算Emscore的视觉和语言嵌入。具体地,Emscore将粗粒(视频和标题)和细粒度(帧和单词)水平的匹配分数组合,这将考虑到视频的整体理解和详细特征。此外,考虑到潜在的信息增益,Emscore可以灵活地扩展到人类标记的参考可用的条件。最后但并非最不重要的是,我们收集Vatex-eval和ActivityNet-Foil数据集以系统地评估现有的度量标准。 Vatex-emp实验表明,Emscore具有更高的人类相关性和较低的参考依赖性。 ActivityNet-Foil实验验证Emscore可以有效地识别“幻觉”标题。将释放数据集以促进视频标题度量的开发。代码可在:https://github.com/shiyaya/emcore。
translated by 谷歌翻译
卷积神经网络(CNN)是用于计算机视觉的主要的深神经网络(DNN)架构。最近,变压器和多层的Perceptron(MLP)的基础型号,如视觉变压器和MLP-MILER,开始引领新的趋势,因为它们在想象成分类任务中显示出了有希望的结果。在本文中,我们对这些DNN结构进行了实证研究,并试图了解他们各自的利弊。为了确保公平的比较,我们首先开发一个名为SPACH的统一框架,可以采用单独的空间和通道处理模块。我们在SPACH框架下的实验表明,所有结构都可以以适度的规模实现竞争性能。但是,当网络大小缩放时,它们展示了独特的行为。根据我们的调查结果,我们建议使用卷积和变压器模块的混合模型。由此产生的Hybrid-MS-S +模型实现了83.9%的前1个精度,63米参数和12.3g拖薄。它已与具有复杂设计的SOTA模型相提并论。代码和模型在https://github.com/microsoft/spach上公开使用。
translated by 谷歌翻译
检测变压器最近显示出有希望的对象检测结果,并引起了越来越多的注意力。但是,如何开发有效的域适应技术来改善其跨域性能,尚不清楚和不清楚。在本文中,我们深入研究了这个主题,并从经验上发现,CNN骨架上的直接特征分布对齐仅带来有限的改进,因为它不能保证变压器中的域不变序列特征进行预测。为了解决这个问题,我们提出了一种新型的序列特征比对(SFA)方法,该方法是专门设计用于适应检测变压器的。从技术上讲,SFA由基于域查询的特征对齐(DQFA)模块和令牌特征对齐(TDA)模块组成。在DQFA中,一个新的域查询用于从两个域的令牌序列中汇总和对齐全局上下文。 DQFA分别在变压器编码器和解码器中部署时,降低了全局特征表示和对象关系中的域差异。同时,TDA在两个域中的序列中都对准令牌特征,从而分别降低了变压器编码器和解码器中局部和实例级特征表示中的域间隙。此外,提出了一种新型的两分匹配损失,以增强可鲁棒对象检测的特征可区分性。在三个具有挑战性的基准上进行的实验表明,SFA优于最先进的域自适应对象检测方法。代码已在以下网址提供:https://github.com/encounter1997/sfa。
translated by 谷歌翻译
We study the problem of estimating latent population flows from aggregated count data. This problem arises when individual trajectories are not available due to privacy issues or measurement fidelity. Instead, the aggregated observations are measured over discrete-time points, for estimating the population flows among states. Most related studies tackle the problems by learning the transition parameters of a time-homogeneous Markov process. Nonetheless, most real-world population flows can be influenced by various uncertainties such as traffic jam and weather conditions. Thus, in many cases, a time-homogeneous Markov model is a poor approximation of the much more complex population flows. To circumvent this difficulty, we resort to a multi-marginal optimal transport (MOT) formulation that can naturally represent aggregated observations with constrained marginals, and encode time-dependent transition matrices by the cost functions. In particular, we propose to estimate the transition flows from aggregated data by learning the cost functions of the MOT framework, which enables us to capture time-varying dynamic patterns. The experiments demonstrate the improved accuracy of the proposed algorithms than the related methods in estimating several real-world transition flows.
translated by 谷歌翻译
Graph neural networks (GNNs) have received remarkable success in link prediction (GNNLP) tasks. Existing efforts first predefine the subgraph for the whole dataset and then apply GNNs to encode edge representations by leveraging the neighborhood structure induced by the fixed subgraph. The prominence of GNNLP methods significantly relies on the adhoc subgraph. Since node connectivity in real-world graphs is complex, one shared subgraph is limited for all edges. Thus, the choices of subgraphs should be personalized to different edges. However, performing personalized subgraph selection is nontrivial since the potential selection space grows exponentially to the scale of edges. Besides, the inference edges are not available during training in link prediction scenarios, so the selection process needs to be inductive. To bridge the gap, we introduce a Personalized Subgraph Selector (PS2) as a plug-and-play framework to automatically, personally, and inductively identify optimal subgraphs for different edges when performing GNNLP. PS2 is instantiated as a bi-level optimization problem that can be efficiently solved differently. Coupling GNNLP models with PS2, we suggest a brand-new angle towards GNNLP training: by first identifying the optimal subgraphs for edges; and then focusing on training the inference model by using the sampled subgraphs. Comprehensive experiments endorse the effectiveness of our proposed method across various GNNLP backbones (GCN, GraphSage, NGCF, LightGCN, and SEAL) and diverse benchmarks (Planetoid, OGB, and Recommendation datasets). Our code is publicly available at \url{https://github.com/qiaoyu-tan/PS2}
translated by 谷歌翻译