Image super-resolution (SR) is a technique to recover lost high-frequency information in low-resolution (LR) images. Spatial-domain information has been widely exploited to implement image SR, so a new trend is to involve frequency-domain information in SR tasks. Besides, image SR is typically application-oriented and various computer vision tasks call for image arbitrary magnification. Therefore, in this paper, we study image features in the frequency domain to design a novel scale-arbitrary image SR network. First, we statistically analyze LR-HR image pairs of several datasets under different scale factors and find that the high-frequency spectra of different images under different scale factors suffer from different degrees of degradation, but the valid low-frequency spectra tend to be retained within a certain distribution range. Then, based on this finding, we devise an adaptive scale-aware feature division mechanism using deep reinforcement learning, which can accurately and adaptively divide the frequency spectrum into the low-frequency part to be retained and the high-frequency one to be recovered. Finally, we design a scale-aware feature recovery module to capture and fuse multi-level features for reconstructing the high-frequency spectrum at arbitrary scale factors. Extensive experiments on public datasets show the superiority of our method compared with state-of-the-art methods.
translated by 谷歌翻译
建立一个对话体现的代理执行现实生活任务一直是一个长期而又具有挑战性的研究目标,因为它需要有效的人类代理沟通,多模式理解,远程顺序决策等。传统的符号方法具有扩展和概括问题,而端到端的深度学习模型则遭受数据稀缺和高任务复杂性的影响,并且通常很难解释。为了从两全其美的世界中受益,我们提出了一个神经符号常识性推理(JARVIS)框架,用于模块化,可推广和可解释的对话体现的药物。首先,它通过提示大型语言模型(LLM)来获得符号表示,以了解语言理解和次目标计划,并通过从视觉观察中构建语义图。然后,基于任务和动作级别的常识,次目标计划和行动生成的符号模块。在Teach数据集上进行的大量实验验证了我们的JARVIS框架的功效和效率,该框架在所有三个基于对话框的具体任务上实现了最新的(SOTA)结果,包括对话记录(EDH)的执行,对话框的轨迹, (TFD)和两个代理任务完成(TATC)(例如,我们的方法将EDH看不见的成功率从6.1 \%\%提高到15.8 \%)。此外,我们系统地分析了影响任务绩效的基本因素,并在几个射击设置中证明了我们方法的优越性。我们的Jarvis模型在Alexa奖Simbot公共基准挑战赛中排名第一。
translated by 谷歌翻译
作为非遗迹渲染(NPR)的主要分支,图像样式主要使用计算机算法将照片渲染为艺术绘画。最近的工作表明,样式信息的提取,例如笔触纹理和目标样式图像的颜色是图像风格的关键。鉴于其中风质地和颜色特征,提出了一种新的中风渲染方法,该方法完全考虑了音调特征和原始油画的代表性,以便将原始油画图像的音调适应风格化的图像并制作它接近艺术家的创造性效果。实验验证了所提出模型的功效。这种方法更适合具有相对均匀的方向意识的点尔主义画家的作品,尤其是对于自然场景。当原始绘画笔触具有更清晰的方向感时,使用此方法模拟刷子纹理特征可能会不那么令人满意。
translated by 谷歌翻译
我们提出了一种新型的动态约束不确定性加权损失,以实验处理平衡多个任务对ICML EXVO 2022挑战的贡献的问题。多任务旨在共同认识到声乐爆发中表达的情绪和人口特征。我们的策略结合了不确定性重量和平均动态重量的优势,通过用约束术语扩展权重以使学习过程更具解释。我们使用轻巧的多EXIT CNN体系结构来实施我们提出的损失方法。实验性H-均值得分(0.394)显示出比基线H均值得分的显着改善(0.335)。
translated by 谷歌翻译
我们介绍了自回归文本到图像(Parti)模型的途径,该模型生成高保真的影像图像并支持涉及复杂组成和世界知识的内容丰富的合成。 Parti将文本对图像生成视为类似于机器翻译的序列到序列建模问题,图像令牌的序列是目标输出,而不是其他语言的文本令牌。这种策略自然可以利用大型语言模型的先前工作,通过扩展数据和模型尺寸,能力和性能的持续进展。我们的方法很简单:首先,Parti使用基于变压器的图像令牌VIT-VQGAN将图像编码为离散令牌的序列。其次,我们通过将编码器二次变压器模型缩放到20B参数来实现一致的质量改进,其新的最新零弹药FID得分为7.23,而MS-Coco的FIDED得分为3.22。我们对本地化叙述以及党的详细分析(P2),这是1600多个英语提示的新的整体基准,证明了Parti在各种类别和难度方面的有效性。我们还探索并突出了我们的模型的局限性,以定义和体现关注重点领域以进一步改进。有关高分辨率图像,请参见https://parti.research.google/。
translated by 谷歌翻译
近年来,人群计数已成为计算机视觉中的重要问题。在大多数方法中,密度图是通过从地面图中与人头中心标记的地面图图中的高斯内核进行卷积而产生的。由于CNN中的固定几何结构和模糊的头尺度信息,因此无法完全获得头部特征。提出了可变形的卷积来利用头部中CNN特征的尺度自适应能力。通过学习采样点的坐标偏移,可以提高调整接受场的能力。但是,头部在可变形卷积中的采样点并不统一,从而导致头部信息丢失。为了处理不均匀的采样,在本文中提出了改进的规范性卷积(\ textit {i.e。受NDLOSS限制的采样点的偏移往往更加均匀。然后,更完整地获得了头部中的功能,从而获得更好的性能。尤其是,拟议的NDCONV是一个轻巧的模块,与可变形卷积具有相似的计算负担。在广泛的实验中,我们的方法优于上海A,Shanghaitech B,UCF \ _QNRF和UCF \ _CC \ _50数据集,分别实现61.4、7.8、91.2和167.2 MAE。该代码可从https://github.com/bingshuangzhuzi/ndconv获得
translated by 谷歌翻译
在这项工作中,我们探索了一种小说的几弹性个性化体系结构,以进行情感发声预测。核心贡献是一个“注册”编码器,它利用目标扬声器的两个未标记的样本来调整情感编码器的输出。调整基于点产生的注意力,因此有效地充当“软”特征选择的一种形式。情感和注册编码器基于两个标准音频体系结构:CNN14和CNN10。这两个编码器进一步指导忘记或学习辅助情感和/或说话者信息。我们最好的方法在EXVO少量开发套件上达到了CCC $ .650 $,比我们的基线CNN14 CCC $ 2.5 \%$增加了$ .634 $。
translated by 谷歌翻译
本文旨在通过介绍第一个中国数学预训练的语言模型〜(PLM)来提高机器的数学智能,以有效理解和表示数学问题。与其他标准NLP任务不同,数学文本很难理解,因为它们在问题陈述中涉及数学术语,符号和公式。通常,它需要复杂的数学逻辑和背景知识来解决数学问题。考虑到数学文本的复杂性质,我们设计了一种新的课程预培训方法,用于改善由基本和高级课程组成的数学PLM的学习。特别是,我们首先根据位置偏见的掩盖策略执行令牌级预训练,然后设计基于逻辑的预训练任务,旨在分别恢复改组的句子和公式。最后,我们介绍了一项更加困难的预训练任务,该任务强制执行PLM以检测和纠正其生成的解决方案中的错误。我们对离线评估(包括九个与数学相关的任务)和在线$ A/B $测试进行了广泛的实验。实验结果证明了与许多竞争基线相比,我们的方法的有效性。我们的代码可在:\ textColor {blue} {\ url {https://github.com/rucaibox/jiuzhang}}}中获得。
translated by 谷歌翻译
在编码的光圈快照光谱压缩成像(CASSI)系统中,采用高光谱图像(HSI)重建方法从压缩测量中恢复了空间光谱信号。在这些算法中,深层展开的方法表现出令人鼓舞的表现,但遭受了两个问题的困扰。首先,他们没有从高度相关的CASSI估计降解模式和不适当的程度来指导迭代学习。其次,它们主要基于CNN,显示出捕获长期依赖性的局限性。在本文中,我们提出了一个原则性的降级感知框架(DAUF),该框架(DAUF)从压缩图像和物理掩码中估算参数,然后使用这些参数来控制每个迭代。此外,我们自定义了一种新颖的半剃须变压器(HST),该变压器(HST)同时捕获本地内容和非本地依赖性。通过将HST插入DAUF,我们为HSI重建建立了第一个基于变压器的深层展开方法,即降解感知的降解 - 降解的半个剃须刀变压器(DAUHST)。实验表明,Dauhst显着超过了最先进的方法,同时需要更便宜的计算和存储成本。代码和模型将在https://github.com/caiyuanhao1998/mst上发布
translated by 谷歌翻译
已经开发了许多算法来解决编码光圈快照光谱成像(CASSI)的反问题,即从2D压缩测量中恢复3D高光谱图像(HSIS)。近年来,基于学习的方法证明了有希望的表现,并主导了主流研究方向。但是,现有的基于CNN的方法显示了捕获长期依赖性和非本地自相似性的局限性。以前的基于变压器的方法密集样本令牌,其中一些是不明显的,并计算了某些在内容中无关的令牌之间的多头自我注意力(MSA)。这不符合HSI信号的空间稀疏性质,并限制了模型可伸缩性。在本文中,我们提出了一种新型的基于变压器的方法,即粗到细稀疏变压器(CST),首先将HSI的稀疏嵌入到HSI重建的深度学习中。特别是,CST使用我们提出的光谱感知筛选机制(SASM)进行粗贴片选择。然后,选定的贴片被馈入我们的定制光谱 - 聚集多头自我注意力(SAH-MSA),以进行精细的像素聚类和自相似性捕获。全面的实验表明,我们的CST在需要廉价的计算成本的同时,明显优于最先进的方法。代码和模型将在https://github.com/caiyuanhao1998/mst上发布
translated by 谷歌翻译