智能论文笔记

SDM: Spatial Diffusion Model for Large Hole Image Inpainting

Wenbo Li , Xin Yu , Kun Zhou , Yibing Song , Zhe Lin , Jiaya Jia

分类：计算机视觉

2022-12-06

Generative adversarial networks (GANs) have made great success in image inpainting yet still have difficulties tackling large missing regions. In contrast, iterative algorithms, such as autoregressive and denoising diffusion models, have to be deployed with massive computing resources for decent effect. To overcome the respective limitations, we present a novel spatial diffusion model (SDM) that uses a few iterations to gradually deliver informative pixels to the entire image, largely enhancing the inference efficiency. Also, thanks to the proposed decoupled probabilistic modeling and spatial diffusion scheme, our method achieves high-quality large-hole completion. On multiple benchmarks, we achieve new state-of-the-art performance. Code is released at https://github.com/fenglinglwb/SDM.

translated by 谷歌翻译

SAGDA: Achieving $\mathcal{O}(ε^{-2})$ Communication Complexity in Federated Min-Max Learning

Haibo Yang , Zhuqing Liu , Xin Zhang , Jia Liu

分类：机器学习 | 人工智能

2022-10-02

To lower the communication complexity of federated min-max learning, a natural approach is to utilize the idea of infrequent communications (through multiple local updates) same as in conventional federated learning. However, due to the more complicated inter-outer problem structure in federated min-max learning, theoretical understandings of communication complexity for federated min-max learning with infrequent communications remain very limited in the literature. This is particularly true for settings with non-i.i.d. datasets and partial client participation. To address this challenge, in this paper, we propose a new algorithmic framework called stochastic sampling averaging gradient descent ascent (SAGDA), which i) assembles stochastic gradient estimators from randomly sampled clients as control variates and ii) leverages two learning rates on both server and client sides. We show that SAGDA achieves a linear speedup in terms of both the number of clients and local update steps, which yields an $\mathcal{O}(\epsilon^{-2})$ communication complexity that is orders of magnitude lower than the state of the art. Interestingly, by noting that the standard federated stochastic gradient descent ascent (FSGDA) is in fact a control-variate-free special version of SAGDA, we immediately arrive at an $\mathcal{O}(\epsilon^{-2})$ communication complexity result for FSGDA. Therefore, through the lens of SAGDA, we also advance the current understanding on communication complexity of the standard FSGDA method for federated min-max learning.

translated by 谷歌翻译

CCR: Facial Image Editing with Continuity, Consistency and Reversibility

Nan Yang , Xin Luan , Huidi Jia , Zhi Han , Yandong Tang

分类：计算机视觉 | 人工智能

2022-09-22

顺序面部图像编辑中存在三个问题：不连续的编辑，不一致的编辑和不可逆转的编辑。不连续的编辑是当前的编辑无法保留先前编辑的属性。不一致的编辑是交换属性编辑订单不能产生相同的结果。不可逆转的编辑意味着在面部图像上操作是不可逆的，尤其是在顺序的面部图像编辑中。在这项工作中，我们提出了三个概念和相应的定义：编辑连续性，一致性和可逆性。然后，我们提出了一个新型模型，以实现编辑连续性，一致性和可逆性的目标。定义了足够的标准以确定模型是否是连续，一致和可逆的。广泛的定性和定量实验结果验证了我们提出的模型，并表明连续，一致和可逆的编辑模型具有更灵活的编辑功能，同时保留面部身份。此外，我们认为我们提出的定义和模型将在多媒体处理中具有广泛而有希望的应用。代码和数据可在https://github.com/mickoluan/ccr上找到。

translated by 谷歌翻译

Enhancing Pre-trained Models with Text Structure Knowledge for Question Generation

Zichen Wu , Xin Jia , Fanyi Qu , Yunfang Wu

分类：自然语言处理 | 人工智能

2022-09-09

如今，预先训练的语言模型对于问题产生（QG）任务取得了巨大成功，并明显超过传统的顺序到序列方法。但是，预训练的模型将输入段视为平坦序列，因此不了解输入段的文本结构。对于QG任务，我们将文本结构建模为答案位置和句法依赖性，并提出答案局部性建模和句法掩盖的注意，以解决这些局限性。特别是，我们以高斯偏见为局部建模，以使模型能够专注于答案的上下文，并提出一种掩盖注意机制，以使输入段落的句法结构在问题生成过程中访问。在小队数据集上进行的实验表明，我们提出的两个模块改善了强大的预训练模型ProPHETNET的性能，并将它们梳理在一起，可以通过最先进的预培训模型来实现非常有竞争力的结果。

translated by 谷歌翻译

Monocular Camera-based Complex Obstacle Avoidance via Efficient Deep Reinforcement Learning

Jianchuan Ding , Lingping Gao , Wenxi Liu , Haiyin Piao , Jia Pan , Zhenjun Du , Xin Yang , Baocai Yin

分类：机器人

2022-09-01

深度强化学习在基于激光的碰撞避免有效的情况下取得了巨大的成功，因为激光器可以感觉到准确的深度信息而无需太多冗余数据，这可以在算法从模拟环境迁移到现实世界时保持算法的稳健性。但是，高成本激光设备不仅很难为大型机器人部署，而且还表现出对复杂障碍的鲁棒性，包括不规则的障碍，例如桌子，桌子，椅子和架子，以及复杂的地面和特殊材料。在本文中，我们提出了一个新型的基于单眼相机的复杂障碍避免框架。特别是，我们创新地将捕获的RGB图像转换为伪激光测量，以进行有效的深度强化学习。与在一定高度捕获的传统激光测量相比，仅包含距离附近障碍的一维距离信息，我们提议的伪激光测量融合了捕获的RGB图像的深度和语义信息，这使我们的方法有效地有效障碍。我们还设计了一个功能提取引导模块，以加重输入伪激光测量，并且代理对当前状态具有更合理的关注，这有利于提高障碍避免政策的准确性和效率。

translated by 谷歌翻译

HTML版本

AIM 2022 Challenge on Super-Resolution of Compressed Image and Video: Dataset, Methods and Results

Ren Yang , Radu Timofte , Xin Li , Qi Zhang , Lin Zhang , Fanglong Liu , Dongliang He , Fu li , He Zheng , Weihang Yuan

分类：计算机视觉

2022-08-23

本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率，轨迹〜2靶向压缩视频的超分辨率。在轨道1中，我们使用流行的数据集DIV2K作为培训，验证和测试集。在轨道2中，我们提出了LDV 3.0数据集，其中包含365个视频，包括LDV 2.0数据集（335个视频）和30个其他视频。在这一挑战中，有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。

translated by 谷歌翻译

NET-FLEET: Achieving Linear Convergence Speedup for Fully Decentralized Federated Learning with Heterogeneous Data

Xin Zhang , Minghong Fang , Zhuqing Liu , Haibo Yang , Jia Liu , Zhengyuan Zhu

分类：机器学习

2022-08-17

由于其在数据隐私保护，有效的沟通和并行数据处理方面的好处，联邦学习（FL）近年来引起了人们的兴趣。同样，采用适当的算法设计，可以实现fl中收敛效应的理想线性加速。但是，FL上的大多数现有作品仅限于I.I.D.的系统。数据和集中参数服务器以及与异质数据集分散的FL上的结果仍然有限。此外，在完全分散的FL下，与数据异质性在完全分散的FL下，可以实现收敛的线性加速仍然是一个悬而未决的问题。在本文中，我们通过提出一种称为Net-Fleet的新算法，以解决具有数据异质性的完全分散的FL系统，以解决这些挑战。我们算法的关键思想是通过合并递归梯度校正技术来处理异质数据集，以增强FL（最初旨在用于通信效率）的本地更新方案。我们表明，在适当的参数设置下，所提出的净型算法实现了收敛的线性加速。我们进一步进行了广泛的数值实验，以评估所提出的净化算法的性能并验证我们的理论发现。

translated by 谷歌翻译

SYNTHESIS: A Semi-Asynchronous Path-Integrated Stochastic Gradient Method for Distributed Learning in Computing Clusters

Zhuqing Liu , Xin Zhang , Jia Liu

分类：机器学习

2022-08-17

为了提高分布式学习的训练速度，近年来见证了人们对开发同步和异步分布式随机方差减少优化方法的极大兴趣。但是，所有现有的同步和异步分布式训练算法都遭受了收敛速度或实施复杂性的各种局限性。这激发了我们提出一种称为\ algname（\ ul {s} emi-as \ ul {yn}的算法} ent \ ul {s} earch），它利用方差减少框架的特殊结构来克服同步和异步分布式学习算法的局限性，同时保留其显着特征。我们考虑分布式和共享内存体系结构下的\ algname的两个实现。我们表明我们的\ algname算法具有\（o（\ sqrt {n} \ epsilon^{ - 2}（ - 2}（\ delta+1）+n）\）\）和\（o（\ sqrt {n} {n} 2}（\ delta+1）d+n）\）用于实现\（\ epsilon \）的计算复杂性 - 分布式和共享内存体系结构分别在非convex学习中的固定点，其中\（n \）表示培训样本的总数和\（\ delta \）表示工人的最大延迟。此外，我们通过建立二次强烈凸和非convex优化的算法稳定性界限来研究\ algname的概括性能。我们进一步进行广泛的数值实验来验证我们的理论发现

translated by 谷歌翻译

INTERACT: Achieving Low Sample and Communication Complexities in Decentralized Bilevel Learning over Networks

Zhuqing Liu , Xin Zhang , Prashant Khanduri , Songtao Lu , Jia Liu

分类：机器学习 | (统计)机器学习

2022-07-27

近年来，由于它们在对点对点网络上的分散性学习问题（例如，多机构元学习，多机构的多方强化增强学习学习）上，分散的双层优化问题在网络和机器学习社区中引起了越来越多的关注。，个性化的培训和拜占庭的弹性学习）。但是，对于具有有限的计算和通信功能的对等网络上的分散式双层优化，如何实现低样本和通信复杂性是迄今为止尚未探索的两个基本挑战。在本文中，我们首次尝试研究了分别与外部和内部子问题相对应的非凸和强结构结构的分散双重优化问题。本文中我们的主要贡献是两倍：i）我们首先提出了一种称为Interact的确定性算法（Inter-gradient-descent-out-outer-tracked-gradeent），需要$ \ Mathcal {o}的样品复杂性（n \ epsilon） ^{ - 1}）$和$ \ mathcal {o}的通信复杂性（\ epsilon^{ - 1}）$解决双重优化问题，其中$ n $和$ \ epsilon> 0 $是样本的数量在每个代理和所需的平稳性差距上。 ii）为了放宽每次迭代中进行全面梯度评估的需求，我们提出了一个随机方差的互动版本（SVR Interact），该版本将样品复杂性提高到$ \ Mathcal {o}（\ sqrt {n} \ epsilon ^{ - 1}）$在达到与确定算法相同的通信复杂性时。据我们所知，这项工作是第一个实现低样本和通信复杂性，以解决网络上的分散双层优化问题。我们的数值实验也证实了我们的理论发现。

translated by 谷歌翻译

QueryProp: Object Query Propagation for High-Performance Video Object Detection

Fei He , Naiyu Gao , Jian Jia , Xin Zhao , Kaiqi Huang

分类：计算机视觉

2022-07-22

视频对象检测一直是计算机视觉中一个重要但充满挑战的话题。传统方法主要集中于设计图像级或框级特征传播策略以利用时间信息。本文认为，通过更有效，更有效的功能传播框架，视频对象探测器可以在准确性和速度方面提高。为此，本文研究了对象级特征传播，并提出了一个针对高性能视频对象检测的对象查询传播（QueryProp）框架。所提出的查询Prop包含两个传播策略：1）查询传播是从稀疏的钥匙帧到密集的非钥匙框架执行的，以减少非钥匙帧的冗余计算； 2）查询传播是从以前的关键帧到当前关键框架进行的，以通过时间上下文建模来改善特征表示。为了进一步促进查询传播，自适应传播门旨在实现灵活的钥匙框架选择。我们在Imagenet VID数据集上进行了广泛的实验。 QueryProp通过最先进的方法实现了可比的精度，并实现了不错的精度/速度权衡。代码可在https://github.com/hf1995/queryprop上获得。

translated by 谷歌翻译