Despite excellent performance in image generation, Generative Adversarial Networks (GANs) are notorious for its requirements of enormous storage and intensive computation. As an awesome ''performance maker'', knowledge distillation is demonstrated to be particularly efficacious in exploring low-priced GANs. In this paper, we investigate the irreplaceability of teacher discriminator and present an inventive discriminator-cooperated distillation, abbreviated as DCD, towards refining better feature maps from the generator. In contrast to conventional pixel-to-pixel match methods in feature map distillation, our DCD utilizes teacher discriminator as a transformation to drive intermediate results of the student generator to be perceptually close to corresponding outputs of the teacher generator. Furthermore, in order to mitigate mode collapse in GAN compression, we construct a collaborative adversarial training paradigm where the teacher discriminator is from scratch established to co-train with student generator in company with our DCD. Our DCD shows superior results compared with existing GAN compression methods. For instance, after reducing over 40x MACs and 80x parameters of CycleGAN, we well decrease FID metric from 61.53 to 48.24 while the current SoTA method merely has 51.92. This work's source code has been made accessible at https://github.com/poopit/DCD-official.
translated by 谷歌翻译
This paper proposes a content relationship distillation (CRD) to tackle the over-parameterized generative adversarial networks (GANs) for the serviceability in cutting-edge devices. In contrast to traditional instance-level distillation, we design a novel GAN compression oriented knowledge by slicing the contents of teacher outputs into multiple fine-grained granularities, such as row/column strips (global information) and image patches (local information), modeling the relationships among them, such as pairwise distance and triplet-wise angle, and encouraging the student to capture these relationships within its output contents. Built upon our proposed content-level distillation, we also deploy an online teacher discriminator, which keeps updating when co-trained with the teacher generator and keeps freezing when co-trained with the student generator for better adversarial training. We perform extensive experiments on three benchmark datasets, the results of which show that our CRD reaches the most complexity reduction on GANs while obtaining the best performance in comparison with existing methods. For example, we reduce MACs of CycleGAN by around 40x and parameters by over 80x, meanwhile, 46.61 FIDs are obtained compared with these of 51.92 for the current state-of-the-art. Code of this project is available at https://github.com/TheKernelZ/CRD.
translated by 谷歌翻译
最近,已探索了一系列算法,用于GaN压缩,旨在在部署资源受限的边缘设备上的GAN时减少巨大的计算开销和内存使用。然而,大多数现有的GaN压缩工作仅重点介绍如何压缩发电机,而未能考虑鉴别者。在这项工作中,我们重新审视鉴别者在GaN压缩中的作用和设计一种用于GAN压缩的新型发电机 - 鉴别器协作压缩方案,称为GCC。在GCC中,选择性激活鉴别器根据局部容量约束和全局协调约束自动选择和激活卷积通道,这有助于在对策训练期间与轻质发电机保持纳什平衡,避免模式塌陷。原始发电机和鉴别器也从头开始优化,作为教师模型,逐步优化修剪的发生器和选择性激活鉴别器。一种新的在线协同蒸馏方案旨在充分利用教师发生器和鉴别器的中间特征,以进一步提高轻质发电机的性能。对各种GAN的一代任务的广泛实验证明了GCC的有效性和泛化。其中,GCC有助于降低80%的计算成本,同时在图像转换任务中保持相当的性能。我们的代码和模型可在https://github.com/sjleo/gcc上使用。
translated by 谷歌翻译
具有高计算成本的生成对抗网络(GANS),例如Biggan和Stylegan2,实现了显着的结果,在随机噪声中合成高分辨率和多样化的图像。降低GAN的计算成本,同时保持发电照片逼真的图像是一种紧急和具有挑战性的领域,用于其在计算资源限制设备上的广泛应用。在这项工作中,我们提出了一种新颖又简单的{\ bf d} isCriminator {\ bf g} uided {\ bf l}用于压缩vanilla {\ bf gaN}的折射方法,称为{\ bf dgl-gan}。受到教师歧视者可能包含一些有意义信息的现象的动机,我们通过对抗函数从教师歧视者转移知识。我们展示DGL-GAN自体虚拟性有效,从教师歧视者学习可以促进学生会的表现,通过广泛的实验结果验证。此外,我们提出了一个两级培训DGL-GAN的培训策略,当我们申请DGL-GAN来压缩两种最具代表性大规模的Vanilla Gans时,可以大大稳定其培训过程并实现卓越的性能。 。实验表明,DGL-GAN实现了最先进的(SOTA)在STYLAG2(FFHQ上的FID 2.92上有近1/3 $参数的FFH3)和Biggan(93.29和FID 9.92,在想象中有近1美元/ Biggan的4 $参数)并优于几种现有的香草GAN压缩技术。此外,DGL-GAN也有效地提高了原始未压缩的GAN的性能,原始未压缩的风格2升高的DGL-GAN促进了FFHQ的FID 2.65,这实现了新的最先进的性能。代码和模型可用于\ url {https://github.com/yuesongtian/dgl-gan}。
translated by 谷歌翻译
有条件的生成对冲网络(CGANS)为许多视觉和图形应用程序启用了可控图像合成。然而,最近的CGANS比现代识别CNNS更加计算密集型1-2个数量级。例如,Gaugan每张图像消耗281G Mac,而MobileNet-V3的0.44g Mac相比,使交互式部署难以实现。在这项工作中,我们提出了一种通用压缩框架,用于减少CGAN中发电机的推理时间和模型大小。直接应用现有的压缩方法由于GaN培训的难度和发电机架构的差异而产生差的性能。我们以两种方式解决了这些挑战。首先,为了稳定GaN培训,我们将原型模型的多个中间表示的知识转移到其压缩模型,统一未配对和配对的学习。其次,我们的方法通过神经架构搜索找到高效的架构,而不是重用现有的CNN设计。为了加速搜索过程,我们通过重量共享解耦模型培训并搜索。实验证明了我们在不同监督环境,网络架构和学习方法中的方法的有效性。在没有损失图像质量的情况下,我们将Cycleangan,Pix2pix的Cryclan,Pix2pix的计算计算为12倍,Munit By 29X,Gaugan,通过9倍,为交互式图像合成铺平道路。
translated by 谷歌翻译
知识蒸馏在模型压缩方面取得了显着的成就。但是,大多数现有方法需要原始的培训数据,而实践中的实际数据通常是不可用的,因为隐私,安全性和传输限制。为了解决这个问题,我们提出了一种有条件的生成数据无数据知识蒸馏(CGDD)框架,用于培训有效的便携式网络,而无需任何实际数据。在此框架中,除了使用教师模型中提取的知识外,我们将预设标签作为额外的辅助信息介绍以培训发电机。然后,训练有素的发生器可以根据需要产生指定类别的有意义的培训样本。为了促进蒸馏过程,除了使用常规蒸馏损失,我们将预设标签视为地面真理标签,以便学生网络直接由合成训练样本类别监督。此外,我们强制学生网络模仿教师模型的注意图,进一步提高了其性能。为了验证我们方法的优越性,我们设计一个新的评估度量称为相对准确性,可以直接比较不同蒸馏方法的有效性。培训的便携式网络通过提出的数据无数据蒸馏方法获得了99.63%,99.07%和99.84%的CIFAR10,CIFAR100和CALTECH101的相对准确性。实验结果表明了所提出的方法的优越性。
translated by 谷歌翻译
Stylegan家族是无条件产生的最受欢迎的生成对抗网络(GAN)之一。尽管其性能令人印象深刻,但其对存储和计算的需求很高,仍阻碍了他们在资源约束设备上的部署。本文提供了对流行风格的建筑的蒸馏的全面研究。我们的关键见解是,StyleGAN蒸馏的主要挑战在于输出差异问题,在该问题中,教师和学生模型在给定相同的输入潜在代码的情况下产生不同的输出。标准知识蒸馏损失通常在这种异质蒸馏场景下失败。我们对此差异问题的原因和影响进行彻底分析,并确定映射网络在确定生成图像的语义信息中起着至关重要的作用。基于这一发现,我们为学生模型提出了一种新颖的初始化策略,该策略可以确保最大程度的输出一致性。为了进一步增强教师和学生模型之间的语义一致性,我们提出了基于潜在的蒸馏损失,可保留潜在空间中的语义关系。广泛的实验证明了我们的方法在蒸馏式stylegan2和stylegan3中的有效性,超过了现有的gan蒸馏方法。
translated by 谷歌翻译
知识蒸馏最近成为一种流行的技术,以改善卷积神经网络的模型泛化能力。然而,它对图形神经网络的影响小于令人满意的,因为图形拓扑和节点属性可能以动态方式改变,并且在这种情况下,静态教师模型引导学生培训不足。在本文中,我们通过在在线蒸馏时期同时培训一组图形神经网络来解决这一挑战,其中组知识发挥作用作为动态虚拟教师,并且有效地捕获了图形神经网络的结构变化。为了提高蒸馏性能,在学生之间转移两种知识,以增强彼此:在图形拓扑和节点属性中反映信息的本地知识,以及反映课程预测的全局知识。随着香草知识蒸馏等,在利用有效的对抗性循环学习框架,将全球知识与KL分歧转移。广泛的实验验证了我们提出的在线对抗蒸馏方法的有效性。
translated by 谷歌翻译
In recent years, generative adversarial networks (GANs) have been an actively studied topic and shown to successfully produce high-quality realistic images in various domains. The controllable synthesis ability of GAN generators suggests that they maintain informative, disentangled, and explainable image representations, but leveraging and transferring their representations to downstream tasks is largely unexplored. In this paper, we propose to distill knowledge from GAN generators by squeezing and spanning their representations. We squeeze the generator features into representations that are invariant to semantic-preserving transformations through a network before they are distilled into the student network. We span the distilled representation of the synthetic domain to the real domain by also using real training data to remedy the mode collapse of GANs and boost the student network performance in a real domain. Experiments justify the efficacy of our method and reveal its great significance in self-supervised representation learning. Code is available at https://github.com/yangyu12/squeeze-and-span.
translated by 谷歌翻译
图像转换是一类视觉和图形问题,其目标是学习输入图像和输出图像之间的映射,在深神网络的背景下迅速发展。在计算机视觉(CV)中,许多问题可以被视为图像转换任务,例如语义分割和样式转移。这些作品具有不同的主题和动机,使图像转换任务蓬勃发展。一些调查仅回顾有关样式转移或图像到图像翻译的研究,所有这些都只是图像转换的一个分支。但是,没有一项调查总结这些调查在我们最佳知识的统一框架中共同起作用。本文提出了一个新颖的学习框架,包括独立学习,指导学习和合作学习,称为IGC学习框架。我们讨论的图像转换主要涉及有关深神经网络的一般图像到图像翻译和样式转移。从这个框架的角度来看,我们回顾了这些子任务,并对各种情况进行统一的解释。我们根据相似的开发趋势对图像转换的相关子任务进行分类。此外,已经进行了实验以验证IGC学习的有效性。最后,讨论了新的研究方向和开放问题,以供将来的研究。
translated by 谷歌翻译
在过去的十年中,许多深入学习模型都受到了良好的培训,并在各种机器智能领域取得了巨大成功,特别是对于计算机视觉和自然语言处理。为了更好地利用这些训练有素的模型在域内或跨域转移学习情况下,提出了知识蒸馏(KD)和域适应(DA)并成为研究亮点。他们旨在通过原始培训数据从训练有素的模型转移有用的信息。但是,由于隐私,版权或机密性,原始数据并不总是可用的。最近,无数据知识转移范式吸引了吸引人的关注,因为它涉及从训练有素的模型中蒸馏宝贵的知识,而无需访问培训数据。特别是,它主要包括无数据知识蒸馏(DFKD)和源无数据域适应(SFDA)。一方面,DFKD旨在将域名域内知识从一个麻烦的教师网络转移到一个紧凑的学生网络,以进行模型压缩和有效推论。另一方面,SFDA的目标是重用存储在训练有素的源模型中的跨域知识并将其调整为目标域。在本文中,我们对知识蒸馏和无监督域适应的视角提供了全面的数据知识转移,以帮助读者更好地了解目前的研究状况和想法。分别简要审查了这两个领域的应用和挑战。此外,我们对未来研究的主题提供了一些见解。
translated by 谷歌翻译
视频对视频合成(VID2VID)在从一系列语义图中生成照片真实视频方面取得了显着的结果。但是,该管道遭受了高计算成本和较长的推理潜伏期的损失,这在很大程度上取决于两个基本因素:1)网络体系结构参数,2)顺序数据流。最近,基于图像的生成模型的参数已通过更有效的网络体系结构显着压缩。然而,现有方法主要集中于减肥网络体系结构,而忽略了顺序数据流的大小。此外,由于缺乏时间连贯性,基于图像的压缩不足以压缩视频任务。在本文中,我们提出了一个时空的压缩框架,\ textbf {fast-vid2vid},该框架着重于生成模型的数据方面。它首次尝试减少计算资源并加速推理。具体而言,我们在空间上压缩输入数据流并减少时间冗余。在提出的时空知识蒸馏之后,我们的模型可以使用低分辨率数据流合成密钥框架。最后,快速VID2VID通过运动补偿以轻微延迟为中间框架插入中间框架。在标准基准测试中,快速VID2VID围绕实时性能达到20 fps,并在单个V100 GPU上节省了约8倍的计算成本。
translated by 谷歌翻译
强大的模拟器高度降低了在培训和评估自动车辆时对真实测试的需求。数据驱动的模拟器蓬勃发展,最近有条件生成对冲网络(CGANS)的进步,提供高保真图像。主要挑战是在施加约束之后的同时合成光量造型图像。在这项工作中,我们建议通过重新思考鉴别者架构来提高所生成的图像的质量。重点是在给定对语义输入生成图像的问题类上,例如场景分段图或人体姿势。我们建立成功的CGAN模型,提出了一种新的语义感知鉴别器,更好地指导发电机。我们的目标是学习一个共享的潜在表示,编码足够的信息,共同进行语义分割,内容重建以及粗糙的粒度的对抗性推理。实现的改进是通用的,并且可以应用于任何条件图像合成的任何架构。我们展示了我们在场景,建筑和人类综合任务上的方法,跨越三个不同的数据集。代码可在https://github.com/vita-epfl/semdisc上获得。
translated by 谷歌翻译
知识蒸馏已成为获得紧凑又有效模型的重要方法。为实现这一目标,培训小型学生模型以利用大型训练有素的教师模型的知识。然而,由于教师和学生之间的能力差距,学生的表现很难达到老师的水平。关于这个问题,现有方法建议通过代理方式减少教师知识的难度。我们认为这些基于代理的方法忽视了教师的知识损失,这可能导致学生遇到容量瓶颈。在本文中,我们从新的角度来缓解能力差距问题,以避免知识损失的目的。我们建议通过对抗性协作学习建立一个更有力的学生,而不是牺牲教师的知识。为此,我们进一步提出了一种逆势协作知识蒸馏(ACKD)方法,有效提高了知识蒸馏的性能。具体来说,我们用多个辅助学习者构建学生模型。同时,我们设计了对抗的对抗性协作模块(ACM),引入注意机制和对抗的学习,以提高学生的能力。四个分类任务的广泛实验显示了拟议的Ackd的优越性。
translated by 谷歌翻译
使用适当的电感偏差,反事实生成网络(CGN)可以从形状,纹理和背景歧管的随机组合中生成新图像。这些图像可以用于训练不变的分类器,避免了深层体系结构学习虚假相关性而不是有意义的问题。结果,改善了室外鲁棒性。但是,CGN体系结构包括多个参数化网络,即BigGan和U2-NET。培训这些网络需要适当的背景知识和广泛的计算。由于一个人并不总是能够访问精确的培训细节,也不总是拥有反事实的必要知识,因此我们的工作解决了以下问题:我们可以使用预先训练的CGN中嵌入的知识来培训低容量的模型,假设对架构组件的黑框访问(即仅访问验证的CGN模型)?在这个方向上,我们提出了一项名为SKDCGN的新颖作品,该作品尝试使用知识蒸馏(KD)尝试知识转移。在我们提出的架构中,每个独立的机制(形状,纹理,背景)都由一个学生“ tinygan”代表,该学生从预验证的老师“ Biggan”中学习。我们通过使用KD和适当的损失函数来证明使用最先进的数据集(例如ImageNet)和MNIST的疗效。此外,作为另一项贡献,我们的论文对CGN的组成机制进行了详尽的研究,以更好地了解每种机制如何影响不变分类器的分类精度。代码可用:https://github.com/ambekarsameer96/skdcgn
translated by 谷歌翻译
图形神经网络(GNN)已被广泛用于建模图形结构化数据,这是由于其在广泛的实用应用中令人印象深刻的性能。最近,GNNS的知识蒸馏(KD)在图形模型压缩和知识转移方面取得了显着进步。但是,大多数现有的KD方法都需要大量的真实数据,这些数据在实践中不容易获得,并且可能排除其在教师模型对稀有或难以获取数据集培训的情况下的适用性。为了解决这个问题,我们提出了第一个用于图形结构化数据(DFAD-GNN)的无数据对抗知识蒸馏的端到端框架。具体而言,我们的DFAD-GNN采用生成性对抗网络,主要由三个组成部分组成:预先训练的教师模型和学生模型被视为两个歧视者,并利用生成器来衍生训练图来从教师模型进入学生模型。在各种基准模型和六个代表性数据集上进行的广泛实验表明,我们的DFAD-GNN在图形分类任务中显着超过了最新的无数据基线。
translated by 谷歌翻译
近年来,深度卷积神经网络在病理学图像分割方面取得了重大进展。然而,病理图像分割遇到困境,其中更高绩效网络通常需要更多的计算资源和存储。由于病理图像的固有高分辨率,这种现象限制了实际场景中的高精度网络的就业。为了解决这个问题,我们提出了一种用于病理胃癌细分的新型跨层相关(COCO)知识蒸馏网络。知识蒸馏,通过从繁琐的网络从知识转移提高紧凑型网络的性能的一般技术。具体而言,我们的Coco Distillnet模拟了不同层之间的通道混合空间相似性的相关性,然后将这些知识从预培训的繁琐的教师网络传送到非培训的紧凑学生网络。此外,我们还利用了对抗性学习策略来进一步提示被称为对抗性蒸馏(AD)的蒸馏程序。此外,为了稳定我们的培训程序,我们利用无监督的释义模块(PM)来提高教师网络中的知识释义。结果,对胃癌细分数据集进行的广泛实验表明了Coco Distillnet的突出能力,实现了最先进的性能。
translated by 谷歌翻译
由于我们是婴儿,我们直观地发展了与视觉,音频和文本等不同认知传感器的输入相关联的能力。然而,在机器学习中,这种跨模型学习是一种非活动任务,因为不同的方式没有均匀性质。以前的作品发现,应该有不同的方式存在桥梁。从神经病学和心理学的角度来看,人类有能力将一种模态与另一个方式联系起来,例如,将一只鸟的图片与歌唱的唯一听证者相关联,反之亦然。机器学习算法是否可能恢复给定音频信号的场景?在本文中,我们提出了一种新型级联关注的残留甘(Car-GaN),旨在重建给定相应的音频信号的场景。特别地,我们介绍残留物模块,以逐渐降低不同方式之间的间隙。此外,具有新型分类损失函数的级联注意网络旨在解决跨模型学习任务。我们的模型在高级语义标签域中保持一致性,并且能够平衡两种不同的模式。实验结果表明,我们的模型在具有挑战性的子URMP数据集上实现了最先进的跨模型视听生成。代码将在https://github.com/tuffr5/car-gan中获得。
translated by 谷歌翻译
生成的对抗网络(GANS)产生高质量的图像,但致力于训练。它们需要仔细正常化,大量计算和昂贵的超参数扫描。我们通过将生成和真实样本投影到固定的预级特征空间中,在这些问题上进行了重要的头路。发现鉴别者无法充分利用来自预押模型的更深层次的特征,我们提出了更有效的策略,可以在渠道和分辨率中混合特征。我们预计的GaN提高了图像质量,样品效率和收敛速度。它与最多一个百万像素的分辨率进一步兼容,并在二十二个基准数据集上推进最先进的FR \'Echet Inception距离(FID)。重要的是,预计的GAN符合先前最低的FID速度快40倍,鉴于相同的计算资源,将壁钟时间从5天切割到不到3小时。
translated by 谷歌翻译