Hinged on the representation power of neural networks, neural radiance fields (NeRF) have recently emerged as one of the promising and widely applicable methods for 3D object and scene representation. However, NeRF faces challenges in practical applications, such as large-scale scenes and edge devices with a limited amount of memory, where data needs to be processed sequentially. Under such incremental learning scenarios, neural networks are known to suffer catastrophic forgetting: easily forgetting previously seen data after training with new data. We observe that previous incremental learning algorithms are limited by either low performance or memory scalability issues. As such, we develop a Memory-Efficient Incremental Learning algorithm for NeRF (MEIL-NeRF). MEIL-NeRF takes inspiration from NeRF itself in that a neural network can serve as a memory that provides the pixel RGB values, given rays as queries. Upon the motivation, our framework learns which rays to query NeRF to extract previous pixel values. The extracted pixel values are then used to train NeRF in a self-distillation manner to prevent catastrophic forgetting. As a result, MEIL-NeRF demonstrates constant memory consumption and competitive performance.
translated by 谷歌翻译
We tackle the problem of generating long-term 3D human motion from multiple action labels. Two main previous approaches, such as action- and motion-conditioned methods, have limitations to solve this problem. The action-conditioned methods generate a sequence of motion from a single action. Hence, it cannot generate long-term motions composed of multiple actions and transitions between actions. Meanwhile, the motion-conditioned methods generate future motions from initial motion. The generated future motions only depend on the past, so they are not controllable by the user's desired actions. We present MultiAct, the first framework to generate long-term 3D human motion from multiple action labels. MultiAct takes account of both action and motion conditions with a unified recurrent generation system. It repetitively takes the previous motion and action label; then, it generates a smooth transition and the motion of the given action. As a result, MultiAct produces realistic long-term motion controlled by the given sequence of multiple action labels. The code will be released.
translated by 谷歌翻译
我们提出了一种从荧光X射线序列中提取冠状动脉血管的方法。给定源框架的血管结构,随后框架中的血管对应候选者是由新型的分层搜索方案生成的,以克服孔径问题。最佳对应关系是在马尔可夫随机字段优化框架内确定的。由于对比剂的流入,进行后处理以提取新近可见的血管分支。在18个序列的数据集上进行的定量和定性评估证明了该方法的有效性。
translated by 谷歌翻译
尽管具有卷积神经网络(CNN)的图像超分辨率(SR)的突破性进步,但由于SR网络的计算复杂性很高,SR尚未享受无处不在的应用。量化是解决此问题的有前途方法之一。但是,现有的方法无法量化低于8位的位宽度的SR模型,由于固定的位宽度量化量的严重精度损失。在这项工作中,为了实现高平均比重减少,准确性损失较低,我们建议针对SR网络的新颖的内容感知动态量化(CADYQ)方法,该方法将最佳位置分配给本地区域和层,并根据输入的本地内容适应。图片。为此,引入了一个可训练的位选择器模块,以确定每一层和给定的本地图像补丁的适当位宽度和量化水平。该模块受量化灵敏度的控制,该量化通过使用贴片的图像梯度的平均幅度和层的输入特征的标准偏差来估计。拟议的量化管道已在各种SR网络上进行了测试,并对几个标准基准进行了广泛评估。计算复杂性和升高恢复精度的显着降低清楚地表明了SR提出的CADYQ框架的有效性。代码可从https://github.com/cheeun/cadyq获得。
translated by 谷歌翻译
尽管在3D服装的人类重建中取得了很多进展,但大多数现有方法无法从野外图像产生强大的结果,其中包含各种人类的姿势和外观。这主要是由于训练数据集和野外数据集之间存在较大的域间隙。训练数据集通常是合成数据集,其中包含来自GT 3D扫描的渲染图像。但是,与真实的野外数据集相比,此类数据集包含简单的人类姿势和较少的自然图像外观,这使其对野外图像的概括非常具有挑战性。为了解决这个问题,在这项工作中,我们提出了一个3D衣服的人类重建框架,该框架首先解决了露天图像的稳健性。首先,为了使域间隙的鲁棒性,我们提出了一条弱监督的管道,该管道可通过野外数据集的2D监督目标进行训练。其次,我们设计了基于密集的损失功能,以减少弱监督的歧义。对几个公共野外数据集进行的广泛经验测试表明,我们提议的布牛会产生比最先进的方法更准确和强大的结果。这些代码可在此处提供:https://github.com/hygenie1228/clothwild_release。
translated by 谷歌翻译
将外观的图像编辑成令人惊叹的照片需要技巧和时间。自动图像增强算法通过在没有用户交互的情况下生成高质量的图像来引起人们的兴趣。但是,照片的质量评估是主观的。即使在音调和颜色调整中,自动增强的一张照片对于适合用户偏好的挑战也很具有挑战性。为了解决此问题,我们提出了一种半自动图像增强算法,该算法可以通过控制一些参数来生成具有多种样式的高质量图像。我们首先将照片修饰的技能从高质量的图像中解脱出来,并为每种技能建立有效的增强系统。具体而言,编码器框架框架将修饰技能编码为潜在代码,并将它们解码为图像信号处理(ISP)函数的参数。 ISP函数在计算上是有效的,仅由19个参数组成。尽管我们需要多次推断才能获得所需的结果,但实验结果表明,所提出的方法在基准数据集上实现了最先进的性能,以提高图像质量和模型效率。
translated by 谷歌翻译
近年来,通过开发大型的深层模型,图像修复任务已经见证了绩效的巨大提高。尽管表现出色,但深层模型要求的重量计算限制了图像恢复的应用。为了提高限制,需要减少网络的大小,同时保持准确性。最近,N:M结构化修剪似乎是使模型具有准确性约束的有效且实用的修剪方法之一。但是,它无法解释图像恢复网络不同层的不同计算复杂性和性能要求。为了进一步优化效率和恢复精度之间的权衡,我们提出了一种新型的修剪方法,该方法确定了每一层N:M结构稀疏性的修剪比。关于超分辨率和脱张任务的广泛实验结果证明了我们方法的功效,该方法的表现胜过以前的修剪方法。拟议方法的Pytorch实施将在https://github.com/junghunoh/sls_cvpr2r2022上公开获得。
translated by 谷歌翻译
过滤器修剪的目标是搜索不重要的过滤器以删除以便使卷积神经网络(CNNS)有效而不牺牲过程中的性能。挑战在于找到可以帮助确定每个过滤器关于神经网络的最终输出的重要或相关的信息的信息。在这项工作中,我们分享了我们的观察说,预先训练的CNN的批量标准化(BN)参数可用于估计激活输出的特征分布,而无需处理训练数据。在观察时,我们通过基于预先训练的CNN的BN参数评估每个滤波器的重要性来提出简单而有效的滤波修剪方法。 CiFar-10和Imagenet的实验结果表明,该方法可以在准确性下降和计算复杂性的计算复杂性和降低的折衷方面具有和不进行微调的卓越性能。
translated by 谷歌翻译
我们考虑从野外拥挤的场景中恢复一个人的3D人网格的问题。尽管在3D人网估计中取得了很多进展,但当测试输入的场景拥挤时,现有的方法很难。失败的第一个原因是训练和测试数据之间的域间隙。一个运动捕获数据集为训练提供准确的3D标签,缺乏人群数据,并阻碍了网络无法学习目标人的拥挤场景射击图像特征。第二个原因是功能处理,该功能处理在空间上平均包含多个人的本地化边界框的特征图。平均整个功能映射使目标人的特征与他人无法区分。我们提出了3dcrowdnet,首先要明确针对野生野外的场景,并通过解决上述问题来估算强大的3D人网。首先,我们利用2D人姿势估计不需要带有3D标签的运动捕获数据集进行训练,并且不受域间隙的困扰。其次,我们提出了一个基于联合的回归器,将目标人的特征与他人区分开来。我们的基于联合的回归器通过对目标关节位置的采样特征来保留目标的空间激活并回归人类模型参数。结果,3DCORDNET学习了针对目标的功能,并有效地排除了附近人的无关特征。我们对各种基准进行实验,并证明3dcrowdnet对野外拥挤的场景的鲁棒性在定量和定性上。该代码可在https://github.com/hongsukchoi/3dcrowdnet_release上获得。
translated by 谷歌翻译
量化图像超分辨率的深卷积神经网络大大降低了它们的计算成本。然而,现有的作品既不患有4个或低位宽度的超低精度的严重性能下降,或者需要沉重的微调过程以恢复性能。据我们所知,这种对低精度的漏洞依赖于特征映射值的两个统计观察。首先,特征贴图值的分布每个通道和每个输入图像都变化显着变化。其次,特征映射具有可以主导量化错误的异常值。基于这些观察,我们提出了一种新颖的分布感知量化方案(DAQ),其促进了超低精度的准确训练量化。 DAQ的简单功能确定了具有低计算负担的特征图和权重的动态范围。此外,我们的方法通过计算每个通道的相对灵敏度来实现混合精度量化,而无需涉及任何培训过程。尽管如此,量化感知培训也适用于辅助性能增益。我们的新方法优于最近的培训甚至基于培训的量化方法,以超低精度为最先进的图像超分辨率网络。
translated by 谷歌翻译