为了使视频模型能够在不同环境中无缝应用,已经提出了各种视频无监督的域适应性(VUDA)方法来提高视频模型的鲁棒性和可传递性。尽管模型鲁棒性有所改进,但这些VUDA方法仍需要访问源数据和源模型参数以进行适应,从而提高了严重的数据隐私和模型可移植性问题。为了应对上述问题,本文首先将Black-Box视频域的适应(BVDA)制定为更现实但具有挑战性的场景,在该场景中,仅作为Black-Box预测器提供了源视频模型。尽管在图像域中提出了一些针对黑框域适应性(BDA)的方法,但这些方法不能适用于视频域,因为视频模式具有更复杂的时间特征,难以对齐。为了解决BVDA,我们通过应用蒙版到混合策略和视频量的正则化:内部正规化和外部正规化,提出了一个新颖的内野和外部正规化网络(EXTERS),在剪辑和时间特征上执行,并进行外部正规化,同时将知识从从黑框预测变量获得的预测中提炼出来。经验结果表明,在各种跨域封闭设置和部分集合动作识别基准中,外部的最先进性能甚至超过了具有源数据可访问性的大多数现有视频域适应方法。
translated by 谷歌翻译
神经隐式表示在新的视图合成和来自多视图图像的高质量3D重建方面显示了其有效性。但是,大多数方法都集中在整体场景表示上,但忽略了其中的各个对象,从而限制了潜在的下游应用程序。为了学习对象组合表示形式,一些作品将2D语义图作为训练中的提示,以掌握对象之间的差异。但是他们忽略了对象几何和实例语义信息之间的牢固联系,这导致了单个实例的不准确建模。本文提出了一个新颖的框架ObjectsDF,以在3D重建和对象表示中构建具有高保真度的对象复合神经隐式表示。观察常规音量渲染管道的歧义,我们通过组合单个对象的签名距离函数(SDF)来对场景进行建模,以发挥明确的表面约束。区分不同实例的关键是重新审视单个对象的SDF和语义标签之间的牢固关联。特别是,我们将语义信息转换为对象SDF的函数,并为场景和对象开发统一而紧凑的表示形式。实验结果表明,ObjectSDF框架在表示整体对象组合场景和各个实例方面的优越性。可以在https://qianyiwu.github.io/objectsdf/上找到代码
translated by 谷歌翻译
弱监督的点云分段,即,由于在整个3D场景中只有几个标记点的点云,因此由于为模型训练收集丰富的密集注释的沉重负担,因此是非常可取的。但是,由于有限的注释数据可能导致标签传播的指导不足,因此现有方法仍然具有挑战性,无法准确细分3D点云。考虑到基于平滑度的方法已经取得了令人鼓舞的进步,在本文中,我们主张在各种扰动下应用一致性约束,以有效地正规化未标记的3D点。具体而言,我们提出了一个新颖的dat(\ textbf {d} ual \ textbf {a} dappive \ textbf {t} ransformations模型,用于弱监督点云进行分割,其中双重自适应转换是通过两种对敌方策略在点 - 级别和区域级别,旨在在3D点云上执行局部和结构平滑度约束。我们在大规模S3DIS和SCANNET-V2数据集上使用两个流行的骨干评估了我们提出的DAT模型。广泛的实验表明,我们的模型可以有效地利用未标记的3D点并在两个数据集上实现显着的性能增长,从而为弱监督的点云进行了新的最新性能。
translated by 谷歌翻译
近年来,WiFi传感一直在迅速发展。通过传播模型和深度学习方法的能力,实现了许多具有挑战性的应用,例如基于WiFi的人类活动识别和手势识别。但是,与深入学习视觉识别和自然语言处理相反,没有足够全面的公共基准。在本文中,我们强调了最新的深度学习进展,使WiFi传感能够感测,然后提出了一个基准SensenFI,以研究各种深度学习模型对WiFi传感的有效性。这些高级模型是根据独特的传感任务,WiFi平台,识别精度,模型大小,计算复杂性,功能可传递性以及无监督学习的适应性进行比较的。从CSI硬件平台到传感算法,它也被认为是基于深度学习的WiFi传感的教程。广泛的实验为我们提供了深层模型设计,学习策略技能和培训技术的经验。据我们所知,这是第一个带开源库的基准,用于WiFi传感研究中的深度学习。基准代码可在https://github.com/chenxinyan-sg/wifi-csi-sensing-benchmark上获得。
translated by 谷歌翻译
训练大型神经网络(NN)模型需要广泛的记忆资源,而激活压缩训练(ACT)是减少训练记忆足迹的一种有前途的方法。本文介绍了GACT,这是一个ACT框架,旨在支持具有有限域知识的通用NN体系结构的广泛机器学习任务。通过分析ACT近似梯度的线性化版本,我们证明了GACT的收敛性,而没有有关操作员类型或模型体系结构的先验知识。为了使训练保持稳定,我们提出了一种算法,该算法通过估计运行时对梯度的影响来决定每个张量的压缩比。我们将GACT实施为Pytorch库,很容易适用于任何NN体系结构。GACT将卷积NN,变压器和图形NNS的激活记忆降低到8.1倍,从而使4.2倍至24.7倍的训练能够较大,而精度损失可忽略不计。
translated by 谷歌翻译
通过将熵编解码器应用于学习的数据分布,神经压缩机在压缩比方面显着优于传统编解码器。但是,神经网络的高推断潜伏期阻碍了实际应用中神经压缩机的部署。在这项工作中,我们提出了仅整数离散流(IODF),这是一种具有仅整数算术的有效神经压缩机。我们的工作建立在整数离散流的基础上,该流程包括离散随机变量之间的可逆转换。我们提出了基于8位量化的纯整数算术的有效可逆转换。我们的可逆转换配备了可学习的二进制门,以在推理过程中去除冗余过滤器。我们在GPU上使用Tensorrt部署IODF,与现有最快的神经压缩机相比,达到10倍推理的速度,同时保留了Imagenet32和Imagenet64上的高压缩率。
translated by 谷歌翻译
基于分数的生成模型在发电质量和可能性方面具有出色的性能。他们通过将参数化的分数网络与一阶数据得分功能匹配来建模数据分布。分数网络可用于定义ODE(“基于得分的扩散ode”),以进行精确的似然评估。但是,颂歌的可能性与得分匹配目标之间的关系尚不清楚。在这项工作中,我们证明,匹配一阶得分不足以通过在最大可能性和分数匹配目标之间显示差距来最大化ode的可能性。为了填补这一空白,我们表明,可以通过控制第一,第二和三阶得分匹配错误来界定颂歌的负可能性;我们进一步提出了一种新型的高阶denoising评分匹配方法,以实现基于得分的扩散ODE的最大似然训练。我们的算法确保高阶匹配误差受训练错误和较低级错误的限制。我们从经验上观察到,通过高阶匹配,基于得分的扩散频率在合成数据和CIFAR-10上都具有更好的可能性,同时保留了高生成质量。
translated by 谷歌翻译
扩散概率模型(DPM)是新兴的强大生成模型。尽管具有高质量的生成性能,但DPM仍然遭受缓慢采样的苦难,因为它们通常需要数百或数千个大型神经网络的顺序函数评估(步骤)来绘制样本。可以将来自DPM的采样视为求解相应的扩散普通微分方程(ODE)。在这项工作中,我们提出了扩散ODE的溶液的精确表述。该公式通过分析计算解决方案的线性部分,而不是将所有术语留给先前工作中采用的黑盒ode求解器。通过应用可变化的更改,可以将解决方案等效地简化为神经网络的指数加权积分。根据我们的公式,我们提出了DPM-Solver,这是一种通过收敛顺序保证的快速专用高阶求解器。 DPM溶剂适用于离散时间和连续时间DPM,而无需进行任何进一步的培训。实验结果表明,DPM-Solver可以在各种数据集上的10至20个功能评估中生成高质量的样本。我们在10个功能评估中实现了4.70 FID,在CIFAR10数据集上进行20个功能评估中的2.87 FID,与以前的各种数据集中的先前最先进的无培训样本器相比,$ 4 \ sim 16 \ times $速度。
translated by 谷歌翻译
WiFi sensing technology has shown superiority in smart homes among various sensors for its cost-effective and privacy-preserving merits. It is empowered by Channel State Information (CSI) extracted from WiFi signals and advanced machine learning models to analyze motion patterns in CSI. Many learning-based models have been proposed for kinds of applications, but they severely suffer from environmental dependency. Though domain adaptation methods have been proposed to tackle this issue, it is not practical to collect high-quality, well-segmented and balanced CSI samples in a new environment for adaptation algorithms, but randomly-captured CSI samples can be easily collected. {\color{black}In this paper, we firstly explore how to learn a robust model from these low-quality CSI samples, and propose AutoFi, an annotation-efficient WiFi sensing model based on a novel geometric self-supervised learning algorithm.} The AutoFi fully utilizes unlabeled low-quality CSI samples that are captured randomly, and then transfers the knowledge to specific tasks defined by users, which is the first work to achieve cross-task transfer in WiFi sensing. The AutoFi is implemented on a pair of Atheros WiFi APs for evaluation. The AutoFi transfers knowledge from randomly collected CSI samples into human gait recognition and achieves state-of-the-art performance. Furthermore, we simulate cross-task transfer using public datasets to further demonstrate its capacity for cross-task learning. For the UT-HAR and Widar datasets, the AutoFi achieves satisfactory results on activity recognition and gesture recognition without any prior training. We believe that the AutoFi takes a huge step toward automatic WiFi sensing without any developer engagement.
translated by 谷歌翻译
由于高速互联网访问的要求增加,WiFi技术已应用于各个地方。最近,除了网络服务之外,WiFi Sensing在智能家居中还具有吸引力,因为它是无设备,具有成本效益和隐私性的。尽管已经开发了许多WiFi传感方法,但其中大多数仅考虑单个智能家庭场景。没有强大的云服务器和大量用户的连接,大规模的WiFi感应仍然很困难。在本文中,我们首先分析和总结了这些障碍,并提出了一个有效的大规模WiFi传感框架,即有效的障碍。 EfficityFI与中心服务器处的WiFi APS和云计算一起使用Edge Computing。它由一个新颖的深神经网络组成,该网络可以在Edge处压缩细粒的WiFi通道状态信息(CSI),在云中恢复CSI,并同时执行感应任务。量化的自动编码器和联合分类器旨在以端到端的方式实现这些目标。据我们所知,EfficityFi是第一个启用IoT-Cloud WiFi传感框架,可大大减少开销的交流,同时准确地实现感应任务。我们通过WiFi传感利用人类活动识别和鉴定为两个案例研究,并进行了广泛的实验以评估有效性。结果表明,它将CSI数据从1.368MB/s压缩至0.768kb/s,数据重建的误差极低,并且可以达到超过98%的人类活动识别精度。
translated by 谷歌翻译