准确的三维感知是几个计算机视觉应用程序中的一项基本任务。最近,由于其有效的深度感应能力,商用RGB深度(RGB-D)相机已被广泛用作单视深度感应设备。但是,由于单视环境的固有噪声,大多数RGB-D传感器的深度质量仍然不足。最近,一些研究集中在RGB-D摄像机的单视深度增强上。最近的研究提出了基于深度学习的方法,通常使用高质量的监督深度数据集训练网络,这表明地面真相(GT)深度数据集的质量是准确系统的最重要的重要因素。但是,这种高质量的GT数据集很难获得。在这项研究中,我们开发了一种基于RGB-D流数据集的高质量GT深度生成的新方法。首先,我们将局部空间区域中的连续深度帧定义为本地框架集。然后,使用无监督的点云注册方案将深度框架对齐到本地框架集中的某个帧。根据过度培训方案对注册参数进行了训练,该方案主要用于为每个帧集构造单个GT深度图像。最终的GT深度数据集是使用多个本地框架集构建的,每个本地框架集经过独立训练。这项研究的主要优点是,只能使用RGB-D流数据集在各种扫描环境下构建高质量的GT深度数据集。此外,我们提出的方法可以用作新的基准GT数据集,以进行准确的性能评估。我们在先前基准的GT深度数据集上评估了GT数据集,并证明我们的方法优于最新的深度增强框架。
translated by 谷歌翻译
已知最近的清晰度感知最小化(SAM)可以找到平坦的最小值,这有助于改善稳健性。 Sam通过报告当前迭代周围的小社区内的最大损失值来修改损失函数。但是,它使用欧几里得球来定义邻域,这可能是不准确的,因为神经网络的损失函数通常是根据概率分布(例如类预测概率)定义的,从而使参数空间空间非欧几里得。在本文中,我们在定义邻里时考虑了模型参数空间的信息几何形状,即用Fisher信息引起的椭圆形取代Sam的欧几里得球。我们称为Fisher Sam的方法定义了符合基础统计歧管的内在度量的更准确的邻域结构。例如,由于我们的Fisher Sam避免了参数空间几何形状,因此SAM可能会在附近或不当远处探测最坏情况下的损失值。最近,另一种自适应SAM方法会根据参数幅度的规模拉伸/收缩欧几里得球。这可能是危险的,有可能破坏邻里结构。我们证明了在几个基准数据集/任务上提出的Fisher SAM的性能提高。
translated by 谷歌翻译
我们解决了跨模型检索问题,其中培训仅受数据中相关的多模态对进行监督。对比学习是此任务最受欢迎的方法。然而,其对学习的抽样复杂性是训练数据点数的二次。此外,它可能是错误的假设,即不同对的实例自动无关紧要。为解决这些问题,我们提出了一种基于未知课程的自我标签的新型损失函数。具体而言,我们的目标是预测每个模态中的数据实例的类标签,并将那些标签分配给其他模态中的相应实例(即,交换伪标签)。使用这些交换的标签,我们使用监督的交叉熵丢失来学习每个模态的数据嵌入,因此导致线性采样复杂性。我们还将队列保留用于存储最新批次的嵌入物,其中群集分配和嵌入学习在在线时尚同时完成。这消除了注入用于离线群集的整个训练数据扫描的间歇时期的计算开销。我们在几个真实跨模型检索问题上测试了我们的方法,包括基于文本的视频检索,基于文本的图像检索和图像文本检索,以及我们的方法对对比学习的显着性能提高实现了显着的性能改善。
translated by 谷歌翻译
Meta Learning几次分类是最近获得巨大关注的机器学习中的新出现问题,其中目标是学习一个可以快速适应新任务的模型,只有少数标记的数据。我们认为贝叶斯高斯过程(GP)方法,其中我们先前学习GP,并且通过从后部推理的GP预测模型进行对新任务的适应。我们采用Laplace后近似,但是为了规避寻找地图解决方案的迭代梯度步骤,我们将新的线性判别分析(LDA)插件作为地图解决方案介绍。从本质上讲,地图解决方案近似于LDA估计,但要在考虑到GP,我们采用先前的调整来估算LDA的共享方差参数,这确保了调整后的估计在先前与GP一致。这使得能够闭合可分辨率的GP后断和预测性分布,从而允许快速的元训练。我们对以前的方法表现出相当大的改进。
translated by 谷歌翻译
GPT-3显示了培训的大规模语言模型(LMS)的卓越情调学习能力,培训数十亿规模数据。在这里,我们解决了GPT-3纸张报告的一些剩余问题,例如非英语LM,不同大小模型的性能,以及最近引入的迅速优化对上下文学习的效果。为实现这一目标,我们介绍了HyperClova,一个韩国VPT-3的韩国变体训练在一个以韩国为中心的560b标准的令牌。通过我们的韩国特定标记化,HyperClova与我们的培训配置增强,显示了韩国各种下游任务的最先进的上下游零射击和几秒钟学习表演。此外,我们展示了基于及时的学习的性能优势,并演示如何集成到迅速的工程管道中。然后,我们讨论了通过引入Hyperclova Studio,互动提示工程界面向ML的非专家提供AI原型设计能力来实现No Code AI范例的可能性。最后,我们展示了我们具有三个成功的内部应用程序的方法的潜力。
translated by 谷歌翻译
我们介绍了一种新的图像取证方法:将物理折射物(我们称为图腾)放入场景中,以保护该场景拍摄的任何照片。图腾弯曲并重定向光线,因此在单个图像中提供了多个(尽管扭曲)的多个(尽管扭曲)。防守者可以使用这些扭曲的图腾像素来检测是否已操纵图像。我们的方法通过估计场景中的位置并使用其已知的几何和材料特性来估算其位置,从而使光线通过图腾的光线不十障。为了验证图腾保护的图像,我们从图腾视点重建的场景与场景的外观从相机的角度来检测到不一致之处。这样的方法使对抗性操纵任务更加困难,因为对手必须以几何一致的方式对图腾和图像像素进行修改,而又不知道图腾的物理特性。与先前的基于学习的方法不同,我们的方法不需要在特定操作的数据集上进行培训,而是使用场景和相机的物理属性来解决取证问题。
translated by 谷歌翻译
我们提出了Styletalker,这是一种新颖的音频驱动的会说话的头部生成模型,可以从单个参考图像中综合一个会说话的人的视频,并具有准确的音频同步的唇形,逼真的头姿势和眼睛眨眼。具体而言,通过利用预验证的图像生成器和图像编码器,我们估计了会说话的头视频的潜在代码,这些代码忠实地反映了给定的音频。通过几个新设计的组件使这成为可能:1)一种用于准确唇部同步的对比性唇部同步鉴别剂,2)一种条件顺序的连续变异自动编码器,该差异自动编码器了解从唇部运动中解散的潜在运动空间,以便我们可以独立地操纵运动运动的运动。和唇部运动,同时保留身份。 3)自动回归事先增强,并通过标准化流量来学习复杂的音频到运动多模式潜在空间。配备了这些组件,Styletalker不仅可以在给出另一个运动源视频时以动作控制的方式生成说话的头视频,而且还可以通过从输入音频中推断出现实的动作,以完全由音频驱动的方式生成。通过广泛的实验和用户研究,我们表明我们的模型能够以令人印象深刻的感知质量合成会说话的头部视频,这些视频与输入音频相符,可以准确地唇部同步,这在很大程度上要优于先进的基线。
translated by 谷歌翻译
点云的特征描述符用于多种应用中,例如注册和3D点云的部分分割。毫无疑问,学习局部几何特征的判别性表示是准确的点云分析的最重要任务。但是,开发旋转或规模不变的描述符是具有挑战性的。以前的大多数研究都忽略了旋转或经验研究的最佳比例参数,这阻碍了该方法对现实世界数据集的适用性。在本文中,我们提出了一种新的本地功能描述方法,该方法对旋转,密度和比例变化具有鲁棒性。此外,为了改善本地描述符的表示,我们提出了一种全局聚合方法。首先,我们将内核沿正常方向对齐。为了避免正常矢量的符号问题,我们在切向平面中使用对称内核点分布。从每个内核点,我们首先将点从空间空间到特征空间投射,该点基于角度和距离,这是强大的到多个尺度和旋转的。随后,我们通过考虑通过全局聚合方法获得的局部内核点结构和远程全局上下文来执行图形卷积。我们在基准数据集(即ModelNet40和shapenetPart)上尝试了提出的描述符,以评估3D点云上的注册,分类和部分分割的性能。与最先进的方法相比,我们的方法表现出卓越的性能,通过减少注册任务中的旋转和翻译错误的70美元$ \%$。我们的方法还显示了具有简单和低维体系结构的分类和零件分割任务的可比性。
translated by 谷歌翻译
The 3D-aware image synthesis focuses on conserving spatial consistency besides generating high-resolution images with fine details. Recently, Neural Radiance Field (NeRF) has been introduced for synthesizing novel views with low computational cost and superior performance. While several works investigate a generative NeRF and show remarkable achievement, they cannot handle conditional and continuous feature manipulation in the generation procedure. In this work, we introduce a novel model, called Class-Continuous Conditional Generative NeRF ($\text{C}^{3}$G-NeRF), which can synthesize conditionally manipulated photorealistic 3D-consistent images by projecting conditional features to the generator and the discriminator. The proposed $\text{C}^{3}$G-NeRF is evaluated with three image datasets, AFHQ, CelebA, and Cars. As a result, our model shows strong 3D-consistency with fine details and smooth interpolation in conditional feature manipulation. For instance, $\text{C}^{3}$G-NeRF exhibits a Fr\'echet Inception Distance (FID) of 7.64 in 3D-aware face image synthesis with a $\text{128}^{2}$ resolution. Additionally, we provide FIDs of generated 3D-aware images of each class of the datasets as it is possible to synthesize class-conditional images with $\text{C}^{3}$G-NeRF.
translated by 谷歌翻译
In both terrestrial and marine ecology, physical tagging is a frequently used method to study population dynamics and behavior. However, such tagging techniques are increasingly being replaced by individual re-identification using image analysis. This paper introduces a contrastive learning-based model for identifying individuals. The model uses the first parts of the Inception v3 network, supported by a projection head, and we use contrastive learning to find similar or dissimilar image pairs from a collection of uniform photographs. We apply this technique for corkwing wrasse, Symphodus melops, an ecologically and commercially important fish species. Photos are taken during repeated catches of the same individuals from a wild population, where the intervals between individual sightings might range from a few days to several years. Our model achieves a one-shot accuracy of 0.35, a 5-shot accuracy of 0.56, and a 100-shot accuracy of 0.88, on our dataset.
translated by 谷歌翻译