Virtual reality and augmented reality (XR) bring increasing demand for 3D content. However, creating high-quality 3D content requires tedious work that a human expert must do. In this work, we study the challenging task of lifting a single image to a 3D object and, for the first time, demonstrate the ability to generate a plausible 3D object with 360{\deg} views that correspond well with the given reference image. By conditioning on the reference image, our model can fulfill the everlasting curiosity for synthesizing novel views of objects from images. Our technique sheds light on a promising direction of easing the workflows for 3D artists and XR designers. We propose a novel framework, dubbed NeuralLift-360, that utilizes a depth-aware neural radiance representation (NeRF) and learns to craft the scene guided by denoising diffusion models. By introducing a ranking loss, our NeuralLift-360 can be guided with rough depth estimation in the wild. We also adopt a CLIP-guided sampling strategy for the diffusion prior to provide coherent guidance. Extensive experiments demonstrate that our NeuralLift-360 significantly outperforms existing state-of-the-art baselines. Project page: https://vita-group.github.io/NeuralLift-360/
translated by 谷歌翻译
Implicit Neural Representations (INRs) encoding continuous multi-media data via multi-layer perceptrons has shown undebatable promise in various computer vision tasks. Despite many successful applications, editing and processing an INR remains intractable as signals are represented by latent parameters of a neural network. Existing works manipulate such continuous representations via processing on their discretized instance, which breaks down the compactness and continuous nature of INR. In this work, we present a pilot study on the question: how to directly modify an INR without explicit decoding? We answer this question by proposing an implicit neural signal processing network, dubbed INSP-Net, via differential operators on INR. Our key insight is that spatial gradients of neural networks can be computed analytically and are invariant to translation, while mathematically we show that any continuous convolution filter can be uniformly approximated by a linear combination of high-order differential operators. With these two knobs, INSP-Net instantiates the signal processing operator as a weighted composition of computational graphs corresponding to the high-order derivatives of INRs, where the weighting parameters can be data-driven learned. Based on our proposed INSP-Net, we further build the first Convolutional Neural Network (CNN) that implicitly runs on INRs, named INSP-ConvNet. Our experiments validate the expressiveness of INSP-Net and INSP-ConvNet in fitting low-level image and geometry processing kernels (e.g. blurring, deblurring, denoising, inpainting, and smoothening) as well as for high-level tasks on implicit fields such as image classification.
translated by 谷歌翻译
神经体积表示表明,MLP网络可以通过多视图校准图像来训练MLP网络,以表示场景的几何形状和外观,而无需显式3D监督。对象分割可以根据学习的辐射字段丰富许多下游应用程序。但是,引入手工制作的细分以在复杂的现实世界中定义感兴趣的区域是非平凡且昂贵的,因为它获得了每个视图注释。本文使用NERF进行复杂的现实世界场景来探索对物体分割的自我监督学习。我们的框架,nerf-sos,夫妻对象分割和神经辐射字段,以在场景中的任何视图中分割对象。通过提出一种新颖的合作对比度损失,在外观和几何水平上,NERF-SOS鼓励NERF模型将紧凑的几何学分割簇从其密度字段中提炼出紧凑的几何学分割簇以及自我监督的预训练的预训练的2D视觉特征。可以将自我监督的对象分割框架应用于各种NERF模型,这些模型既可以导致室内和室外场景的照片真实的渲染结果和令人信服的分割。 LLFF,坦克和寺庙数据集的广泛结果验证了NERF-SOS的有效性。它始终超过其他基于图像的自我监督基线,甚至比监督的语义nerf捕捉细节。
translated by 谷歌翻译
我们提出了可推广的NERF变压器(GNT),这是一种纯粹的,统一的基于变压器的体系结构,可以从源视图中有效地重建神经辐射场(NERF)。与NERF上的先前作品不同,通过颠倒手工渲染方程来优化人均隐式表示,GNT通过封装两个基于变压器的阶段来实现可概括的神经场景表示和渲染。 GNT的第一阶段,称为View Transformer,利用多视图几何形状作为基于注意力的场景表示的电感偏差,并通过在相邻视图上从异性线中汇总信息来预测与坐标对齐的特征。 GNT的第二阶段,名为Ray Transformer,通过Ray Marching呈现新视图,并使用注意机制直接解码采样点特征的序列。我们的实验表明,当在单个场景上进行优化时,GNT可以在不明确渲染公式的情况下成功重建NERF,甚至由于可学习的射线渲染器,在复杂的场景上甚至将PSNR提高了〜1.3db。当在各种场景中接受培训时,GNT转移到前面的LLFF数据集(LPIPS〜20%,SSIM〜25%$)和合成搅拌器数据集(LPIPS〜20%,SSIM 〜25%$)时,GNN会始终达到最先进的性能4%)。此外,我们表明可以从学习的注意图中推断出深度和遮挡,这意味着纯粹的注意机制能够学习一个物理地面渲染过程。所有这些结果使我们更接近将变形金刚作为“通用建模工具”甚至用于图形的诱人希望。请参阅我们的项目页面以获取视频结果:https://vita-group.github.io/gnt/。
translated by 谷歌翻译
使用神经网络编码HyperGraphs的HyperGraph神经网络(HNNS)为建模数据中的高阶关系提供了一种有希望的方法,并进一步解决了基于此类高阶关系的相关预测任务。但是,实践中的高阶关系包含复杂的模式,通常是高度不规则的。因此,设计一个足以表达这些关系的HNN在保持计算效率的同时,通常是一项挑战。受到超图扩散算法的启发,这项工作提出了一种名为ED-HNN的新型HNN体系结构,该结构可证明可以代表任何可以建模广泛的高阶关系的连续均值超差扩散算子。 ED-HNN可以通过将超图的星形扩展与传递神经网络的标准消息相结合来有效地实现。 ED-HNN进一步在处理异性超图和建造深层模型方面表现出了极大的优势。我们评估了在9个现实世界中的HyperGraph数据集上进行节点分类的ED-HNN。 ED-HNN均匀地胜过这9个数据集的最佳基线,并在其中四个数据集中获得了超过2 \%$ \ uparrow $的预测准确性。
translated by 谷歌翻译
与基于离散网格的表示相比,通过基于坐标的深层完全连接网络表示视觉信号在拟合复杂的细节和求解逆问题方面有优势。但是,获得这种连续的隐式神经表示(INR)需要对信号测量值进行繁琐的人均培训,这限制了其实用性。在本文中,我们提出了一个通用的INR框架,该框架通过从数据收集中学习神经隐式词典(NID)来实现数据和培训效率,并将INR表示为词典的基础采样的功能组合。我们的NID组装了一组基于坐标的子网,这些子网已调整为跨越所需的函数空间。训练后,可以通过求解编码系数立即,稳健地获取看不见的场景表示形式。为了使大量网络优化,我们借用了从专家的混合物(MOE)借用这个想法,以设计和训练我们的网络,以稀疏的门控机制。我们的实验表明,NID可以将2D图像或3D场景的重建提高2个数量级,而输入数据少98%。我们进一步证明了NID在图像浇筑和遮挡清除中的各种应用,这被认为是香草INR的挑战。我们的代码可在https://github.com/vita-group/neural-implitic-dict中找到。
translated by 谷歌翻译
神经辐射场(NERF)通过通过地面真相监督差异渲染多视图图像来回归神经参数化场景。但是,当插值新颖的观点时,NERF通常会产生不一致和视觉上不平滑的几何结果,我们认为这是可见和看不见的观点之间的概括差距。卷积神经网络的最新进展表明,随机或学到的先进的强大数据增强有望增强分布和分布外的概括。受此启发,我们提出了增强的NERF(Aug-nerf),这首先将强大的数据增强功能带入正规化NERF培训。特别是,我们的提议学会了将最坏情况的扰动无缝融合到NERF管道的三个不同级别,并包括(1)输入坐标,以模拟图像捕获中的不精确的摄像机参数; (2)中间特征,以平滑固有特征歧管; (3)预先渲染的输出,以说明多视图图像监督中的潜在降解因子。广泛的结果表明,Aug-nerf在新型视图合成(高达1.5dB PSNR增益)和基础几何重建中有效地提高了NERF性能。此外,得益于三级增强的隐含平稳先验,Aug-nerf甚至可以从严重损坏的图像中恢复场景,这是一个高度挑战性的环境,以前没有被隔离。我们的代码可在https://github.com/vita-group/aug-nerf中找到。
translated by 谷歌翻译
通过隐式表示表示视觉信号(例如,基于坐标的深网)在许多视觉任务中都占了上风。这项工作探讨了一个新的有趣的方向:使用可以适用于各种2D和3D场景的广义方法训练风格化的隐式表示。我们对各种隐式函数进行了试点研究,包括基于2D坐标的表示,神经辐射场和签名距离函数。我们的解决方案是一个统一的隐式神经风化框架,称为INS。与Vanilla隐式表示相反,INS将普通隐式函数分解为样式隐式模块和内容隐式模块,以便从样式图像和输入场景中分别编码表示表示。然后,应用合并模块来汇总这些信息并合成样式化的输出。为了使3D场景中的几何形状进行正规化,我们提出了一种新颖的自我鉴定几何形状一致性损失,该损失保留了风格化场景的几何忠诚度。全面的实验是在多个任务设置上进行的,包括对复杂场景的新型综合,隐式表面的风格化以及使用MLP拟合图像。我们进一步证明,学到的表示不仅是连续的,而且在风格上都是连续的,从而导致不同样式之间毫不费力地插值,并以新的混合样式生成图像。请参阅我们的项目页面上的视频以获取更多查看综合结果:https://zhiwenfan.github.io/ins。
translated by 谷歌翻译
尽管神经辐射场(NERF)迅速发展,但稠密的必要性在很大程度上禁止其更广泛的应用。尽管最近的一些作品试图解决这个问题,但它们要么以稀疏的视图(仍然是其中的一些)操作,要么在简单的对象/场景上运行。在这项工作中,我们考虑了一项更雄心勃勃的任务:通过“只看一次”,即仅使用单个视图来训练神经辐射场,而是在现实的复杂视觉场景上。为了实现这一目标,我们提出了一个视图NERF(SINNERF)框架,该框架由精心设计的语义和几何正规化组成。具体而言,Sinnerf构建了一个半监督的学习过程,我们在其中介绍并传播几何标签和语义伪标签,以指导渐进式训练过程。广泛的实验是在复杂的场景基准上进行的,包括NERF合成数据集,本地光场融合数据集和DTU数据集。我们表明,即使在多视图数据集上进行预训练,Sinnerf也可以产生照片现实的新型视图合成结果。在单个图像设置下,Sinnerf在所有情况下都显着胜过当前最新的NERF基线。项目页面:https://vita-group.github.io/sinnerf/
translated by 谷歌翻译
事实证明,丰富的用户行为数据对于点击率(CTR)预测应用程序具有很高的价值,尤其是在工业推荐,搜索或广告系统中。但是,由于在线服务时间的严格要求,现实世界系统不仅可以充分利用长期用户行为。大多数以前的作品都采用基于检索的策略,在此策略中,首先检索了少数用户行为以进行后续注意。但是,基于检索的方法是最佳的,会造成或多或少的信息损失,并且很难平衡检索算法的有效性和效率。在本文中,我们提出了SDIM(基于采样的深度兴趣建模),这是一种简单但有效的基于采样的端到端方法,用于建模长期用户行为。我们从多个哈希功能中采样,以生成候选项目和用户行为序列中的每个项目的哈希签名,并通过直接收集与具有相同哈希签名的候选项目相关的行为项来获得用户兴趣。我们在理论上和实验上表明,所提出的方法在基于标准的基于注意力的模型上对长期用户行为进行建模,同时更快。我们还介绍了系统中SDIM的部署。具体而言,我们通过设计一个名为BSE(行为序列编码)的单独模块(行为序列编码),将行为序列哈希(这是最耗时的部分)解脱出最耗时的部分。 BSE对于CTR服务器是无延迟的,使我们能够建模极长的用户行为。进行离线和在线实验,以证明SDIM的有效性。 SDIM现在已在线部署在Meituan应用程序的搜索系统中。
translated by 谷歌翻译