Text-guided image editing can have a transformative impact in supporting creative applications. A key challenge is to generate edits that are faithful to input text prompts, while consistent with input images. We present Imagen Editor, a cascaded diffusion model built, by fine-tuning Imagen on text-guided image inpainting. Imagen Editor's edits are faithful to the text prompts, which is accomplished by using object detectors to propose inpainting masks during training. In addition, Imagen Editor captures fine details in the input image by conditioning the cascaded pipeline on the original high resolution image. To improve qualitative and quantitative evaluation, we introduce EditBench, a systematic benchmark for text-guided image inpainting. EditBench evaluates inpainting edits on natural and generated images exploring objects, attributes, and scenes. Through extensive human evaluation on EditBench, we find that object-masking during training leads to across-the-board improvements in text-image alignment -- such that Imagen Editor is preferred over DALL-E 2 and Stable Diffusion -- and, as a cohort, these models are better at object-rendering than text-rendering, and handle material/color/size attributes better than count/shape attributes.
translated by 谷歌翻译
用于评估有条件自然语言生成的传统自动化指标使用单个生成的文本和最佳匹配的金标准地面真相文本之间的成对比较。当有多个基础真相可用时,分数将使用参考中的平均或最大操作进行汇总。尽管这种方法在地面真相数据中的多样性(即有条件文本的分布的分散)可以归因于噪声,例如自动语音识别中,但在地面上的多样性的情况下,它不允许进行强有力的评估。真理代表模型的信号。在这项工作中,我们认为现有的指标不适合诸如视觉描述或摘要之类的域,而地面真理在语义上是多样的,并且这些字幕中的多样性捕获了有关上下文的有用的其他信息。我们提出了一种新的范式,用于对条件语言生成模型的多键入评估以及一个新的指标家族,该指标家族使用每种少量样本集比较参考和模型生成的字幕集的分布。我们通过视觉描述中的案例研究证明了方法的实用性:我们在其中证明现有模型优化了单描述质量而不是多样性,并获得了对采样方法和温度影响如何描述质量和多样性的一些见解。
translated by 谷歌翻译
图形着色是一个经典且关键的NP硬性问题,是分配尽可能不同颜色的连接节点的问题。但是,我们观察到,最新的GNN在图形着色问题中不太成功。我们从两个角度分析原因。首先,大多数GNN都无法将任务概括为同质性的任务,即在其中分配了不同颜色的图形。其次,GNN受网络深度的界定,使其成为一种本地方法,在最大独立集(MIS)问题中已证明这是非最佳选择的。在本文中,我们专注于流行的GNN类的聚合 - 结合GNNS(AC-GNNS)。我们首先将AC-GNN在着色问题中的功能定义为分配节点不同颜色的能力。该定义与以前的定义不同,该定义是基于同质的假设。我们确定了AC-GNN无法区分的节点对。此外,我们表明任何AC-GNN都是本地着色方法,并且任何局部着色方法都是通过稀疏随机图探索局部方法的极限,从而证明了AC-GNN的非典型性财产。然后,我们证明了模型深度与其着色能力之间的正相关。此外,我们讨论了图形的颜色模棱两可,以应对一些实际约束,例如预固化约束。在上面的讨论之后,我们总结了一系列规则一系列规则,这些规则使GNN颜色均等且功能强大。然后,我们提出了满足这些规则的简单AC-GNN变化。我们从经验上验证了我们的理论发现,并证明我们的简单模型在质量和运行时都大大优于最先进的启发式算法。
translated by 谷歌翻译
生成视频数据的表示对于推进机器感知领域至关重要。大多数当前的技术都依赖于手工注册的数据,这些数据可能很难使用,生成昂贵且难以扩展。在这项工作中,我们提出了一种基于对比度学习的新颖学习方法,熔岩能够以一种自我监督的方式学习联合语言,音频和视频表示。我们使用变压器编码器在动力学700数据集上预先训练熔岩来学习每种模式的表示形式。然后,我们证明,熔岩在使用未标记的数据的一小部分时,与当前最新的自我监督和弱监督预审技术进行了竞争性能。
translated by 谷歌翻译
仅使用单视2D照片的收藏集对3D感知生成对抗网络(GAN)的无监督学习最近取得了很多进展。然而,这些3D gan尚未证明人体,并且现有框架的产生的辐射场不是直接编辑的,从而限制了它们在下游任务中的适用性。我们通过开发一个3D GAN框架来解决这些挑战的解决方案,该框架学会在规范的姿势中生成人体或面部的辐射场,并使用显式变形场将其扭曲成所需的身体姿势或面部表达。使用我们的框架,我们展示了人体的第一个高质量的辐射现场生成结果。此外,我们表明,与未接受明确变形训练的3D GAN相比,在编辑其姿势或面部表情时,我们的变形感知训练程序可显着提高产生的身体或面部的质量。
translated by 谷歌翻译
手工和小规模的黄金开采(ASGM)是许多家庭的重要收入来源,但它可以产生巨大的社会和环境影响,尤其是在发展中国家的雨林中。Sentinel-2卫星收集了多光谱图像,可用于检测水位和质量的变化,这表明采矿地点位置。这项工作着重于对秘鲁亚马逊雨林中ASGM活动的认可。我们根据支持向量机(SVM)测试了几个半监督分类器,以检测Madre de Dios地区从2019年到2021年的水体变化,这是ASGM活动的全球热点之一。实验表明,基于SVM的模型可以实现RGB的合理性能(使用Cohen的$ \ kappa $ 0.49)和6通道图像(使用Cohen的$ \ kappa $ 0.71),具有非常有限的注释。还分析了合并实验室色彩空间的功效。
translated by 谷歌翻译
机器学习和认知科学的最新工作表明,了解因果信息对于智力的发展至关重要。使用``Blicket otter''环境的认知科学的广泛文献表明,孩子们擅长多种因果推理和学习。我们建议将该环境适应机器​​学习代理。当前机器学习算法的关键挑战之一是建模和理解因果关系:关于因果关系集的可转移抽象假设。相比之下,即使是幼儿也会自发学习和使用因果关系。在这项工作中,我们提出了一个新的基准 - 一种灵活的环境,可以评估可变因果溢出物下的现有技术 - 并证明许多现有的最新方法在这种环境中概括了困难。该基准的代码和资源可在https://github.com/cannylab/casual_overhypothess上获得。
translated by 谷歌翻译
深度神经网络在很大程度上证明了他们通过从输入音频帧中提取有意义的功能来执行自动语音识别(ASR)的能力。但是,此类功能不仅包括有关口语内容的信息,而且还可能包含有关不必要上下文的信息,例如背景噪声和声音或说话者身份,口音或受保护的属性。这样的信息可以通过引入口头词与说出此类词的上下文之间的虚假相关性来直接损害概括性能。在这项工作中,我们介绍了一种无监督的,编码的方法,用于将语音编码器描述为明确的内容编码表示和虚假的上下文编码表示形式。通过这样做,我们证明了标准ASR基准的性能提高,并在现实世界和人为嘈杂的ASR方案中的性能提高。
translated by 谷歌翻译
生成时间连贯的高保真视频是生成建模研究中的重要里程碑。我们通过提出一个视频生成的扩散模型来取得这一里程碑的进步,该模型显示出非常有希望的初始结果。我们的模型是标准图像扩散体系结构的自然扩展,它可以从图像和视频数据中共同训练,我们发现这可以减少Minibatch梯度的方差并加快优化。为了生成长而更高的分辨率视频,我们引入了一种新的条件抽样技术,用于空间和时间视频扩展,该技术的性能比以前提出的方法更好。我们介绍了大型文本条件的视频生成任务,以及最新的结果,以实现视频预测和无条件视频生成的确定基准。可从https://video-diffusion.github.io/获得补充材料
translated by 谷歌翻译
随着社交媒体平台越来越多地采用了简短的视频,通过视频帖子减少错误信息的传播已成为社交媒体提供商的关键挑战。在本文中,我们开发了在社交媒体帖子中检测错误信息的方法,从而利用了视频和文本等方式。由于缺乏在多模式数据集中检测错误信息检测的大规模公共数据,因此我们从Twitter收集160,000个视频帖子,并利用自学学习的学习来学习联合视觉和文本数据的表达性表示。在这项工作中,我们提出了两种新方法,用于基于对比度学习和掩盖语言建模的短形式社交媒体视频帖子中的语义不一致。我们证明,我们的新方法在通过随机交汇正面样本和在野外的新手动标记测试集中,在野外生成的人工数据上的最新方法都超过了当前的最新方法,以进行语义错误信息。
translated by 谷歌翻译