Large-scale diffusion-based generative models have led to breakthroughs in text-conditioned high-resolution image synthesis. Starting from random noise, such text-to-image diffusion models gradually synthesize images in an iterative fashion while conditioning on text prompts. We find that their synthesis behavior qualitatively changes throughout this process: Early in sampling, generation strongly relies on the text prompt to generate text-aligned content, while later, the text conditioning is almost entirely ignored. This suggests that sharing model parameters throughout the entire generation process may not be ideal. Therefore, in contrast to existing works, we propose to train an ensemble of text-to-image diffusion models specialized for different synthesis stages. To maintain training efficiency, we initially train a single model, which is then split into specialized models that are trained for the specific stages of the iterative generation process. Our ensemble of diffusion models, called eDiff-I, results in improved text alignment while maintaining the same inference computation cost and preserving high visual quality, outperforming previous large-scale text-to-image diffusion models on the standard benchmark. In addition, we train our model to exploit a variety of embeddings for conditioning, including the T5 text, CLIP text, and CLIP image embeddings. We show that these different embeddings lead to different behaviors. Notably, the CLIP image embedding allows an intuitive way of transferring the style of a reference image to the target text-to-image output. Lastly, we show a technique that enables eDiff-I's "paint-with-words" capability. A user can select the word in the input text and paint it in a canvas to control the output, which is very handy for crafting the desired image in mind. The project page is available at https://deepimagination.cc/eDiff-I/
translated by 谷歌翻译
尽管在基于生成的对抗网络(GAN)的声音编码器中,该模型在MEL频谱图中生成原始波形,但在各种录音环境中为众多扬声器合成高保真音频仍然具有挑战性。在这项工作中,我们介绍了Bigvgan,这是一款通用的Vocoder,在零照片环境中在各种看不见的条件下都很好地概括了。我们将周期性的非线性和抗氧化表现引入到发电机中,这带来了波形合成所需的感应偏置,并显着提高了音频质量。根据我们改进的生成器和最先进的歧视器,我们以最大的规模训练我们的Gan Vocoder,最高到1.12亿个参数,这在文献中是前所未有的。特别是,我们识别并解决了该规模特定的训练不稳定性,同时保持高保真输出而不过度验证。我们的Bigvgan在各种分布场景中实现了最先进的零拍性能,包括新的扬声器,新颖语言,唱歌声音,音乐和乐器音频,在看不见的(甚至是嘈杂)的录制环境中。我们将在以下网址发布我们的代码和模型:https://github.com/nvidia/bigvgan
translated by 谷歌翻译
预审前的语言模型(LMS)易于生成具有非事实信息的文本。在这项工作中,我们测量并提高了开放式文本生成的大规模LMS的事实准确性。我们设计了FactualityPrompts测试集和指标,以衡量LM世代的事实。基于此,我们研究了参数尺寸范围从126m到530b不等的LMS的事实准确性。有趣的是,我们发现较大的LM比较小的LM更为事实,尽管先前的研究表明,在误解方面较大的LMS可能不太真实。此外,开放式文本生成中流行的采样算法(例如,顶级P)可能会损害由于每个采样步骤中引入的“均匀随机性”,因此损害了事实。我们提出的事实核采样算法会动态适应随机性,以改善发电的事实,同时保持质量。此外,我们分析了从事实文本语料库(例如Wikipedia)学习实体之间正确关联的标准培训方法的效率低下。我们提出了一种事实增强的培训方法,该方法使用topicprefix更好地意识到事实和句子完成作为培训目标,这可以大大减少事实错误。
translated by 谷歌翻译
尽管在文本到语音综合的生成建模方面取得了最新进展,但这些模型尚未具有与螺距条件确定性模型(例如FastPitch和fastspeech2)相同的细粒度可调节性。音调信息不仅是低维度,而且是不连续的,这使得在生成环境中建模特别困难。我们的工作探讨了在正常流量模型的背景下处理上述问题的几种技术。我们还发现这个问题非常适合神经条件流,这是归一化流中更常见的仿射耦合机制的高度表达替代品。
translated by 谷歌翻译
在这项工作中,我们提出了清洁nunet,这是原始波形上的因果语音deno的模型。所提出的模型基于编码器架构,并结合了几个自我注意块,以完善其瓶颈表示,这对于获得良好的结果至关重要。该模型通过在波形和多分辨率光谱图上定义的一组损失进行了优化。所提出的方法在各种客观和主观评估指标中的言语质量方面优于最先进的模型。
translated by 谷歌翻译
由于细微偏见,主观性和难以在规模上获得良好质量的数据集,尤其考虑到社会偏见和社会的不断变化本质,检测文本中的社会偏见是挑战。为了解决这些挑战,我们提出了一些基于指令的基于指令的方法,以提示预先接受预先接受的语言模型(LMS)。我们从最接近查询的小型支持存储库中选择一些标签平衡的示例,以便在嵌入空间中标记。然后,我们向LM提供由标记示例的此子集的指令,查询文本被分类,偏差定义,并提示它做出决定。我们证明了几次上下文中使用的大型LMS可以检测不同类型的细粒度偏差,具有与微调模型的相似且有时卓越的精度。我们观察到,与较小模型相比,最大的530B参数模型在检测社会偏差方面明显更有效(与其他模型相比,在AUC度量上实现至少20%)。它还在几张拍摄设置中保持高AUC(掉落小于5%),其中标记的存储库减少到100个样本的少量。因此,大型预制语言模型使得更容易且更快地建立新的偏置探测器。
translated by 谷歌翻译
视觉变压器在代表学习中提供了巨大的成功。这主要是由于通过自我关注混合的有效令牌。然而,这与像素的数量相当缩放,这对于高分辨率输入而变得不可行。为了应对这一挑战,我们将自适应傅里叶神经运营商(AFNO)提出为一个有效的令牌混合器,学习在傅立叶域中混合。 AFNO基于经营者学习的主要基础,这使我们可以将令牌混合作为连续的全局卷积,而无需任何对输入分辨率的依赖性。这一原则以前用于设计FNO,它在傅立叶域中有效地解决了全球卷积,并在学习挑战PDE时显示了承诺。为了处理视觉表现的挑战,例如图像和高分辨率输入中的不连续性,我们向FNO提出了原则的架构修改,从而导致内存和计算效率。这包括在信道混合重量上施加块对角线结构,通过软阈值和收缩来自适应地共享令牌的权重,并缩小频率模式。得到的模型与准线性复杂度高度平行,并且序列大小具有线性存储器。在效率和准确性方面,AFNO优于几次拍摄分割的自我关注机制。对于Segformer-B3骨架的城市景观分割,AFNO可以处理65K的序列大小,优于其他有效的自我关注机制。
translated by 谷歌翻译
变形金刚在语言和视觉域中取得了成功。然而,将它们缩放到长期序列(例如长)或高分辨率图像,因为自我关注机构相对于输入序列长度具有二次时间和存储器复杂性。在本文中,我们提出了长短变压器(变压器-LS),是一种有效的自我关注机制,用于对语言和视觉任务进行线性复杂性建模的长序列。它用动态投影聚集了一种新的远程关注,以模拟远处相关性和短期注意,以捕获细粒度的局部相关性。我们提出了双重正径策略,以解释两个注意机制之间的规模不匹配。变压器-LS可以应用于自回归和双向模型,而无需额外复杂。我们的方法在语言和视觉域中的多个任务中优于最先进的模型,包括远程竞技场基准,自回归语言建模和想象成分类。例如,变换器-LS使用比以前的方法的一半在eNWIK8上实现0.97测试BPC,同时与其在同一硬件上的全部关注版本相比,可以更快地处理3倍。在Imagenet上,它可以获得最先进的结果(例如,适度大小的55.8M模型,仅在224x224 Imagenet-1K上培训,可以获得顶级1精度84.1%),同时在高分辨率上更加可扩展图片。源代码和模型在https://github.com/nvidia/transformer-ls上发布。
translated by 谷歌翻译
In this work, we propose DiffWave, a versatile diffusion probabilistic model for conditional and unconditional waveform generation. The model is non-autoregressive, and converts the white noise signal into structured waveform through a Markov chain with a constant number of steps at synthesis. It is efficiently trained by optimizing a variant of variational bound on the data likelihood. DiffWave produces high-fidelity audio in different waveform generation tasks, including neural vocoding conditioned on mel spectrogram, class-conditional generation, and unconditional generation. We demonstrate that DiffWave matches a strong WaveNet vocoder in terms of speech quality (MOS: 4.44 versus 4.43), while synthesizing orders of magnitude faster. In particular, it significantly outperforms autoregressive and GAN-based waveform models in the challenging unconditional generation task in terms of audio quality and sample diversity from various automatic and human evaluations. 1 * Contributed to the work during an internship at Baidu Research, USA. 1 Audio samples are in: https://diffwave-demo.github.io/
translated by 谷歌翻译
Fig. 1. Masked images and corresponding inpainted results using our partialconvolution based network.
translated by 谷歌翻译