Standard language model training employs gold human documents or human-human interaction data, and treats all training data as positive examples. Growing evidence shows that even with very large amounts of positive training data, issues remain that can be alleviated with relatively small amounts of negative data -- examples of what the model should not do. In this work, we propose a novel procedure to train with such data called the CRINGE loss (ContRastive Iterative Negative GEneration). We show the effectiveness of this approach across three different experiments on the tasks of safe generation, contradiction avoidance, and open-domain dialogue. Our models outperform multiple strong baselines and are conceptually simple, easy to train and implement.
translated by 谷歌翻译
智能对话代理人和人类之间互动的承诺是,模型可以从这种反馈中学习以改进。不幸的是,野外的这种交流并不总是涉及良性或高质量的人类话语,并将包括订婚的(助手),未接触甚至恶意用户(巨魔)的混合。在这项工作中,我们研究了如何在这种环境中进行强大的学习。我们引入了基准评估,即Safetymix,可以评估在各种对抗环境中学习安全语言与有毒语言的方法,以测试其稳健性。我们建议和分析几种缓解学习算法,这些算法在示例或用户级别上识别巨魔。我们的主要发现是,基于用户的方法考虑到巨魔用户将在多个示例中表现出对抗性行为,在我们的基准测试中的各种环境中都可以使用。然后,我们在部署期间收集的对话的进一步现实生活中测试这些方法,结果相似。
translated by 谷歌翻译
经过培训的模拟静态数据集的冷冻模型永远无法提高其性能。可以采用互联网进行互联网以获取最新信息并在部署期间从人类那里获得反馈的模型提供了适应新信息并提高其性能的承诺。在这项工作中,我们研究了如何在此类学习框架中提高以互联网为导向的对话技能。我们收集人类互动的部署数据,并公开可用,并收集各种类型的人类反馈 - 包括二进制质量测量,自由形式的文本反馈和罚款良好的失败原因。然后,我们研究了各种从此类反馈中改进的算法,包括标准监督学习,拒绝抽样,模型引导和基于奖励的学习,以便对哪种类型的反馈和算法效果最好。我们发现最近介绍的导演模型(Arora等人,'22)比其他现有方法显示出显着改善。
translated by 谷歌翻译
我们提出了Blenderbot 3,这是一个175B参数对话模型,能够通过访问Internet和长期内存进行开放域对话,并接受了大量用户定义的任务的培训。我们同时发布了模型权重和代码,还将模型部署在公共网页上,以与有机用户进行交互。该技术报告描述了该模型的构建方式(建筑,模型和培训计划)以及其部署的细节,包括安全机制。人类评估表明,它优于现有的开放域对话代理,包括其前身(Roller等,2021; Komeili等,2022)。最后,我们使用部署收集的数据详细介绍了持续学习的计划,该数据也将公开发布。因此,该研究计划的目标是使社区能够研究通过互动学习的不断改进的负责任的代理商。
translated by 谷歌翻译
当前的语言模型达到了较低的困惑,但其产生的几代人仍然遭受有毒的反应,重复性和矛盾。标准语言建模设置无法解决这些问题。在本文中,我们介绍了一个新的体系结构{\ sc导演},由一个统一的生成器分类器组成,具有语言建模和每个输出令牌的分类头。培训是使用标准语言建模数据共同进行的,并以所需和不良序列标记的数据。与标准语言模型相比,该模型在多种设置中的实验表明,该模型具有竞争性的培训和解码速度,同时产生了较高的结果,从而减轻了已知的问题,同时保持发电质量。就准确性和效率而言,它还优于现有的模型指导方法。
translated by 谷歌翻译
在改善的核心,会话AI是如何评估对话的公开问题。具有自动指标的问题是众所周知的(Liu等,2016年,Arxiv:1603.08023),人类评估仍然认为黄金标准。不幸的是,如何进行人类评估也是一个公开问题:不同的数据收集方法具有不同程度的人类协议和统计敏感性,导致人类注释时间和劳动力成本不同。在这项工作中,我们比较五个不同的人群人的人类评估方法,并发现不同的方法是最重要的,具体取决于模型的类型相比,董事会没有明确的赢家。虽然这突出了该地区的开放问题,但我们的分析导致建议何时使用哪一个以及未来的未来方向。
translated by 谷歌翻译
最先进的对话模型仍然对事实准确性和自我矛盾甚至困难。轶事,他们已被观察到在整个话语中未能维持性质身份;更具体地,可能会涉及其对话者的作用。在这项工作中,我们正规化和量化这种缺陷,并通过人类评估实验表明这确实是一个问题。相比之下,我们展示了专门识别谁在谈话的歧视模型可以表现良好;此外,这些可以用作自动指标。最后,我们评估了各种缓解方法,包括模型架构,培训协议和解码策略的变化。根据人类的注释者,我们最好的车型减少了近65%的误认为是近65%,同时提高了参与度。尽管有这些结果,但我们发现维持性格身份仍然是一个具有挑战性的问题。
translated by 谷歌翻译
大型语言模型可以产生流畅的对话,但往往是幻觉的事实不准确。虽然检索式增强的模型有助于缓解这个问题,但他们仍然面临着推理的艰难挑战,以便同时提供正确的知识和产生对话。在这项工作中,我们提出了一种模块化模型,知识响应(K2R),将知识纳入会话代理商,这将这个问题分解为两个更简单的步骤。 K2R首先生成一个知识序列,给定对话背景作为中间步骤。在此“推理步骤”之后,该模型随后参加自己生成的知识序列,以及对话背景,以产生最终的响应。在详细的实验中,我们发现这种模型在知识接地的对话任务中少幻觉,并且在可解释性和模块化方面具有优势。特别地,它可以用来将QA和对话系统一起融合在一起,以使对话代理能够提供知识渊博的答案,或者QA模型,以在零拍摄设置中给出对话响应。
translated by 谷歌翻译
在预介质期间,预解压器变压器遭受梯度幅度不匹配:早期层处的梯度远远大于更高层的层。我们所提出的常规程序架构可以减轻这些问题,这为每层增加了三个归一化操作:自我注意后的一层规范,自我注意输出的头部明智的缩放,以及第一完全连接层之后的层标。额外的运营产生忽略不计的计算成本(+ 0.4%的参数增加),但是改善了从12500万到27亿个参数的因果和屏蔽语言模型的预先欣赏困惑和下游任务性能。例如,在我们最强的1.3B参数基线顶部添加NARMFORMER可以在相同的计算预算中更快地达到24%的平等困惑,或者更好地收敛0.27困惑。该模型达到GPT3大(1.3B)零拍摄性能速度快60%。对于屏蔽语言建模,Normformer平均将微调胶水性能提高1.9%。 Fairseq HTTPS://github.com/pytorch/faireq/tree/main/examples/normformer提供培训ormalformer模型的代码。
translated by 谷歌翻译
We introduce a new large-scale NLI benchmark dataset, collected via an iterative, adversarial human-and-model-in-the-loop procedure. We show that training models on this new dataset leads to state-of-the-art performance on a variety of popular NLI benchmarks, while posing a more difficult challenge with its new test set. Our analysis sheds light on the shortcomings of current state-of-theart models, and shows that non-expert annotators are successful at finding their weaknesses. The data collection method can be applied in a never-ending learning scenario, becoming a moving target for NLU, rather than a static benchmark that will quickly saturate.
translated by 谷歌翻译