语音触发检测是一项重要的任务,它可以在目标用户说关键字短语时激活语音助手。通常对探测器进行语音数据培训,独立于说话者信息,并用于语音触发检测任务。但是,这样的说话者独立语音触发探测器通常会遭受绩效降低,因为代表性不足的群体,例如重音说话者。在这项工作中,我们提出了一个新颖的语音触发探测器,该触发探测器可以使用目标扬声器中的少量话语来提高检测准确性。我们提出的模型采用编码器架构。尽管编码器执行扬声器独立语音触发检测,但类似于传统检测器,解码器预测了每种话语的个性化嵌入。然后,获得个性化的语音触发分数作为在注册话语的嵌入与测试话语之间的相似性得分。个性化的嵌入允许在计算语音触发评分时适应目标扬声器的语音,从而提高语音触发检测精度。实验结果表明,与基线扬声器独立语音触发模型相比,所提出的方法相对降低(FRR)的相对降低38%。
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
We consider the problem of multi-agent navigation and collision avoidance when observations are limited to the local neighborhood of each agent. We propose InforMARL, a novel architecture for multi-agent reinforcement learning (MARL) which uses local information intelligently to compute paths for all the agents in a decentralized manner. Specifically, InforMARL aggregates information about the local neighborhood of agents for both the actor and the critic using a graph neural network and can be used in conjunction with any standard MARL algorithm. We show that (1) in training, InforMARL has better sample efficiency and performance than baseline approaches, despite using less information, and (2) in testing, it scales well to environments with arbitrary numbers of agents and obstacles.
translated by 谷歌翻译
产品的属性值是任何电子商务平台中必不可少的组件。属性值提取(AVE)涉及从其标题或描述中提取产品的属性及其值。在本文中,我们建议使用生成框架解决AVE任务。我们通过将AVE任务作为生成问题制定,即基于单词序列和基于位置的生成范式,即基于单词序列和位置序列。我们在两个数据集上进行实验,在该数据集中生成方法获得了新的最新结果。这表明我们可以将建议的框架用于AVE任务,而无需其他标记或特定于任务的模型设计。
translated by 谷歌翻译
我们使用对单个的,相同的$ d $维状态的相同副本进行的测量来研究量子断层扫描和阴影断层扫描的问题。我们首先因Haah等人而重新审视已知的下限。 (2017年)在痕量距离上具有准确性$ \ epsilon $的量子断层扫描,当测量选择与先前观察到的结果无关(即它们是非适应性的)时。我们简要地证明了这一结果。当学习者使用具有恒定结果数量的测量值时,这会导致更强的下限。特别是,这严格确定了民间传说的最佳性``Pauli phymography''算法的样本复杂性。我们还得出了$ \ omega(r^2 d/\ epsilon^2)$和$ \ omega(r^2 d/\ epsilon^2)的新颖界限( R^2 d^2/\ epsilon^2)$用于学习排名$ r $状态,分别使用任意和恒定的结果测量,在非适应性情况下。除了样本复杂性,对于学习量子的实际意义,是一种实际意义的资源状态是算法使用的不同测量值的数量。我们将下限扩展到学习者从固定的$ \ exp(o(d))$测量的情况下进行自适应测量的情况。这特别意味着适应性。没有使用可有效实现的单拷贝测量结果给我们任何优势。在目标是预测给定的可观察到给定序列的期望值的情况下,我们还获得了类似的界限,该任务被称为阴影层析成像。在适应性的情况下单拷贝测量可通过多项式大小的电路实现,我们证明了基于计算给定可观察物的样本平均值的直接策略是最佳的。
translated by 谷歌翻译
移动操纵器投掷是一种有前途的方法,可以提高工厂动态操纵的灵活性和效率。其主要挑战是在一系列任务规格下有效地计划可行的投掷。我们分析了投掷问题,并表明可以将其简化为更简单的平面问题,从而大大降低了计算成本。使用数据分析和机器学习,我们构建了对象的倒飞行动力学和机器人的运动可行性的模型,该模型可以在给定目标位置查询的1 ms中投掷运动。由于我们方法的计算效率,我们表明,在执行任务执行期间受到干扰时,系统是自适应的,是通过即时进行重新启动以找出替代投掷而不是坚持原始计划。代码可在以下网址找到:https://github.com/liuuyangdh/mobile-throwing
translated by 谷歌翻译
本文提出了一种新的方法,以学习由动态系统驱动的稳定机器人控制法。该方法需要单个演示,并可以在任意高维度中推断出稳定的动力学。该方法依赖于存在一个潜在空间的想法,非线性动力学出现准线性。原始的非线性动力学通过利用图形嵌入的属性来映射到稳定的线性DS中。我们表明,图laplacian的特征分类导致在二维中的线性嵌入,并在较高维度中进行准线性。非线性术语消失,随着数据点数的增加而呈指数呈指数化,并且对于较大的点密度,嵌入似乎是线性的。我们表明,这种新的嵌入能够在高维度上建模高度非线性动力学,并以重建精度和嵌入所需的参数数量克服替代技术。我们证明了它的适用性,以控制负责在空间中执行复杂自由运动的实际机器人。
translated by 谷歌翻译
我们引入了构图软提示(CSP),这是一种参数有效的学习技术,可改善大规模预处理视觉模型(VLMS)的零摄像组成性。 VLM可以在其灵活的文本编码器中代表任意类作为自然语言提示,但在组成零击基准任务上的表现不佳。为了改善VLM,我们提出了一种新颖的软提示形式。我们将构成的属性和对象视为将类定义为词汇的可学习令牌,并在多个及时的构图上调整它们。在推断期间,我们在新组合中重新组装了学习的属性对象词汇。我们表明,CSP在基准数据集上的原始VLM的表现平均为AUC上的10.9个百分点。 CSP还胜过Coop,这是一种调谐前缀上下文的软提示方法,在AUC上平均要点5.8个百分点。我们执行其他实验,以表明CSP对仅属性分类,高阶属性 - 属性对象组成以及预验证属性和微调对象的组合进行了改进。
translated by 谷歌翻译
主张神经符号人工智能(NESY)断言,将深度学习与象征性推理相结合将导致AI更强大,而不是本身。像深度学习一样成功,人们普遍认为,即使我们最好的深度学习系统也不是很擅长抽象推理。而且,由于推理与语言密不可分,因此具有直觉的意义,即自然语言处理(NLP)将成为NESY特别适合的候选人。我们对实施NLP实施NESY的研究进行了结构化审查,目的是回答Nesy是否确实符合其承诺的问题:推理,分布概括,解释性,学习和从小数据的可转让性以及新的推理到新的域。我们研究了知识表示的影响,例如规则和语义网络,语言结构和关系结构,以及隐式或明确的推理是否有助于更高的承诺分数。我们发现,将逻辑编译到神经网络中的系统会导致满足最NESY的目标,而其他因素(例如知识表示或神经体系结构的类型)与实现目标没有明显的相关性。我们发现在推理的定义方式上,特别是与人类级别的推理有关的许多差异,这会影响有关模型架构的决策并推动结论,这些结论在整个研究中并不总是一致的。因此,我们倡导采取更加有条不紊的方法来应用人类推理的理论以及适当的基准的发展,我们希望这可以更好地理解该领域的进步。我们在GitHub上提供数据和代码以进行进一步分析。
translated by 谷歌翻译
由于社交媒体的指数增加,重要的是关注其消极方面,因为它可能会划分社会,并将人们煽动暴力。在本文中,我们展示了我们在共享任务逗号@图标上的工作的描述,在那里我们必须对句子进行分类,如果句子是性别偏见或公共偏见的话。这三个可能是在社会中造成重大问题的主要原因。作为团队巨大,我们提出了一种用不同的预磨模的方法,具有注意力和均值的汇集方法。我们能够在孟加拉的0.223实例F1分数获得等级3,在多语言集中排名2,在多语言集中进行0.322个实例F1分数,在MEITEI上排名4,在MEITEI上进行0.129个实例F1分数,并在印地语中进行0.336实例F1分数。这里可以在此处找到源代码和预磨损的模型。
translated by 谷歌翻译