ICML表达性发声(EXVO)的竞争重点是理解和产生声音爆发:笑声,喘息,哭泣和其他非语言发声,这是情感表达和交流至关重要的。 EXVO 2022,包括三个竞赛曲目,使用来自1,702位扬声器的59,201个发声的大规模数据集。首先是Exvo-Multitask,要求参与者训练多任务模型,以识别声音爆发中表达的情绪和人口特征。第二个,即exvo生成,要求参与者训练一种生成模型,该模型产生声音爆发,传达了十种不同的情绪。第三个exvo-fewshot要求参与者利用少量的学习融合说话者身份来训练模型,以识别声音爆发传达的10种情感。本文描述了这三个曲目,并使用最先进的机器学习策略为基线模型提供了绩效指标。每个曲目的基线如下,对于exvo-multitask,一个组合得分,计算一致性相关系数的谐波平均值(CCC),未加权的平均召回(UAR)和反向平均绝对错误(MAE)(MAE)($ s_ {mtl) } $)充其量是0.335 $ s_ {mtl} $;对于exvo生成,我们报告了Fr \'Echet Inception距离(FID)的得分范围为4.81至8.27(取决于情绪),在训练集和生成的样品之间。然后,我们将倒置的FID与生成样品的感知评级($ s_ {gen} $)相结合,并获得0.174 $ s_ {gen} $;对于Exvo-Fewshot,获得平均CCC为0.444。
translated by 谷歌翻译
ACII情感声音爆发研讨会和竞争的重点是理解声乐爆发的多个情感维度:笑声,喘息,哭泣,尖叫声以及许多其他非语言声音,这是情感表达和人类交流的核心。今年的比赛包括四首曲目,使用1,702位扬声器的大规模和野外数据集提供59,299个发声。首先是A-VB高任务,要求竞争参与者使用十个类似的注释的情感表达强度,对情感进行新型模型进行多标签回归,包括:敬畏,恐惧和惊喜。第二个是A-VB-TWO任务,利用更传统的二维模型来进行情感,唤醒和价值。第三个是A-VB文化任务,要求参与者探索数据集的文化方面,培训本地国家依赖模型。最后,对于第四个任务,A-VB型,参与者应认识到声乐爆发的类型(例如,笑声,哭泣,咕unt)是8级分类。本文介绍了使用最先进的机器学习方法的四个轨道和基线系统。每条轨道的基线性能是通过使用端到端深度学习模型获得的,如下所示:对于A-VB-高,平均(超过10维)一致性相关系数(CCC)为0.5687 CCC为获得;对于A-VB-TWO,获得了0.5084的平均值(超过2维);对于A-VB培养物,从四个培养物中获得了0.4401的平均CCC;对于A-VB型,来自8类的基线未加权平均召回(UAR)为0.4172 UAR。
translated by 谷歌翻译
我们介绍了我们的多任务学习方法,以预测人声爆发中的情感,年龄和起源(即祖国/语言)。BUST2VEC利用预先训练的语音表示来捕获原始波形的声学信息,并通过对抗训练结合了模型偏见的概念。我们的模型使用预提取的功能获得了相对30%的性能增长,并在ICML EXVO 2022多任务挑战中的所有参与者中得分最高。
translated by 谷歌翻译
该技术报告介绍了我们提交给ICML表达性发声研讨会和竞争多任务轨迹(EXVO-Multitask)的建模方法。我们首先将各种尺寸的图像分类模型应用于声乐爆发的MEL-SPECTROGRAM表示,这是声音事件检测文献中的标准。这些模型的结果显示,就任务指标的谐波平均值而言,基线系统的增加了21.24%,并构成了团队对多任务轨道的主要提交。然后,我们试图通过应用大型预训练的构象模型来表征多任务轨道中的净空,该模型以前在语言学识别和掩盖膜检测等副语言任务上实现了最新的结果。我们还研究了情感表达,原产国和年龄预测的子任务之间的关系,并发现最佳性能模型被培训为单任务模型,质疑该问题是否真正从多任务设置中受益。
translated by 谷歌翻译
我们将非语音发声(NSV)建模作为文本到语音任务,并验证其生存能力。具体而言,我们评估了Hubert语音单元在NSVS上的语音表达性,并验证了模型控制扬声器音色的能力,即使训练数据是扬声器很少的。此外,我们证实了记录条件中的异质性是NSV建模的主要障碍。最后,我们讨论了对未来研究方法的五个改进。合成NSV的音频样本可在我们的演示页面上提供:https://resemble-ai.github.io/relaugh。
translated by 谷歌翻译
Vocal Bursts -- short, non-speech vocalizations that convey emotions, such as laughter, cries, sighs, moans, and groans -- are an often-overlooked aspect of speech emotion recognition, but an important aspect of human vocal communication. One barrier to study of these interesting vocalizations is a lack of large datasets. I am pleased to introduce the EmoGator dataset, which consists of 32,040 samples from 365 speakers, 16.91 hours of audio; each sample classified into one of 30 distinct emotion categories by the speaker. Several different approaches to construct classifiers to identify emotion categories will be discussed, and directions for future research will be suggested. Data set is available for download from https://github.com/fredbuhl/EmoGator.
translated by 谷歌翻译
语音情感转换是修改语音话语的感知情绪的任务,同时保留词汇内容和扬声器身份。在这项研究中,我们将情感转换问题作为口语翻译任务。我们将演讲分解为离散和解散的学习表现,包括内容单位,F0,扬声器和情感。首先,我们通过将内容单元转换为目标情绪来修改语音内容,然后基于这些单元预测韵律特征。最后,通过将预测的表示馈送到神经声码器中来生成语音波形。这样的范式允许我们超越信号的光谱和参数变化,以及模型非口头发声,例如笑声插入,打开拆除等。我们客观地和主观地展示所提出的方法在基础上优于基线感知情绪和音频质量。我们严格评估了这种复杂系统的所有组成部分,并通过广泛的模型分析和消融研究结束,以更好地强调建议方法的建筑选择,优势和弱点。示例和代码将在以下链接下公开使用:https://speechbot.github.io/emotion。
translated by 谷歌翻译
这项工作为2022年ICML表达性发声挑战exvo-multitask轨道的人声爆发音频介绍了对年龄,原产国和情感的同时估计的多任务方法。选择的方法利用了光谱 - 周期调制和自我监督的特征的组合,然后是在多任务范式中组织的编码器编码网络。我们通过检查独立的任务特定模型和联合模型来评估所构成的任务之间的互补性,并探索不同特征集的相对强度。我们还引入了一种简单的分数融合机制,以利用此任务的不同特征集的互补性。我们发现,与光谱 - 周期性接收场的得分融合结合进行了强大的数据预处理,而Hubert模型达到了我们最佳的EXVO-Multitask测试评分为0.412。
translated by 谷歌翻译
我们提出了一种新型的动态约束不确定性加权损失,以实验处理平衡多个任务对ICML EXVO 2022挑战的贡献的问题。多任务旨在共同认识到声乐爆发中表达的情绪和人口特征。我们的策略结合了不确定性重量和平均动态重量的优势,通过用约束术语扩展权重以使学习过程更具解释。我们使用轻巧的多EXIT CNN体系结构来实施我们提出的损失方法。实验性H-均值得分(0.394)显示出比基线H均值得分的显着改善(0.335)。
translated by 谷歌翻译
我们描述了ICML表达性发声竞争的生成性情感声乐爆发任务(EXVO生成)的方法。我们在音频样品的预处理版本中训练有条件的stylegan2架构。然后将模型生成的MEL光谱图倒回音频域。结果,我们生成的样品从竞争所提供的基线从定性和定量的观点上对所有情绪的基线进行了显着改善。更确切地说,即使对于我们表现最差的情绪(敬畏),我们也获得了1.76的时尚,而基线则为4.81(作为参考,敬畏的火车/验证集之间的淡出为0.776)。
translated by 谷歌翻译
情感语音分析是一个持续的研究主题。在该领域的一个相对较新的问题是对声乐爆发的分析,即笑声或叹息等非语言发声。解决情感声音爆发分析的当前最新方法主要基于WAV2VEC2或Hubert功能。在本文中,我们研究了WAV2VEC后继数据2VEC与多任务学习管道的使用,以一次解决不同的分析问题。为了评估我们有效的多任务学习体系结构的性能,我们参与了2022 ACII情感声音爆发挑战,这表明我们的方法在三个不同的子任务中大大胜过基线。
translated by 谷歌翻译
由于缺乏可用的数据集,模型和标准评估指标,因此以多模式数据为条件的现实,生动和类似人类的合成对话手势仍然是一个未解决的问题。为了解决这个问题,我们构建了人体表达式 - aauio-Text数据集,Beat,它具有76小时,高质量的,高质量的多模式数据,这些数据从30位扬声器中捕获了八种不同的情绪,用四种不同的语言,ii)32数以百万计的框架级别的情感和语义相关注释。我们对BEAT的统计分析表明,除了与音频,文本和说话者身份的已知相关性外,对话式手势与面部表情,情感和语义的相关性。基于此观察结果,我们提出了一个基线模型,即级联运动网络(CAMN),该模型由以上六种模式组成,该模式在级联的架构中建模以进行手势合成。为了评估语义相关性,我们引入了指标,语义相关性召回(SRGR)。定性和定量实验证明了指标的有效性,地面真相数据质量以及基线的最先进性能。据我们所知,BEAT是用于研究人类手势的最大运动捕获数据集,这可能有助于许多不同的研究领域,包括可控的手势合成,跨模式分析和情感手势识别。数据,代码和模型可在https://pantomatrix.github.io/beat/上获得。
translated by 谷歌翻译
在这项工作中,我们探索了一种小说的几弹性个性化体系结构,以进行情感发声预测。核心贡献是一个“注册”编码器,它利用目标扬声器的两个未标记的样本来调整情感编码器的输出。调整基于点产生的注意力,因此有效地充当“软”特征选择的一种形式。情感和注册编码器基于两个标准音频体系结构:CNN14和CNN10。这两个编码器进一步指导忘记或学习辅助情感和/或说话者信息。我们最好的方法在EXVO少量开发套件上达到了CCC $ .650 $,比我们的基线CNN14 CCC $ 2.5 \%$增加了$ .634 $。
translated by 谷歌翻译
语音情感识别(SER)有许多挑战,但是主要挑战之一是每个框架都没有统一的标准。在本文中,我们提出了Speecheq,这是一个基于多尺度统一度量的统一SER任务的框架。该指标可以通过多任务学习(MTL)培训,其中包括情感状态类别(EIS)和情感强度量表(EIS)的两个情感识别任务,以及两个音素识别和性别识别的辅助任务。对于此框架,我们构建了一个普通话SER数据集-Secemeeq数据集(SEQD)。我们对普通话的公共CASIA和ESD数据集进行了实验,这些实验表明我们的方法比基线方法相对较大,分别获得8.0 \%和6.5 \%的准确性提高。关于Iemocap的其他实验,具有四个情感类别(即生气,快乐,悲伤和中性)也表明所提出的方法达到了78.16%的加权准确性(WA)的最新方法,并且准确性不体(UA) 77.47%。
translated by 谷歌翻译
多模式培训的最新进展使用文本描述,可以显着增强机器对图像和视频的理解。然而,目前尚不清楚语言在多大程度上可以完全捕捉不同方式的感官体验。一种表征感官体验的良好方法取决于相似性判断,即人们认为两个截然不同的刺激是相似的程度。我们在一系列大规模的行为研究($ n = 1,823美元的参与者)中探讨了人类相似性判断与语言之间的关系,这三种模式(图像,音频和视频)和两种类型的文本描述符:简单的文字描述符: - 文本字幕。在此过程中,我们引入了一条新型的自适应管道,用于标签挖掘,既有高效又是领域。我们表明,基于文本描述符的预测管道表现出色,我们将其与基于视觉,音频和视频处理体系结构的611基线模型进行了比较。我们进一步表明,文本描述符和模型在多种方式之间和模型之间预测人类相似性的程度各不相同。综上所述,这些研究说明了整合机器学习和认知科学方法的价值,以更好地了解人类和机器表示之间的相似性和差异。我们在https://words-are-are-all-you-need.s3.amazonaws.com/index.html上介绍了交互式可视化,以探索人类所经历的刺激和本文中报道的不同方法之间的相似性。
translated by 谷歌翻译
近年来,通过深层生成模型,音频合成的进展很大。但是,最新的很难量化。在报告结果时,不同的研究通常使用不同的评估方法和不同的指标,从而直接与其他系统进行比较,即使不是不可能。此外,在大多数情况下,报告指标的感知相关性和含义都未知,禁止对实际的可用性和音频质量的任何结论性见解。本文介绍了一项研究,该研究与(i)一组先前提出的用于音频重建的客观指标以及(ii)一项听力研究,研究了最先进的方法。结果表明,当前使用的客观指标不足以描述当前系统的感知质量。
translated by 谷歌翻译
机器生成的语音的特点是其有限或不自然的情绪变化。目前的语音系统文本与扁平情绪,从预定义的集合中选择的情感,从培训数据中的韵律序列中学到的平均变异,或者从源样式转移。我们向语音(TTS)系统提出了文本,其中用户可以从连续和有意义的情感空间(唤醒空间)中选择生成的语音的情绪。所提出的TTS系统可以从任何扬声器风格中的文本产生语音,具有对情绪的精细控制。我们展示该系统在培训期间无知的情感上的工作,并且可以鉴于他/她的演讲样本来扩展到以前看不见的扬声器。我们的作品将最先进的FastSeech2骨干的地平线扩展到多扬声器设置,并为其提供了多令人垂涎的连续(和可解释)的情感控制,而没有任何可观察到的综合演讲的退化。
translated by 谷歌翻译
在本文中,我们介绍了Amharic语音情绪数据集(亚胺),涵盖了四条方言(Gojjam,Wollo,Shewa和Londer)和五种不同的情绪(中性,恐惧,快乐,悲伤和生气)。我们认为它是Amharic语言的第一个语音情感认可(Ser)数据集。 65志愿者参与者,所有母语人员,记录2,474个声音样本,长度为2至4秒。八名法官将情绪分配给具有高协议水平的样本(Fleiss Kappa = 0.8)。生成的数据集可免费下载。接下来,我们开发了一个四层变体,我们称之为vggb。然后使用vggb进行三种实验,用于Ser,使用ASED。首先,我们研究了熔融谱图特征或熔融频率谱系数(MFCC)的特点是Amharic最适合的。这是通过培训ASID的两个VGGB SER模型来完成的,使用MEL-谱图和使用MFCC的另一个。尝试了四种形式的培训,标准交叉验证和三种变体,基于句子,方言和扬声器组。因此,用于训练的句子不会用于测试,以及方言和扬声器组的句子。结论是,在所有四种训练方案下,MFCC功能都是优越的。因此,MFCC采用实验2,其中VGGB和其他三种现有模型进行了验证:Resnet50,Alex-Net和LSTM。 vggb被发现具有非常好的准确性(90.73%)以及最快的培训时间。在实验3中,在培训在两个现有的SER数据集,RAVDES(英语)和EMO-DB(德语)以及ASED(Amharic)上进行培训时比较VGGB的性能。结果与这些语言相当,仿真是最高的。这表明VGGB可以成功应用于其他语言。我们希望Ased将鼓励研究人员试验其他模型为Amharic Ser。
translated by 谷歌翻译
可以处理各种扬声器和声学条件的模型在语音情感识别(Ser)中至关重要。通常,这些模型往往会在培训期间呈现扬声器或声学条件时显示混合结果。本文调查了交叉组件数据互补和数据增强对Ser模型的影响(从相同的语料库中的测试设置)和不匹配(从不同的语料库测试)条件。介绍了使用六种情绪语音集团的调查,其中包括单一和多个扬声器以及情感风格的变化(作用,引发,自然)和记录条件。观察结果表明,正如预期的那样,在单一语料库上培训的模型在匹配条件下表现最佳,而性能在不匹配的条件下减少10-40%,具体取决于语料库特定功能。在混合语料库上培训的型号在不匹配的上下文中可以更稳定,与匹配条件中的单个语料库模型相比,性能减少的范围为1%至8%。数据增强产生额外的收益高达4%,似乎有利于比匹配的不匹配条件。
translated by 谷歌翻译
对仇恨言论和冒犯性语言(HOF)的认可通常是作为一项分类任务,以决定文本是否包含HOF。我们研究HOF检测是否可以通过考虑HOF和类似概念之间的关系来获利:(a)HOF与情感分析有关,因为仇恨言论通常是负面陈述并表达了负面意见; (b)这与情绪分析有关,因为表达的仇恨指向作者经历(或假装体验)愤怒的同时经历(或旨在体验)恐惧。 (c)最后,HOF的一个构成要素是提及目标人或群体。在此基础上,我们假设HOF检测在与这些概念共同建模时,在多任务学习设置中进行了改进。我们将实验基于这些概念的现有数据集(情感,情感,HOF的目标),并在Hasoc Fire 2021英语子任务1A中评估我们的模型作为参与者(作为IMS-Sinai团队)。基于模型选择实验,我们考虑了多个可用的资源和共享任务的提交,我们发现人群情绪语料库,Semeval 2016年情感语料库和犯罪2019年目标检测数据的组合导致F1 =。 79在基于BERT的多任务多任务学习模型中,与Plain Bert的.7895相比。在HASOC 2019测试数据上,该结果更为巨大,而F1中的增加2pp和召回大幅增加。在两个数据集(2019,2021)中,HOF类的召回量尤其增加(2019年数据的6pp和2021数据的3pp),表明MTL具有情感,情感和目标识别是适合的方法可能部署在社交媒体平台中的预警系统。
translated by 谷歌翻译