几乎所有现有的基于面部动作编码系统的数据集包括面部动作单元(AU)强度信息使用A-E级别分层地向强度值注释。然而,面部表情连续变化,并将从一个状态变为另一个状态。因此,将局部面部AU的强度值重新播出以表示整个面部表情的变化更有效,特别是在表达转移和面部动画的领域。我们将Feafa的扩展与重新标记的DISFA数据库相结合,可在HTTPS://www.iiplab.net/feafa+ /现在提供。扩展Feafa(Feafa +)包括来自Feafa和Disfa的150个视频序列,总共230,184帧,使用表达式定量工具手动注释24重新定义AU的浮点强度值。我们还列出了针对构成和自发子集的粗略数值结果,并为AU强度回归任务提供基线比较。
translated by 谷歌翻译
As one of the most important psychic stress reactions, micro-expressions (MEs), are spontaneous and transient facial expressions that can reveal the genuine emotions of human beings. Thus, recognizing MEs (MER) automatically is becoming increasingly crucial in the field of affective computing, and provides essential technical support in lie detection, psychological analysis and other areas. However, the lack of abundant ME data seriously restricts the development of cutting-edge data-driven MER models. Despite the recent efforts of several spontaneous ME datasets to alleviate this problem, it is still a tiny amount of work. To solve the problem of ME data hunger, we construct a dynamic spontaneous ME dataset with the largest current ME data scale, called DFME (Dynamic Facial Micro-expressions), which includes 7,526 well-labeled ME videos induced by 671 participants and annotated by more than 20 annotators throughout three years. Afterwards, we adopt four classical spatiotemporal feature learning models on DFME to perform MER experiments to objectively verify the validity of DFME dataset. In addition, we explore different solutions to the class imbalance and key-frame sequence sampling problems in dynamic MER respectively on DFME, so as to provide a valuable reference for future research. The comprehensive experimental results show that our DFME dataset can facilitate the research of automatic MER, and provide a new benchmark for MER. DFME will be published via https://mea-lab-421.github.io.
translated by 谷歌翻译
识别面部视频的连续情绪和动作单元(AU)强度需要对表达动态的空间和时间理解。现有作品主要依赖2D面的外观来提取这种动态。这项工作着重于基于参数3D面向形状模型的有希望的替代方案,该模型解散了不同的变异因素,包括表达诱导的形状变化。我们旨在了解与最先进的2D外观模型相比,在估计价值和AU强度方面表现性3D面部形状如何。我们基准了四个最近的3D面对准模型:Expnet,3DDFA-V2,DECA和EMOCA。在价值估计中,3D面模型的表达特征始终超过以前的作品,并在SEWA和AVEC 2019 CES CORPORA上的平均一致性相关性分别为.739和.574。我们还研究了BP4D和DISFA数据集的AU强度估计的3D面形状如何执行,并报告说3D脸部功能在AUS 4、6、10、12和25中与2D外观特征相当,但没有整个集合。 aus。为了理解这种差异,我们在价值和AUS之间进行了对应分析,该分析指出,准确的价值预测可能仅需要少数AU的知识。
translated by 谷歌翻译
我们介绍了Daisee,这是第一个多标签视频分类数据集,该数据集由112个用户捕获的9068个视频片段,用于识别野外无聊,混乱,参与度和挫败感的用户情感状态。该数据集具有四个级别的标签 - 每个情感状态都非常低,低,高和很高,它们是人群注释并与使用专家心理学家团队创建的黄金标准注释相关的。我们还使用当今可用的最先进的视频分类方法在此数据集上建立了基准结果。我们认为,黛西(Daisee)将为研究社区提供特征提取,基于上下文的推理以及为相关任务开发合适的机器学习方法的挑战,从而为进一步的研究提供了跳板。该数据集可在https://people.iith.ac.in/vineethnb/resources/daisee/daisee/index.html下载。
translated by 谷歌翻译
Recent studies have found that pain in infancy has a significant impact on infant development, including psychological problems, possible brain injury, and pain sensitivity in adulthood. However, due to the lack of specialists and the fact that infants are unable to express verbally their experience of pain, it is difficult to assess infant pain. Most existing infant pain assessment systems directly apply adult methods to infants ignoring the differences between infant expressions and adult expressions. Meanwhile, as the study of facial action coding system continues to advance, the use of action units (AUs) opens up new possibilities for expression recognition and pain assessment. In this paper, a novel AuE-IPA method is proposed for assessing infant pain by leveraging different engagement levels of AUs. First, different engagement levels of AUs in infant pain are revealed, by analyzing the class activation map of an end-to-end pain assessment model. The intensities of top-engaged AUs are then used in a regression model for achieving automatic infant pain assessment. The model proposed is trained and experimented on YouTube Immunization dataset, YouTube Blood Test dataset, and iCOPEVid dataset. The experimental results show that our AuE-IPA method is more applicable to infants and possesses stronger generalization ability than end-to-end assessment model and the classic PSPI metric.
translated by 谷歌翻译
Studying facial expressions is a notoriously difficult endeavor. Recent advances in the field of affective computing have yielded impressive progress in automatically detecting facial expressions from pictures and videos. However, much of this work has yet to be widely disseminated in social science domains such as psychology. Current state of the art models require considerable domain expertise that is not traditionally incorporated into social science training programs. Furthermore, there is a notable absence of user-friendly and open-source software that provides a comprehensive set of tools and functions that support facial expression research. In this paper, we introduce Py-Feat, an open-source Python toolbox that provides support for detecting, preprocessing, analyzing, and visualizing facial expression data. Py-Feat makes it easy for domain experts to disseminate and benchmark computer vision models and also for end users to quickly process, analyze, and visualize face expression data. We hope this platform will facilitate increased use of facial expression data in human behavior research.
translated by 谷歌翻译
动物运动跟踪和姿势识别的进步一直是动物行为研究的游戏规则改变者。最近,越来越多的作品比跟踪“更深”,并解决了对动物内部状态(例如情绪和痛苦)的自动认识,目的是改善动物福利,这使得这是对该领域进行系统化的及时时刻。本文对基于计算机的识别情感状态和动物的疼痛的研究进行了全面调查,并涉及面部行为和身体行为分析。我们总结了迄今为止在这个主题中所付出的努力 - 对它们进行分类,从不同的维度进行分类,突出挑战和研究差距,并提供最佳实践建议,以推进该领域以及一些未来的研究方向。
translated by 谷歌翻译
由于昂贵的数据收集过程,微表达数据集的规模通常小得多,而不是其他计算机视觉领域的数据集,渲染大规模的训练较小稳定和可行。在本文中,我们的目标是制定一个协议,以自动综合1)的微型表达培训数据,其中2)允许我们在现实世界测试集上具有强烈准确性的培训模型。具体来说,我们发现了三种类型的动作单位(AUS),可以很好地构成培训的微表达式。这些AU来自真实世界的微表达式,早期宏观表达式,以及人类知识定义的AU和表达标签之间的关系。随着这些AU,我们的协议随后采用大量的面部图像,具有各种身份和用于微表达合成的现有面生成方法。微表达式识别模型在生成的微表达数据集上培训并在真实世界测试集上进行评估,其中获得非常竞争力和稳定的性能。实验结果不仅验证了这些AU和我们的数据集合合成协议的有效性,还揭示了微表达式的一些关键属性:它们横跨面部概括,靠近早期宏观表达式,可以手动定义。
translated by 谷歌翻译
微表达(MES)是非自愿的面部运动,揭示了人们在高利害情况下隐藏的感受,并对医疗,国家安全,审讯和许多人机交互系统具有实际重要性。早期的MER方法主要基于传统的外观和几何特征。最近,随着各种领域的深度学习(DL)的成功,神经网络已得到MER的兴趣。不同于宏观表达,MES是自发的,微妙的,快速的面部运动,导致数据收集困难,因此具有小规模的数据集。由于上述我的角色,基于DL的MER变得挑战。迄今为止,已提出各种DL方法来解决我的问题并提高MER表现。在本调查中,我们对深度微表达识别(MER)进行了全面的审查,包括数据集,深度MER管道和最具影响力方法的基准标记。本调查定义了该领域的新分类法,包括基于DL的MER的所有方面。对于每个方面,总结和讨论了基本方法和高级发展。此外,我们得出了坚固的深层MER系统设计的剩余挑战和潜在方向。据我们所知,这是对深度MEL方法的第一次调查,该调查可以作为未来MER研究的参考点。
translated by 谷歌翻译
Training facial emotion recognition models requires large sets of data and costly annotation processes. To alleviate this problem, we developed a gamified method of acquiring annotated facial emotion data without an explicit labeling effort by humans. The game, which we named Facegame, challenges the players to imitate a displayed image of a face that portrays a particular basic emotion. Every round played by the player creates new data that consists of a set of facial features and landmarks, already annotated with the emotion label of the target facial expression. Such an approach effectively creates a robust, sustainable, and continuous machine learning training process. We evaluated Facegame with an experiment that revealed several contributions to the field of affective computing. First, the gamified data collection approach allowed us to access a rich variation of facial expressions of each basic emotion due to the natural variations in the players' facial expressions and their expressive abilities. We report improved accuracy when the collected data were used to enrich well-known in-the-wild facial emotion datasets and consecutively used for training facial emotion recognition models. Second, the natural language prescription method used by the Facegame constitutes a novel approach for interpretable explainability that can be applied to any facial emotion recognition model. Finally, we observed significant improvements in the facial emotion perception and expression skills of the players through repeated game play.
translated by 谷歌翻译
动态面部表达识别(FER)数据库为情感计算和应用提供了重要的数据支持。但是,大多数FER数据库都用几个基本的相互排斥性类别注释,并且仅包含一种模式,例如视频。单调的标签和模式无法准确模仿人类的情绪并实现现实世界中的应用。在本文中,我们提出了MAFW,这是一个大型多模式复合情感数据库,野外有10,045个视频Audio剪辑。每个剪辑都有一个复合的情感类别和几个句子,这些句子描述了剪辑中受试者的情感行为。对于复合情绪注释,每个剪辑都被归类为11种广泛使用的情绪中的一个或多个,即愤怒,厌恶,恐惧,幸福,中立,悲伤,惊喜,蔑视,焦虑,焦虑,无助和失望。为了确保标签的高质量,我们通过预期最大化(EM)算法来滤除不可靠的注释,然后获得11个单标签情绪类别和32个多标签情绪类别。据我们所知,MAFW是第一个带有复合情感注释和与情感相关的字幕的野外多模式数据库。此外,我们还提出了一种新型的基于变压器的表达片段特征学习方法,以识别利用不同情绪和方式之间表达变化关系的复合情绪。在MAFW数据库上进行的广泛实验显示了所提出方法的优势,而不是其他最先进的方法对单型和多模式FER的优势。我们的MAFW数据库可从https://mafw-database.github.io/mafw公开获得。
translated by 谷歌翻译
本文介绍了与欧洲计算机视觉会议(ECCV)共同举行的第四次情感行为分析(ABAW)竞赛,2022年。第四次ABAW竞赛是IEEE CVPR 2022,ICCV举行的比赛的延续。 2021年,IEEE FG 2020和IEEE CVPR 2017会议,旨在自动分析影响。在这场比赛的先前跑步中,挑战针对的价值估计,表达分类和动作单位检测。今年的竞争包括两个不同的挑战:i)多任务学习的挑战,其目标是同时学习(即在多任务学习环境中)所有上述三个任务; ii)从合成数据中学习一个,即目标是学会识别人为生成的数据并推广到真实数据的基本表达。 AFF-WILD2数据库是一个大规模的野外数据库,第一个包含价和唤醒,表达式和动作单元的注释。该数据库是上述挑战的基础。更详细地:i)S-Aff-Wild2(AFF-WILD2数据库的静态版本)已被构造和利用,以实现多任务学习挑战的目的; ii)已使用AFF-WILD2数据库中的一些特定帧图像以表达操作方式来创建合成数据集,这是从合成数据挑战中学习的基础。在本文中,首先,我们提出了两个挑战,以及利用的语料库,然后概述了评估指标,并最终提出了每个挑战的基线系统及其派生结果。有关比赛的更多信息,请参见竞争的网站:https://ibug.doc.ic.ac.uk/resources/eccv-2023-4th-abaw/。
translated by 谷歌翻译
本文介绍了我们针对六个基本表达分类的方法论情感行为分析(ABAW)竞赛2022年的曲目。从人为生成的数据中表达并概括为真实数据。由于合成数据和面部动作单元(AU)的客观性的模棱两可,我们求助于AU信息以提高性能,并做出如下贡献。首先,为了使模型适应合成场景,我们使用了预先训练的大规模面部识别数据中的知识。其次,我们提出了一个概念上的框架,称为Au-persuped卷积视觉变压器(AU-CVT),该框架通过与AU或Pseudo Au标签共同训练辅助数据集来显然改善了FER的性能。我们的AU-CVT在验证集上的F1分数为0.6863美元,准确性为$ 0.7433 $。我们工作的源代码在线公开可用:https://github.com/msy1412/abaw4
translated by 谷歌翻译
愤怒等负面情绪的写照可以在文化和背景之间广泛变化,这取决于表达全面情绪的可接受性而不是抑制保持和谐。大多数情绪数据集收集了广泛的标签`“愤怒”下的数据,但社会信号可以从生气,轻蔑,愤怒,愤怒,仇恨等的范围内。在这项工作中,我们策划了第一个野外的多元文化视频情绪数据集,并通过询问文化流利的注释器来标记具有6个标签和13个Emojis的视频,深入了解愤怒相关的情感表达式。我们在我们的数据集中提供基准多标签分类器,并显示如何EMOJIS可以有效地用作注释的语言无话可测工具。
translated by 谷歌翻译
从人们到3D面部模型的面部表情转移是一种经典的计算机图形问题。在本文中,我们提出了一种基于学习的基于学习的方法,将来自图像和视频从图像和视频转移到面部头颈络合物的生物力学模型。利用面部动作编码系统(FACS)作为表达空间的中间表示,我们训练深度神经网络,采用FACS动作单元(AUS),并为肌肉骨骼模型输出合适的面部肌肉和钳口激活信号。通过生物力学模拟,激活变形了面部软组织,从而将表达转移到模型。我们的方法具有比以前的方法相比。首先,面部表情是剖贯的一致,因为我们的生物力学模型模拟了面部,头部和颈部的相关解剖结构。其次,通过使用从生物力学模型本身产生的数据训练神经网络,我们消除了数据收集的表达式转移的手动努力。通过涉及转移到面部表情和头部姿势的实验,通过实验证明了我们的方法的成功。
translated by 谷歌翻译
编辑和操纵视频中的面部特征是一种有趣而重要的研究领域,具有夸张的应用,从电影生产和视觉效果到视频游戏和虚拟助手的现实头像。据我们所知,本文提出了第一种在视频中进行了对面部表情的照相型式操纵的方法。我们的方法支持基于神经渲染和基于3D的面部表情建模的语义视频操纵。我们专注于通过改变和控制面部表情来互动操纵视频,实现有前途的光电温度效果。该方法基于用于3D面部形状和活动的脱屑表示和估计,为用户提供对输入视频中的面部表情的直观且易于使用的控制。我们还介绍了一个用户友好的交互式AI工具,该工具处理有关输入视频的特定部分的所需情绪操纵的人类可读的语义标签,并合成光电环境拟人的操纵视频。我们通过将情绪标签映射到价值(VA)值来实现这一点,又通过特别设计和训练的表达式解码器网络映射到解开的3D面部表达式。本文提出了详细的定性和定量实验,展示了我们系统的有效性以及它实现的有希望的结果。可以在补充材料中找到其他结果和视频(https://github.com/girish-03/deepsemmanipulation)。
translated by 谷歌翻译
意识检测技术一直在各种企业中获得牵引力;最常用于驾驶员疲劳检测,最近的研究已经转向使用计算机视觉技术来分析在线教室等环境中的用户注意。本文旨在通过分析预测意识和疲劳的最大贡献,扩展了以前的分支检测研究。我们利用开源面部分析工具包OpenFace,以分析不同程度的注意力水平的受试者的视觉数据。然后,使用支持向量机(SVM),我们创建了几种用于用户注意的预测模型,并识别导向渐变(HOG)和动作单位的直方图,是我们测试的功能的最大预测因子。我们还将这种SVM的性能与利用卷积和/或经常性神经网络(CNN和CRNN)的性能进行了比较了这种SVM的性能。有趣的是,CRNN似乎没有比他们的CNN同行更好地表现出来。虽然深入学习方法实现了更大的预测精度,但使用较少的资源,使用某些参数来利用SVMS,能够逼近深度学习方法的性能。
translated by 谷歌翻译
Understanding the facial expressions of our interlocutor is important to enrich the communication and to give it a depth that goes beyond the explicitly expressed. In fact, studying one's facial expression gives insight into their hidden emotion state. However, even as humans, and despite our empathy and familiarity with the human emotional experience, we are only able to guess what the other might be feeling. In the fields of artificial intelligence and computer vision, Facial Emotion Recognition (FER) is a topic that is still in full growth mostly with the advancement of deep learning approaches and the improvement of data collection. The main purpose of this paper is to compare the performance of three state-of-the-art networks, each having their own approach to improve on FER tasks, on three FER datasets. The first and second sections respectively describe the three datasets and the three studied network architectures designed for an FER task. The experimental protocol, the results and their interpretation are outlined in the remaining sections.
translated by 谷歌翻译
已经普遍研究了具有精确唇部同步的语音驱动的3D面部动画。然而,在演讲中为整个面部的综合制造动作很少被探索。在这项工作中,我们介绍了一个联合音频文本模型,用于捕捉表达语音驱动的3D面部动画的上下文信息。收集现有数据集以覆盖尽可能多的不同音素而不是句子,从而限制了基于音频的模型的能力,以了解更多不同的上下文。为解决此问题,我们建议利用从强大的预先培训的语言模型中提取的上下文文本嵌入,该模型从大规模文本数据中学习了丰富的上下文表示。我们的假设是文本特征可以消除上面表达式的变化,这与音频没有强烈相关。与从文本中学习音素级别功能的先前方法相比,我们调查语音驱动3D面部动画的高级上下文文本特征。我们表明,组合的声学和文本方式可以在维持抖动同步的同时综合现实的面部表达式。我们进行定量和定性评估以及感知用户学习。结果展示了我们模型对现有最先进的方法的卓越表现。
translated by 谷歌翻译
在本文中,我们研究了一些常用的设置对(a)预处理面部图像的影响,以及(b)分类和训练,在动作单位(au)检测性能和复杂性上。我们在我们的调查中使用了一个大型数据集,该集合由狂野收集的〜55k视频组成,用于观看商业广告的参与者。预处理设置包括将面部缩放到固定分辨率,将颜色信息(RGB变为灰度),对齐面,以及裁剪AU区域,而分类和培训设置包括类别类型(多标签与二进制)和用于训练模型的数据量。据我们所知,没有任何工作已经调查了这些环境对AU检测的影响。在我们的分析中,我们使用CNNS作为我们的基线分类模型。
translated by 谷歌翻译