由于表现出不公平行为,基于深度学习的面部识别系统经历了增加的媒体关注。大型企业,如IBM,后果关闭了他们的面部识别和年龄预测系统。年龄预测是一个特别困难的应用程序,其公平仍然存在开放的研究问题(例如,预测不同种族的年龄同样准确)。年龄预测方法中不公平行为的主要原因之一在于培训数据的分配和多样性。在这项工作中,我们提出了两种用于数据集策策和数据增强的新方法,以通过平衡特征策策来提高公平,并通过分布意识增强增加多样性。为此,我们向面部识别域引入分发检测,用于选择与年龄,种族和性别之间的数据之间与深度神经网络(DNN)任务最相关的数据。我们的方法显示了有希望的结果。我们经过最佳训练的DNN模型在公平程度上表现优于4.92倍,并提高了DNN概括了亚马逊AWS和微软澳大利亚公共云系统的能力,分别将占据了31.88%和10.95%。
translated by 谷歌翻译
作为深度图像分类应用,例如,人脸识别,在我们日常生活中越来越普遍,他们的公平问题提高了越来越多的关注。因此,在部署之前全面地测试这些应用的公平性是至关重要的。现有的公平测试方法遭受以下限制:1)适用性,即它们仅适用于结构化数据或文本,而无需处理图像分类应用的语义水平中的高维和抽象域采样; 2)功能,即,它们在不提供测试标准的情况下产生不公平的样本,以表征模型的公平性充足。为了填补差距,我们提出了Deepfait,是专门为深图图像分类应用而设计的系统公平测试框架。 Deepfait由几种重要组成部分组成,实现了对深度图像分类应用的有效公平测试的重要组成部分:1)神经元选择策略,用于识别与公平相关神经元的神经元; 2)一组多粒度充足度指标,以评估模型的公平性; 3)测试选择算法有效地修复公平问题。我们对广泛采用的大型面部识别应用,即VGGFace和Fairface进行了实验。实验结果证实,我们的方法可以有效地识别公平相关的神经元,表征模型的公平性,并选择最有价值的测试用例来减轻模型的公平问题。
translated by 谷歌翻译
儿童性滥用和剥削(CSAE)受害者的确切年龄估计是最重要的数字取证挑战之一。调查人员通常需要通过查看图像和解释性发展阶段和其他人类特征来确定受害者的年龄。主要优先事项 - 保障儿童 - 通常受到这项工作可能需要的巨大的法医反积云,认知偏见和巨大的心理压力的负面影响。本文评估了现有的面部图像数据集,并提出了一种针对类似数字法医研究贡献的需求而定制的新数据集。这个小型,不同的DataSet为0到20岁的个人包含245个图像,并与FG-Net DataSet的82个唯一图像合并,从而实现了具有高图像分集和低年龄范围密度的327个图像。在IMDB-Wiki DataSet上预先培训的深度期望(DEX)算法测试新数据集。 16至20岁的年轻青少年和年龄较大的青少年/成年人的整体成果非常令人鼓舞 - 达到1.79年的MAE,但也表明0至10岁儿童的准确性需要进一步的工作。为了确定原型的功效,已经考虑了四个数字法医专家的有价值输入,以提高年龄估计结果。需要进一步的研究来扩展关于图像密度的数据集和性别和种族分集等因素的平等分布。
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
As an important data selection schema, active learning emerges as the essential component when iterating an Artificial Intelligence (AI) model. It becomes even more critical given the dominance of deep neural network based models, which are composed of a large number of parameters and data hungry, in application. Despite its indispensable role for developing AI models, research on active learning is not as intensive as other research directions. In this paper, we present a review of active learning through deep active learning approaches from the following perspectives: 1) technical advancements in active learning, 2) applications of active learning in computer vision, 3) industrial systems leveraging or with potential to leverage active learning for data iteration, 4) current limitations and future research directions. We expect this paper to clarify the significance of active learning in a modern AI model manufacturing process and to bring additional research attention to active learning. By addressing data automation challenges and coping with automated machine learning systems, active learning will facilitate democratization of AI technologies by boosting model production at scale.
translated by 谷歌翻译
State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text about images is a promising alternative which leverages a much broader source of supervision. We demonstrate that the simple pre-training task of predicting which caption goes with which image is an efficient and scalable way to learn SOTA image representations from scratch on a dataset of 400 million (image, text) pairs collected from the internet. After pre-training, natural language is used to reference learned visual concepts (or describe new ones) enabling zero-shot transfer of the model to downstream tasks. We study the performance of this approach by benchmarking on over 30 different existing computer vision datasets, spanning tasks such as OCR, action recognition in videos, geo-localization, and many types of fine-grained object classification. The model transfers non-trivially to most tasks and is often competitive with a fully supervised baseline without the need for any dataset specific training. For instance, we match the accuracy of the original ResNet-50 on ImageNet zero-shot without needing to use any of the 1.28 million training examples it was trained on. We release our code and pre-trained model weights at https://github.com/OpenAI/CLIP.
translated by 谷歌翻译
面部分析模型越来越多地应用于对人们生活产生重大影响的现实应用中。但是,正如文献所表明的那样,自动对面部属性进行分类的模型可能会对受保护的群体表现出算法歧视行为,从而对个人和社会产生负面影响。因此,开发可以减轻面部分类器中意外偏见的技术至关重要。因此,在这项工作中,我们引入了一种新颖的学习方法,该方法将基于人类的主观标签和基于面部特征的数学定义的客观注释结合在一起。具体而言,我们从两个大规模的人类注销数据集中生成了新的客观注释,每个数据集都捕获了分析的面部特征的不同观点。然后,我们提出了一种合奏学习方法,该方法结合了接受不同类型注释的单个模型。我们对注释过程以及数据集分布提供了深入的分析。此外,我们从经验上证明,通过结合标签多样性,我们的方法成功地减轻了意外偏见,同时保持了下游任务的明显准确性。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
开放式识别使深度神经网络(DNN)能够识别未知类别的样本,同时在已知类别的样本上保持高分类精度。基于自动编码器(AE)和原型学习的现有方法在处理这项具有挑战性的任务方面具有巨大的潜力。在这项研究中,我们提出了一种新的方法,称为类别特定的语义重建(CSSR),该方法整合了AE和原型学习的力量。具体而言,CSSR用特定于类的AE表示的歧管替代了原型点。与传统的基于原型的方法不同,CSSR在单个AE歧管上的每个已知类模型,并通过AE的重建误差来测量类归属感。特定于类的AE被插入DNN主链的顶部,并重建DNN而不是原始图像所学的语义表示。通过端到端的学习,DNN和AES互相促进,以学习歧视性和代表性信息。在多个数据集上进行的实验结果表明,所提出的方法在封闭式和开放式识别中都达到了出色的性能,并且非常简单且灵活地将其纳入现有框架中。
translated by 谷歌翻译
公平性是一个标准,重点是评估不同人口组的算法性能,它引起了自然语言处理,推荐系统和面部识别的关注。由于医学图像样本中有很多人口统计学属性,因此了解公平的概念,熟悉不公平的缓解技术,评估算法的公平程度并认识到医疗图像分析(媒体)中的公平问题中的挑战很重要。在本文中,我们首先给出了公平性的全面和精确的定义,然后通过在媒体中引入当前使用的技术中使用的技术。之后,我们列出了包含人口统计属性的公共医疗图像数据集,以促进公平研究并总结有关媒体公平性的当前算法。为了帮助更好地理解公平性,并引起人们对媒体中与公平性有关的问题的关注,进行了实验,比较公平性和数据失衡之间的差异,验证各种媒体任务中不公平的存在,尤其是在分类,细分和检测以及评估不公平缓解算法的有效性。最后,我们以媒体公平性的机会和挑战得出结论。
translated by 谷歌翻译
已显示现有的面部分析系统对某些人口统计亚组产生偏见的结果。由于其对社会的影响,因此必须确保这些系统不会根据个人的性别,身份或肤色歧视。这导致了在AI系统中识别和减轻偏差的研究。在本文中,我们封装了面部分析的偏置检测/估计和缓解算法。我们的主要贡献包括对拟议理解偏见的算法的系统审查,以及分类和广泛概述现有的偏置缓解算法。我们还讨论了偏见面部分析领域的开放挑战。
translated by 谷歌翻译
深度神经网络(DNNS)的快速和广泛采用呼吁测试其行为的方法,许多测试方法成功地揭示了DNN的不当行为。但是,相对尚不清楚启示录后可以采取什么措施来纠正这种行为,因为重新研究涉及昂贵的数据收集,并且不能保证解决基本问题。本文介绍了Arachne,这是一种针对DNNS的新型程序修复技术,该技术使用其输入输出对直接维修DNN作为规范。 Arachne局部性的神经权重可以生成有效的斑块并使用差分进化来优化局部权重并纠正不当行为。使用不同基准的实证研究表明,Arachne可以固定DNN的特定错误分类,而无需显着降低一般准确性。平均而言,Arachne产生的补丁概括至未见不良行为的61.3%,而通过最先进的DNN修复技术的斑块仅概括为10.2%,有时甚至是没有,而无数次数则超过了Arachne。我们还表明,Arachne可以通过对性别分类模型来解决公平问题。最后,我们成功地将Arachne应用于文本情感模型,以表明它的普遍性超出了卷积神经网络。
translated by 谷歌翻译
Despite being responsible for state-of-the-art results in several computer vision and natural language processing tasks, neural networks have faced harsh criticism due to some of their current shortcomings. One of them is that neural networks are correlation machines prone to model biases within the data instead of focusing on actual useful causal relationships. This problem is particularly serious in application domains affected by aspects such as race, gender, and age. To prevent models from incurring on unfair decision-making, the AI community has concentrated efforts in correcting algorithmic biases, giving rise to the research area now widely known as fairness in AI. In this survey paper, we provide an in-depth overview of the main debiasing methods for fairness-aware neural networks in the context of vision and language research. We propose a novel taxonomy to better organize the literature on debiasing methods for fairness, and we discuss the current challenges, trends, and important future work directions for the interested researcher and practitioner.
translated by 谷歌翻译
面部表现攻击检测(PAD)对于保护面部识别(FR)应用程序至关重要。 FR性能已被证明对某些人口统计学和非人口统计学组是不公平的。但是,面部垫的公平性是一个研究的问题,这主要是由于缺乏适当的注释数据。为了解决此问题,这项工作首先通过组合几个知名的PAD数据集,在其中提供了七个人类宣传的属性标签,从而提出了一个组合的注释数据集(CAAD-PAD)。然后,这项工作通过研究我们的CAAD-Pad上的四个面部垫方法,全面分析了一组面垫的公平及其与培训数据的性质和操作决策阈值分配(ODTA)的关系。同时代表垫子的公平性和绝对垫性能,我们引入了一种新颖的指标,即准确性平衡公平(ABF)。关于CAAD-PAD的广泛实验表明,训练数据和ODTA会引起性别,遮挡和其他属性组的不公平性。基于这些分析,我们提出了一种数据增强方法Fairswap,该方法旨在破坏身份/语义信息和指南模型以挖掘攻击线索而不是与属性相关的信息。详细的实验结果表明,Fairswap通常可以提高垫子性能和面部垫的公平性。
translated by 谷歌翻译
软件通常会产生偏置输出。特别地,已知基于机器学习(ML)软件在处理鉴别的输入时产生错误的预测。这种不公平的计划行为可能是由社会偏见引起的。在过去的几年里,亚马逊,微软和谷歌已经提供了产生不公平产出的软件服务,主要是由于社会偏见(例如性别或比赛)。在此类事件中,开发人员被绑定了进行公平测试的任务。公平性测试是挑战性的;开发人员任务是产生揭示和解释偏见的歧视性投入。我们提出了一种基于语法的公平测试方法(称为Astraea),它利用无与伦比的语法来产生歧视性投入,以揭示软件系统中的公平违规行为。 Astraea使用概率语法,Astraea还通过隔离观察到的软件偏差原因提供故障诊断。 Astraea的诊断有助于改善ML公平性。 Astraea是在18个软件系统上进行评估,提供三种主要的自然语言处理(NLP)服务。在我们的评估中,Astraea产生了公平违规,率达到约18%。 Astraea产生了超过573K的歧视性测试案例,并违反了102k的公平性。此外,Astraea通过模型再培训将软件公平提高〜76%。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
最近,深层回归森林(如深)差异模型(DDMS),最近已经广泛研究了面部年龄估计,头部姿势估计,凝视估计等问题。这些问题部分是挑战,因为没有噪声和偏差的大量有效培训数据通常不可用。虽然通过学习更具歧视特征或重新重量样本来实现的一些进展,但我们认为更可取的是逐渐学习以歧视人类。然后,我们诉诸自行节奏的学习(SPL)。但是,出现了自然问题:可以自花奏的政权引导DDMS实现更强大,偏差的解决方案吗? SPL的严重问题是通过这项工作首先讨论的,是倾向于加剧解决方案的偏差,特别是对于明显的不平衡数据。为此,本文提出了一种新的自定位范例,用于深鉴别模型,这根据与每个示例相关的产出似然和熵区分噪声和不足的例子,并从新的视角下解决SECT中的基本排名问题:公平性。此范例是根本的,可以轻松地与各种DDMS结合。在三个计算机视觉任务中进行了广泛的实验,例如面部年龄估计,头部姿态估计和凝视估计,证明了我们的范式的功效。据我们所知,我们的作品是SPL的文献中的第一篇论文,以为自我节奏政权建设的排名公平。
translated by 谷歌翻译
使用卷积神经网络,面部属性(例如,年龄和吸引力)估算性能得到了大大提高。然而,现有方法在培训目标和评估度量之间存在不一致,因此它们可能是次优。此外,这些方法始终采用具有大量参数的图像分类或面部识别模型,其携带昂贵的计算成本和存储开销。在本文中,我们首先分析了两种最新方法(排名CNN和DLDL)之间的基本关系,并表明排名方法实际上是隐含的学习标签分布。因此,该结果首先将两个现有的最新方法统一到DLDL框架中。其次,为了减轻不一致和降低资源消耗,我们设计了一种轻量级网络架构,并提出了一个统一的框架,可以共同学习面部属性分发和回归属性值。在面部年龄和吸引力估算任务中都证明了我们的方法的有效性。我们的方法使用单一模型实现新的最先进的结果,使用36美元\倍,参数减少3美元,在面部年龄/吸引力估算上的推动速度为3美元。此外,即使参数的数量进一步降低到0.9m(3.8MB磁盘存储),我们的方法也可以实现与最先进的结果。
translated by 谷歌翻译
在许多机器学习应用中已经显示了歧视,该应用程序要求在与道德相关的领域(例如面部识别,医学诊断和刑事判决)中部署之前进行足够的公平测试。现有的公平测试方法主要设计用于识别个人歧视,即对个人的歧视。然而,作为另一种广泛的歧视类型,对群体歧视(大多数隐藏)的测试却少得多。为了解决差距,在这项工作中,我们提出了测试,一种可解释的测试方法,它系统地识别和措施隐藏了一个神经网络的隐藏(我们称为“微妙”群体歧视},该神经网络的特征是敏感特征的条件。一个神经网络,TestsgDFirst自动生成可解释的规则集,该规则集将输入空间分为两组,以暴露模型的组歧视。鉴于,Testsgdalso提供了基于对输入空间进行采样的估计组公平得分,以衡量确定的SIXTEL组歧视程度,这可以确保准确地达到错误的限制。我们评估了在包括结构化数据和文本数据在内的流行数据集中训练的测试多个神经网络模型。实验结果表明,测试有效地有效地识别和测量了如此微妙的群体歧视,以至于该测试效率以前从未透露过。矿石,我们表明,测试的测试结果指南生成新样品的测试结果,以通过可忽略不计的准确性下降来减轻这种歧视。
translated by 谷歌翻译
在过去的几十年里,机器和深度学习界在挑战性的任务中庆祝了巨大成就,如图像分类。人工神经网络的深度建筑与可用数据的宽度一起使得可以描述高度复杂的关系。然而,仍然不可能完全捕捉深度学习模型已经了解到的深度学习模型并验证它公平,而不会产生偏见,特别是在临界任务中,例如在医学领域产生的问题。这样的任务的一个示例是检测面部图像中的不同面部表情,称为动作单位。考虑到这项特定任务,我们的研究旨在为偏见提供透明度,具体与性别和肤色有关。我们训练一个神经网络进行动作单位分类,并根据其准确性和基于热量的定性分析其性能。对我们的结果的结构化审查表明我们能够检测到偏见。尽管我们不能从我们的结果得出结论,但较低的分类表现完全来自性别和肤色偏差,这些偏差必须得到解决,这就是为什么我们通过提出关于如何避免检测到的偏差的建议。
translated by 谷歌翻译