大规模的社交网络被认为通过扩大人们的偏见来促进两极分化。但是,这些技术的复杂性使得难以确定负责的机制并评估缓解策略。在这里,我们在受控的实验室条件下显示,通过社交网络进行信息传输会扩大对简单的感知决策任务的动机偏见。大型行为实验的参与者表明,当社交网络相对于社会参与者的一部分,在40个独立发展的人群中,社交网络的一部分相对于社交参与者而言,有偏见的决策率提高。利用机器学习和贝叶斯统计的技术,我们确定了对内容选择算法的简单调整,该算法预测可减轻偏置放大。该算法从个人网络内部生成了一个观点样本,这些视角更代表整个人群。在第二个大型实验中,该策略减少了偏差放大,同时保持信息共享的好处。
translated by 谷歌翻译
人类不断受到他人的行为和观点的影响。至关重要的是,人类之间的社会影响是由互惠构成的:我们更多地遵循一直在考虑我们意见的人的建议。在当前的工作中,我们研究了与社会类人机器人互动时相互影响的影响是否可以出现。在一项联合任务中,人类参与者和人形机器人进行了感知估计,然后在观察伴侣的判断后可以公开修改它们。结果表明,赋予机器人表达和调节其对人类判断的易感水平的能力代表了双刃剑。一方面,当机器人遵循他们的建议时,参与者对机器人的能力失去了信心。另一方面,参与者不愿透露他们对易感机器人缺乏信心,这表明出现了支持人类机器人合作的社会影响力的相互机制。
translated by 谷歌翻译
Taking advice from others requires confidence in their competence. This is important for interaction with peers, but also for collaboration with social robots and artificial agents. Nonetheless, we do not always have access to information about others' competence or performance. In these uncertain environments, do our prior beliefs about the nature and the competence of our interacting partners modulate our willingness to rely on their judgments? In a joint perceptual decision making task, participants made perceptual judgments and observed the simulated estimates of either a human participant, a social humanoid robot or a computer. Then they could modify their estimates based on this feedback. Results show participants' belief about the nature of their partner biased their compliance with its judgments: participants were more influenced by the social robot than human and computer partners. This difference emerged strongly at the very beginning of the task and decreased with repeated exposure to empirical feedback on the partner's responses, disclosing the role of prior beliefs in social influence under uncertainty. Furthermore, the results of our functional task suggest an important difference between human-human and human-robot interaction in the absence of overt socially relevant signal from the partner: the former is modulated by social normative mechanisms, whereas the latter is guided by purely informational mechanisms linked to the perceived competence of the partner.
translated by 谷歌翻译
语言不仅用于通知。我们经常寻求通过争论赞成特定观点来说服。说服提出了许多对信仰更新的古典账户的挑战,因为信息不能以面值采取。在包含新信息时,应如何占发言者的“隐藏议程”?在这里,我们延长了最近的递归社会推理概率模型,以便有说服力的目标,并表明我们的模型为什么为什么弱良好的争论可能反馈,这是一种称为弱证据效应的现象。批判性地,我们的模型预测了信仰更新和演讲者期望之间的关系:当时扬声器在有说服力的目标下行动时,弱的证据应该只有反馈,这意味着没有更强的证据。我们介绍了一个简单的实验范式,称为棍棒竞赛,以衡量弱证据效应取决于发言者期望的程度,并表明务实的侦听器模型占经验数据比替代模型更好。我们的研究结果表明了社会推理的理性模型的潜在途径,以进一步照亮决策现象。
translated by 谷歌翻译
语言是协调问题的强大解决方案:他们提供了稳定的,有关我们所说的单词如何对应于我们头脑中的信仰和意图的共同期望。然而,在变量和非静止社会环境中的语言使用需要语言表征来灵活:旧词在飞行中获取新的临时或合作伙伴特定含义。在本文中,我们介绍了柴(通过推理的连续分层适应),一个分层贝叶斯的协调理论和会议组织,旨在在这两个基本观察之间调和长期张力。我们认为,沟通的中央计算问题不仅仅是传输,如在经典配方中,而是在多个时间尺度上持续学习和适应。合作伙伴特定的共同点迅速出现在数型互动中的社会推论中,而社群范围内的社会公约是稳定的前锋,这些前锋已经抽象出与多个合作伙伴的互动。我们展示了新的实证数据,展示了我们的模型为多个现象提供了对先前账户挑战的计算基础:(1)与同一合作伙伴的重复互动的更有效的参考表达的融合(2)将合作伙伴特定的共同基础转移到陌生人,并(3)交际范围的影响最终会形成。
translated by 谷歌翻译
人类的感知基于无意识的推论,其中感觉输入与先前的信息集成在一起。这种现象被称为上下文依赖性,有助于面对外部世界的不确定性,并在先前的经验上构建了预测。另一方面,人类的感知过程固有地是由社会互动塑造的。但是,上下文依赖性的机制如何影响到迄今为止未知。如果使用以前的经验 - 先验 - 在单个环境中是有益的,那么它可能代表了其他代理商可能没有相同先验的社会场景中的问题,从而在共享环境上造成了感知的错误。本研究解决了这个问题。我们研究了与人形机器人ICUB的互动环境中的上下文依赖性,该机器人是刺激示威者。参与者在两个条件下重现了机器人所示的长度:一个具有社交性的ICUB,另一个与ICUB充当机械臂。机器人的不同行为显着影响了感知的先验使用。此外,社会机器人通过提高准确性并减少参与者的总体感知错误,从而对感知性能产生积极影响。最后,观察到的现象是按照贝叶斯的方法加深和探索共同感知的新概念进行了建模的。
translated by 谷歌翻译
面部识别水平的度量对于确保专业法医面部考官和其他在应用方案中执行面部识别任务的其他人的准确和一致的表现至关重要。当前的熟练度测试依赖于静态刺激项目的集合,因此不能多次有效地对同一个人进行有效管理。要创建熟练度测试,必须组装大量“已知”难度的项目。可以构建多个相等难度的测试,然后使用项目子集。我们介绍了三合会身份匹配(TIM)测试,并使用项目响应理论(IRT)对其进行评估。参与者查看面部图像“三合会”(n = 225)(一个身份的两个图像,一个不同身份的一个图像),然后选择不同的身份。在实验1中,大学生(n = 197)在TIM测试中显示出广泛的准确性,IRT建模表明TIM项目涵盖了各种难度水平。在实验2中,我们使用基于IRT的项目指标将测试分配为特定困难的子集。模拟显示,TIM项目的子集产生了对受试者能力的可靠估计。在实验3A和3B中,我们发现学生衍生的IRT模型可靠地评估了非学生参与者的能力以及在不同的测试课程中推广的能力。在实验3C中,我们显示TIM测试性能与其他常见的面部识别测试相关。总而言之,TIM测试为开发一个灵活和校准的框架提供了一个起点,以衡量各种能力水平(例如,具有面部处理缺陷的专业人员或人群)的能力。
translated by 谷歌翻译
人们如何积极学习学习?也就是说,人们如何以及何时选择促进长期学习和选择更有益的行动的行动?我们在积极的因果学习领域中探索这些问题。我们提出了一个层次的贝叶斯模型,该模型通过预测人们不仅追求有关因果关系的信息,而且还涉及因果关系的信息,$ \ unicode {x2014} $摘要信念关于因果关系的抽象信念,这些关系跨越了多种情况,并约束了我们如何约束我们如何限制了我们如何限制我们的因果关系。在每种情况下学习细节。在具有14个受试者间操作的两个主动“泡沫检测器”实验中,我们的模型受到参与者行为的定性趋势和基于个体差异的模型比较的支持。我们的结果表明,当在积极的因果学习问题之间存在抽象相似之处时,人们很容易就这些相似性学习和转移过度的疏忽。此外,人们利用这些夸张的人来促进长期的积极学习。
translated by 谷歌翻译
我们提出了一种小型任务,可以衡量人们如何基于观察单个(实验1)或几个(实验2)对象对之间的因果相互作用来概括物体的因果动力。我们提出了一种计算建模框架,可以在我们的任务环境中综合人类的泛化模式,并阐明人们如何有效地浏览可能的因果函数和类别的组成空间。我们的建模框架结合了使用代理和收件人对象的特征和关系的因果函数发生器,以及贝叶斯非参数推断过程,以控制基于相似性的概念。我们的模型具有自然的“资源合理的”变体,可以在描述参与者时优于一个天真的贝叶斯账户,特别是在我们的行为实验中再现透明阶效应和因果不对称。我们认为,该建模框架为真实世界因果概念提供了计算上的合理机制。
translated by 谷歌翻译
关于人类阅读的研究长期以来一直记录在阅读行为表明特定于任务的效果,但是建立一个通用模型来预测人类在给定任务中将显示什么的通用模型。我们介绍了Neat,这是人类阅读中注意力分配的计算模型,基于人类阅读优化了一项任务中关注经济和成功之间的权衡。我们的模型是使用当代神经网络建模技术实施的,并对注意力分配的分配方式在不同任务中如何变化做出明确的测试预测。我们在一项针对阅读理解任务的两个版本的眼影研究中对此进行了测试,发现我们的模型成功说明了整个任务的阅读行为。因此,我们的工作提供了证据表明,任务效果可以建模为对任务需求的最佳适应。
translated by 谷歌翻译
People learning new concepts can often generalize successfully from just a single example, yet machine learning algorithms typically require tens or hundreds of examples to perform with similar accuracy. People can also use learned concepts in richer ways than conventional algorithms-for action, imagination, and explanation. We present a computational model that captures these human learning abilities for a large class of simple visual concepts: handwritten characters from the world's alphabets. The model represents concepts as simple programs that best explain observed examples under a Bayesian criterion. On a challenging one-shot classification task, the model achieves human-level performance while outperforming recent deep learning approaches. We also present several "visual Turing tests" probing the model's creative generalization abilities, which in many cases are indistinguishable from human behavior.
translated by 谷歌翻译
尽管Ai在各个领域的超人表现,但人类往往不愿意采用AI系统。许多现代AI技术中缺乏可解释性的缺乏可令人伤害他们的采用,因为用户可能不相信他们不理解的决策过程的系统。我们通过一种新的实验调查这一主张,其中我们使用互动预测任务来分析可解释性和结果反馈对AI信任的影响和AI辅助预测任务的人类绩效。我们发现解释性导致了不强大的信任改进,而结果反馈具有明显更大且更可靠的效果。然而,这两个因素对参与者的任务表现产生了适度的影响。我们的研究结果表明(1)接受重大关注的因素,如可解释性,在越来越多的信任方面可能比其他结果反馈的因素效果,而(2)通过AI系统增强人类绩效可能不是在AI中增加信任的简单问题。 ,随着增加的信任并不总是与性能同样大的改进相关联。这些调查结果邀请了研究界不仅关注产生解释的方法,而且还专注于确保在实践中产生影响和表现的技巧。
translated by 谷歌翻译
Deepfakes are computationally-created entities that falsely represent reality. They can take image, video, and audio modalities, and pose a threat to many areas of systems and societies, comprising a topic of interest to various aspects of cybersecurity and cybersafety. In 2020 a workshop consulting AI experts from academia, policing, government, the private sector, and state security agencies ranked deepfakes as the most serious AI threat. These experts noted that since fake material can propagate through many uncontrolled routes, changes in citizen behaviour may be the only effective defence. This study aims to assess human ability to identify image deepfakes of human faces (StyleGAN2:FFHQ) from nondeepfake images (FFHQ), and to assess the effectiveness of simple interventions intended to improve detection accuracy. Using an online survey, 280 participants were randomly allocated to one of four groups: a control group, and 3 assistance interventions. Each participant was shown a sequence of 20 images randomly selected from a pool of 50 deepfake and 50 real images of human faces. Participants were asked if each image was AI-generated or not, to report their confidence, and to describe the reasoning behind each response. Overall detection accuracy was only just above chance and none of the interventions significantly improved this. Participants' confidence in their answers was high and unrelated to accuracy. Assessing the results on a per-image basis reveals participants consistently found certain images harder to label correctly, but reported similarly high confidence regardless of the image. Thus, although participant accuracy was 62% overall, this accuracy across images ranged quite evenly between 85% and 30%, with an accuracy of below 50% for one in every five images. We interpret the findings as suggesting that there is a need for an urgent call to action to address this threat.
translated by 谷歌翻译
Bayesian adaptive experimental design is a form of active learning, which chooses samples to maximize the information they give about uncertain parameters. Prior work has shown that other forms of active learning can suffer from active learning bias, where unrepresentative sampling leads to inconsistent parameter estimates. We show that active learning bias can also afflict Bayesian adaptive experimental design, depending on model misspecification. We analyze the case of estimating a linear model, and show that worse misspecification implies more severe active learning bias. At the same time, model classes incorporating more "noise" - i.e., specifying higher inherent variance in observations - suffer less from active learning bias. Finally, we demonstrate empirically that insights from the linear model can predict the presence and degree of active learning bias in nonlinear contexts, namely in a (simulated) preference learning experiment.
translated by 谷歌翻译
Prior work has identified a resilient phenomenon that threatens the performance of human-AI decision-making teams: overreliance, when people agree with an AI, even when it is incorrect. Surprisingly, overreliance does not reduce when the AI produces explanations for its predictions, compared to only providing predictions. Some have argued that overreliance results from cognitive biases or uncalibrated trust, attributing overreliance to an inevitability of human cognition. By contrast, our paper argues that people strategically choose whether or not to engage with an AI explanation, demonstrating empirically that there are scenarios where AI explanations reduce overreliance. To achieve this, we formalize this strategic choice in a cost-benefit framework, where the costs and benefits of engaging with the task are weighed against the costs and benefits of relying on the AI. We manipulate the costs and benefits in a maze task, where participants collaborate with a simulated AI to find the exit of a maze. Through 5 studies (N = 731), we find that costs such as task difficulty (Study 1), explanation difficulty (Study 2, 3), and benefits such as monetary compensation (Study 4) affect overreliance. Finally, Study 5 adapts the Cognitive Effort Discounting paradigm to quantify the utility of different explanations, providing further support for our framework. Our results suggest that some of the null effects found in literature could be due in part to the explanation not sufficiently reducing the costs of verifying the AI's prediction.
translated by 谷歌翻译
当从人类行为中推断出奖励功能(无论是演示,比较,物理校正或电子停靠点)时,它已证明对人类进行建模作为做出嘈杂的理性选择,并具有“合理性系数”,以捕获多少噪声或熵我们希望看到人类的行为。无论人类反馈的类型或质量如何,许多现有作品都选择修复此系数。但是,在某些情况下,进行演示可能要比回答比较查询要困难得多。在这种情况下,我们应该期望在示范中看到比比较中更多的噪音或次级临时性,并且应该相应地解释反馈。在这项工作中,我们提倡,将每种反馈类型的实际数据中的理性系数扎根,而不是假设默认值,对奖励学习具有重大的积极影响。我们在模拟反馈以及用户研究的实验中测试了这一点。我们发现,从单一反馈类型中学习时,高估人类理性可能会对奖励准确性和遗憾产生可怕的影响。此外,我们发现合理性层面会影响每种反馈类型的信息性:令人惊讶的是,示威并不总是最有用的信息 - 当人类的行为非常卑鄙时,即使在合理性水平相同的情况下,比较实际上就变得更加有用。 。此外,当机器人确定要要求的反馈类型时,它可以通过准确建模每种类型的理性水平来获得很大的优势。最终,我们的结果强调了关注假定理性级别的重要性,不仅是在从单个反馈类型中学习时,尤其是当代理商从多种反馈类型中学习时,尤其是在学习时。
translated by 谷歌翻译
超现实视觉效果的技术的最新进展引起了人们的关注,即政治演讲的深层视频很快将与真实的视频录制无法视觉区分。通信研究中的传统观念预测,当故事的同一版本被视为视频而不是文字时,人们会更频繁地跌倒假新闻。在这里,我们评估了41,822名参与者在一个实验中如何将真实的政治演讲与捏造区分开来,在该实验中,演讲被随机显示为文本,音频和视频的排列。我们发现获得音频和视觉沟通方式的访问提高了参与者的准确性。在这里,人类的判断更多地依赖于话语,视听线索比所说的语音内容。但是,我们发现反思性推理调节了参与者考虑视觉信息的程度:认知反射测试的表现较低与对所说内容的过度依赖有关。
translated by 谷歌翻译
人工智能(AI)系统越来越多地用于提供建议以促进人类决策。尽管大量工作探讨了如何优化AI系统以产生准确且公平的建议以及如何向人类决策者提供算法建议,但在这项工作中,我们提出了一个不同的基本问题:何时应该提供建议?由于当前不断提供算法建议的局限性的限制,我们提出了以双向方式与人类用户互动的AI系统的设计。我们的AI系统学习使用过去的人类决策为政策提供建议。然后,对于新案例,学识渊博的政策利用人类的意见来确定算法建议将是有用的案例,以及人类最好单独决定的情况。我们通过使用美国刑事司法系统的数据对审前释放决策进行大规模实验来评估我们的方法。在我们的实验中,要求参与者评估被告违反其释放条款的风险,如果释放,并受到不同建议方法的建议。结果表明,与固定的非交互式建议方法相比,我们的交互式辅助方法可以在需要时提供建议,并显着改善人类决策。我们的方法在促进人类学习,保留人类决策者的互补优势以及对建议的更积极反应方面具有额外的优势。
translated by 谷歌翻译
人工智能算法越来越多地被公共机构作为决策助手,并承诺克服人类决策者的偏见。同时,他们可能会在人类算法中引入新的偏见。在心理学和公共行政文献上,我们调查了两个关键偏见:即使面对来自其他来源的警告信号(自动化偏见)的警告信号,对算法建议过度依赖,并选择性地采用算法建议时,这与刻板印象相对应(Selective Adherence)。我们通过在荷兰瓦中进行的三项实验研究评估这些研究,讨论了我们发现对公共部门决策在自动化时代的影响。总体而言,我们的研究表明,对已经脆弱和处境不利的公民自动化自动化的潜在负面影响。
translated by 谷歌翻译
获得抽象知识的能力是人类智力的标志,许多人认为是人类和神经网络模型之间的核心差异之一。代理可以通过元学习对抽象的归纳偏见,在那里他们接受了共享可以学习和应用的一些抽象结构的任务分布的培训。但是,由于很难解释神经网络,因此很难判断代理人是学会了潜在的抽象,或者是该抽象特征的统计模式。在这项工作中,我们比较了人类和代理在荟萃方面学习范式中的表现,其中从抽象规则中产生了任务。我们定义了一种用于构建“任务Metamers”的新方法,该方法与抽象任务的统计数据非常匹配,但使用了不同的基本生成过程,并评估了在抽象和Metamer任务上的性能。在我们的第一组实验中,我们发现人类在抽象任务上的表现要比MetAmer任务更好,而广泛使用的元强化学习代理在抽象任务上的表现要比匹配的Metamers差。在第二组实验中,我们将任务基于直接从经验鉴定的人类先验得出的抽象基础。我们利用相同的过程来生成相应的METAMER任务,并看到人与代理之间的相同双重分离。这项工作为表征人类和机器学习之间的差异奠定了基础,可以在未来的工作中用于以人类行为开发机器。
translated by 谷歌翻译