在视频中自动识别有害内容是一项重要的任务,具有广泛的应用程序。但是,缺乏可用的专业标签开放数据集。在这项工作中,介绍了由专业人士注释的电影预告片的3589个视频片段的开放数据集。对数据集进行了分析,从而揭示了剪辑和拖车级别注释之间的关系。视听模型在数据集上进行了培训,并对进行的建模选择进行了深入研究。结果表明,通过结合视觉和音频方式,大规模视频识别数据集的预训练以及类平衡采样来大大提高性能。最后,使用歧视探测研究了受过训练的模型的偏差。Vidharm公开可用,并提供更多详细信息,请访问:https://vidharm.github.io。
translated by 谷歌翻译
This short report reviews the current state of the research and methodology on theoretical and practical aspects of Artificial Neural Networks (ANN). It was prepared to gather state-of-the-art knowledge needed to construct complex, hypercomplex and fuzzy neural networks. The report reflects the individual interests of the authors and, by now means, cannot be treated as a comprehensive review of the ANN discipline. Considering the fast development of this field, it is currently impossible to do a detailed review of a considerable number of pages. The report is an outcome of the Project 'The Strategic Research Partnership for the mathematical aspects of complex, hypercomplex and fuzzy neural networks' meeting at the University of Warmia and Mazury in Olsztyn, Poland, organized in September 2022.
translated by 谷歌翻译
In addition to its public health crisis, COVID-19 pandemic has led to the shutdown and closure of workplaces with an estimated total cost of more than $16 trillion. Given the long hours an average person spends in buildings and indoor environments, this research article proposes data-driven control strategies to design optimal indoor airflow to minimize the exposure of occupants to viral pathogens in built environments. A general control framework is put forward for designing an optimal velocity field and proximal policy optimization, a reinforcement learning algorithm is employed to solve the control problem in a data-driven fashion. The same framework is used for optimal placement of disinfectants to neutralize the viral pathogens as an alternative to the airflow design when the latter is practically infeasible or hard to implement. We show, via simulation experiments, that the control agent learns the optimal policy in both scenarios within a reasonable time. The proposed data-driven control framework in this study will have significant societal and economic benefits by setting the foundation for an improved methodology in designing case-specific infection control guidelines that can be realized by affordable ventilation devices and disinfectants.
translated by 谷歌翻译
Vision and language models (VL) are known to exploit unrobust indicators in individual modalities (e.g., introduced by distributional biases), instead of focusing on relevant information in each modality. A small drop in accuracy obtained on a VL task with a unimodal model suggests that so-called unimodal collapse occurred. But how to quantify the amount of unimodal collapse reliably, at dataset and instance-level, to diagnose and combat unimodal collapse in a targeted way? We present MM-SHAP, a performance-agnostic multimodality score that quantifies the proportion by which a model uses individual modalities in multimodal tasks. MM-SHAP is based on Shapley values and will be applied in two ways: (1) to compare models for their degree of multimodality, and (2) to measure the contribution of individual modalities for a given task and dataset. Experiments with 6 VL models -- LXMERT, CLIP and four ALBEF variants -- on four VL tasks highlight that unimodal collapse can occur to different degrees and in different directions, contradicting the wide-spread assumption that unimodal collapse is one-sided. We recommend MM-SHAP for analysing multimodal tasks, to diagnose and guide progress towards multimodal integration. Code available at: https://github.com/Heidelberg-NLP/MM-SHAP
translated by 谷歌翻译
通过建立神经网络和内核方法之间的联系,无限宽度极限阐明了深度学习的概括和优化方面。尽管它们的重要性,但这些内核方法的实用性在大规模学习设置中受到限制,因为它们(超)二次运行时和内存复杂性。此外,大多数先前关于神经内核的作品都集中在relu激活上,这主要是由于其受欢迎程度,但这也是由于很难计算此类内核来进行一般激活。在这项工作中,我们通过提供进行一般激活的方法来克服此类困难。首先,我们编译和扩展激活功能的列表,该函数允许精确的双重激活表达式计算神经内核。当确切的计算未知时,我们提出有效近似它们的方法。我们提出了一种快速的素描方法,该方法近似于任何多种多层神经网络高斯过程(NNGP)内核和神经切线核(NTK)矩阵,以实现广泛的激活功能,这超出了常见的经过分析的RELU激活。这是通过显示如何使用任何所需激活函​​数的截短的Hermite膨胀来近似神经内核来完成的。虽然大多数先前的工作都需要单位球体上的数据点,但我们的方法不受此类限制的影响,并且适用于$ \ Mathbb {r}^d $中的任何点数据集。此外,我们为NNGP和NTK矩阵提供了一个子空间嵌入,具有接近输入的距离运行时和接近最佳的目标尺寸,该目标尺寸适用于任何\ EMPH {均质}双重激活功能,具有快速收敛的Taylor膨胀。从经验上讲,关于精确的卷积NTK(CNTK)计算,我们的方法可实现$ 106 \ times $速度,用于在CIFAR-10数据集上的5层默特网络的近似CNTK。
translated by 谷歌翻译
本文提出了一种新的模型架构,具有抑制MLP(GIMLP)的门。对CyClemlp(Gi-Cyclemlp)抑制的大门可以在Imagenet分类任务上产生同等的性能,并且还可以改善BERT,ROBERTA和DEBERTAV3型号关于两种新颖的技术。第一个是门控MLP,其中MLP和Trunk注意力输入之间的矩阵乘法在进一步调整模型的适应性中。第二个是抑制作用,它抑制或增强分支调节,并且随着抑制水平的增加,它提供了更大的肌肉特征限制。我们表明,就成像网分类的精度而言,抑制水平较低的GicyClemLP可能与原始CYCLEMLP具有竞争力。此外,我们还通过一项全面的实证研究表明,这些技术显着改善了微调NLU下游任务的性能。至于在Deberta(Gideberta)微调上具有抑制MLP的大门,我们发现它可以在NLU任务的大多数部分上取得吸引力的结果,而无需再进行任何额外的预处理。我们还发现,通过抑制栅极的使用,激活函数应具有短而光滑的负尾巴,而无关紧要的特征或受伤模型的特征可以适度抑制。对图像分类和增强自然语言微调的能力而没有任何额外预读的实验,对Imagenet和十二个语言的实验表明了GATE具有抑制作用的有效性。
translated by 谷歌翻译
神经切线核(NTK),定义为$ \ theta_ \ theta^f(x_1,x_2)= \ left [\ partial f(\ theta,x_1)\ big/\ big/\ partial \ partial \ theta \ theta \ the f(\ theta,x_2)\ big/\ partial \ theta \ right]^t $ where $ \ weft [\ partial f(\ theta,\ cdot)\ big/\ big/\ partial \ theta \ right] $是一个神经网络(nn)雅各布(Jacobian)已成为深度学习研究的核心研究对象。在无限宽度极限中,有时可以通过分析计算NTK,对于理解NN体系结构的训练和概括很有用。在有限的宽度下,NTK还用于更好地初始化NN,比较跨模型,执行体系结构搜索并进行元学习。不幸的是,众所周知,有限的宽度NTK计算昂贵,这严重限制了其实际实用程序。我们对有限宽度网络中NTK计算的计算和内存需求进行了第一个深入分析。利用神经网络的结构,我们进一步提出了两种新颖的算法,这些算法改变了有限宽度NTK的计算和内存要求的指数,从而极大地提高了效率。我们的算法可以以黑匣子方式应用于任何可区分功能,包括实现神经网络的功能。我们在https://github.com/google/neural-tangents的神经切线包(ARXIV:1912.02803)中开放我们的实现。
translated by 谷歌翻译
我们引入了重新定性,这是一种数据依赖性的重新聚集化,将贝叶斯神经网络(BNN)转化为后部的分布,其KL对BNN对BNN的差异随着层宽度的增长而消失。重新定义图直接作用于参数,其分析简单性补充了宽BNN在功能空间中宽BNN的已知神经网络过程(NNGP)行为。利用重新定性,我们开发了马尔可夫链蒙特卡洛(MCMC)后采样算法,该算法将BNN更快地混合在一起。这与MCMC在高维度上的表现差异很差。对于完全连接和残留网络,我们观察到有效样本量高达50倍。在各个宽度上都取得了改进,并在层宽度的重新培训和标准BNN之间的边缘。
translated by 谷歌翻译
基于图的含义表示形式的指标(例如,抽象含义表示,AMR)可以帮助我们发现两个句子相似的关键语义方面。但是,这样的指标往往会很慢,依靠解析器,并且在评分句子相似性时不会达到最先进的性能。另一方面,基于大型语言模型(例如S(Entence)bert)的模型与人类相似性等级显示高度相关,但缺乏可解释性。在本文中,我们通过创建非常有效的相似性指标,同时还为其评级提供了可解释的理由,以实现这两个世界中最好的目标。我们的方法分为两个步骤:我们首先选择AMR图指标,以测量句子相对于关键语义方面的相似性,例如,I.A.,语义角色,否定或量化。其次,我们采用这些指标来诱导语义结构化的句子bert嵌入(S $^3 $ bert),这些句子由不同子空间中捕获的不同含义组成。在我们的实验研究中,我们表明我们的方法在性能和解释性之间提供了宝贵的平衡。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译