许多研究人员使用标签信息来提高推荐系统推荐技术的性能。检查用户的标志将有助于获得他们的兴趣,并导致建议的更准确。由于用户定义的标签是自由选择的,因此在没有任何限制的情况下,在确定它们的确切含义和标签的相似性时出现问题。另一方面,由于用户在许多数据集中使用不同语言的自由定义,使用杂散和本体找到标签的含义并不是很有效。因此,本文使用数学和统计方法来确定词汇相似性和共发生标签解决方案以分配语义相似性。另一方面,由于用户随着时间的流利的变化,本文已经考虑了用于确定标签的相似性的共发生标签中标记分配的时间。然后基于这些相似之处创建图形。为了建模用户的利益,通过使用社区检测方法确定标签的社区。因此,基于标签社区和资源之间的相似性的建议。已经使用基于“美味”数据集的评估,使用两个精度和召回标准进行了所提出的方法的性能。评价结果表明,与其他方法相比,所提出的方法的精度和召回显着改善。
translated by 谷歌翻译
This paper deals with the problem of statistical and system heterogeneity in a cross-silo Federated Learning (FL) framework where there exist a limited number of Consumer Internet of Things (CIoT) devices in a smart building. We propose a novel Graph Signal Processing (GSP)-inspired aggregation rule based on graph filtering dubbed ``G-Fedfilt''. The proposed aggregator enables a structured flow of information based on the graph's topology. This behavior allows capturing the interconnection of CIoT devices and training domain-specific models. The embedded graph filter is equipped with a tunable parameter which enables a continuous trade-off between domain-agnostic and domain-specific FL. In the case of domain-agnostic, it forces G-Fedfilt to act similar to the conventional Federated Averaging (FedAvg) aggregation rule. The proposed G-Fedfilt also enables an intrinsic smooth clustering based on the graph connectivity without explicitly specified which further boosts the personalization of the models in the framework. In addition, the proposed scheme enjoys a communication-efficient time-scheduling to alleviate the system heterogeneity. This is accomplished by adaptively adjusting the amount of training data samples and sparsity of the models' gradients to reduce communication desynchronization and latency. Simulation results show that the proposed G-Fedfilt achieves up to $3.99\% $ better classification accuracy than the conventional FedAvg when concerning model personalization on the statistically heterogeneous local datasets, while it is capable of yielding up to $2.41\%$ higher accuracy than FedAvg in the case of testing the generalization of the models.
translated by 谷歌翻译
本文总结了SMM4H 2022任务10的CLAC提交,该提交涉及西班牙推文中提到的疾病的识别。在对每个令牌进行分类之前,我们使用多语言Roberta大型,UMLS Gazetteer和Distemist Gazetteer等功能对每个令牌编码进行编码。我们获得0.869的严格F1得分,竞争平均值为0.675,标准偏差为0.245,中值为0.761。
translated by 谷歌翻译
旨在玩图灵的模仿游戏的人工智能,也不是为了最大程度地提高人类对信息操纵而构建的增强情报,以加速创新并改善人类对其最大挑战的集体进步。我们重新概念化并进行了试点AI,可以通过补充人类认知能力来从根本上增强人类的理解。我们的互补情报方法建立在人群智慧的基础上,这取决于人群成员的信息和方法的独立性和多样性。通过将有关科学专业知识不断发展的科学专业知识分布的信息结合在一起,我们的方法遵循文献中内容的分布,同时避免了科学人群和假设可供选择。我们使用这种方法来生成有价值的预测,这些预测具有有价值的能源相关特性(例如,热电学),以及哪些化合物具有补充人类科学人群的有价值的医疗特性(例如,哮喘)。我们证明,如果人类科学家和发明者的确定,我们的互补预测只会在未来进一步发现几年。当我们通过第一原理方程评估预测的承诺时,我们证明了预测的互补性的增加不会减少,在某些情况下会增加预测具有目标特性的概率。总而言之,通过调整AI避免人群,我们可以产生假设,直到遥远的未来,并承诺将科学进步打断。通过确定和纠正集体人类偏见,这些模型还提出了通过重新提高科学教育的发现来改善人类预测的机会。
translated by 谷歌翻译
在过去的十年中,深入的强化学习(DRL)算法已经越来越多地使用,以解决各种决策问题,例如自动驾驶和机器人技术。但是,这些算法在部署在安全至关重要的环境中时面临着巨大的挑战,因为它们经常表现出错误的行为,可能导致潜在的关键错误。评估DRL代理的安全性的一种方法是测试它们,以检测可能导致执行过程中严重失败的故障。这就提出了一个问题,即我们如何有效测试DRL政策以确保其正确性和遵守安全要求。测试DRL代理的大多数现有作品都使用扰动代理的对抗性攻击。但是,这种攻击通常会导致环境的不切实际状态。他们的主要目标是测试DRL代理的鲁棒性,而不是测试代理商在要求方面的合规性。由于DRL环境的巨大状态空间,测试执行的高成本以及DRL算法的黑盒性质,因此不可能对DRL代理进行详尽的测试。在本文中,我们提出了一种基于搜索的强化学习代理(Starla)的测试方法,以通过有效地在有限的测试预算中寻找无法执行的代理执行,以测试DRL代理的策略。我们使用机器学习模型和专用的遗传算法来缩小搜索错误的搜索。我们将Starla应用于深Q学习剂,该Qualla被广泛用作基准测试,并表明它通过检测到与代理商策略相关的更多故障来大大优于随机测试。我们还研究了如何使用我们的搜索结果提取表征DRL代理的错误事件的规则。这些规则可用于了解代理失败的条件,从而评估其部署风险。
translated by 谷歌翻译
深度神经网络(DNN)已广泛用于许多领域,包括图像处理,医疗诊断和自主驾驶。然而,DNN可以表现出可能导致严重错误的错误行为,特别是在安全关键系统中使用时。灵感来自传统软件系统的测试技术,研究人员提出了神经元覆盖标准,作为比喻源代码覆盖率,以指导DNN模型的测试。尽管对DNN覆盖范围非常积极的研究,但最近的几项研究质疑此类标准在指导DNN测试中的有用性。此外,从实际的角度来看,这些标准是白盒,因为它们需要访问DNN模型的内部或培训数据,这在许多情况下不可行或方便。在本文中,我们将黑盒输入分集度量调查为白盒覆盖标准的替代品。为此,我们首先以受控方式选择和适应三个分集指标和学习它们在输入集中测量实际分集的能力。然后,我们使用两个数据集和三个DNN模型分析其与故障检测的统计关联。我们进一步比较了与最先进的白盒覆盖标准的多样性。我们的实验表明,依赖于测试输入集中嵌入的图像特征的多样性是比覆盖标准更可靠的指示,以有效地指导DNN的测试。事实上,我们发现我们选定的黑盒子分集度量的一个远远超出了现有的覆盖范围,以便在发生故障泄露能力和计算时间方面。结果还确认了疑似,最先进的覆盖度量指标不足以指导测试输入集的构建,以检测尽可能多的自然输入的故障。
translated by 谷歌翻译
由于Covid-19大流行,对远程学习/工作和远程医疗对电信的需求显着增加。 6G网络中的移动边缘缓存(MEC)已被发展为一种有效的解决方案,以满足全球移动数据流量的现象增长,使多媒体内容更接近用户。虽然MEC网络使能的大规模连接将显着提高通信质量,但未来有几个关键挑战。边缘节点的有限存储,大尺寸的多媒体内容以及时变用户的偏好使得能够有效地和动态地预测内容的普及,以存储在被请求之前存储最多即将到来的请求的。深度神经网络(DNN)的最新进展绘制了很多研究,以预测主动缓存方案中的内容普及。然而,在此上下文中存在的现有DNN模型遭受Longterm依赖关系,计算复杂性和不适合并行计算的不适合性。为了解决这些挑战,我们提出了一个边缘缓存框架,其与关注的视觉变压器(VIV)神经网络引入,称为基于变压器的边缘(TEGED)缓存,这是我们所知的最佳知识,正在研究第一次。此外,TEGECACH CACHING框架不需要数据预处理和附加的上下文信息。仿真结果与其对应物相比,证实了提出的TEGECACHING框架的有效性。
translated by 谷歌翻译
主动学习(AL)是一个有希望的ML范式,有可能解析大型未标记数据并有助于降低标记数据可能令人难以置信的域中的注释成本。最近提出的基于神经网络的AL方法使用不同的启发式方法来实现这一目标。在这项研究中,我们证明,在相同的实验环境下,不同类型的AL算法(基于不确定性,基于多样性和委员会)产生了与随机采样基线相比的不一致增长。通过各种实验,控制了随机性来源,我们表明,AL算法实现的性能指标方差可能会导致与先前报道的结果不符的结果。我们还发现,在强烈的正则化下,AL方法在各种实验条件下显示出比随机采样基线的边缘或没有优势。最后,我们以一系列建议进行结论,以了解如何使用新的AL算法评估结果,以确保在实验条件下的变化下结果可再现和健壮。我们共享我们的代码以促进AL评估。我们认为,我们的发现和建议将有助于使用神经网络在AL中进行可重复的研究。我们通过https://github.com/prateekmunjal/torchal开源代码
translated by 谷歌翻译