学习有效的蛋白质表示在生物学的各种任务中至关重要,例如预测蛋白质功能或结构。现有的方法通常在大量未标记的氨基酸序列上预先蛋白质语言模型,然后在下游任务中使用一些标记的数据来对模型进行修复。尽管基于序列的方法具有有效性,但尚未探索蛋白质性能预测的已知蛋白质结构的预处理功能,尽管蛋白质结构已知是蛋白质功能的决定因素,但尚未探索。在本文中,我们建议根据其3D结构预处理蛋白质。我们首先提出一个简单而有效的编码器,以学习蛋白质的几何特征。我们通过利用多视图对比学习和不同的自我预测任务来预先蛋白质图编码器。对功能预测和折叠分类任务的实验结果表明,我们提出的预处理方法表现优于或与最新的基于最新的序列方法相提并论,同时使用较少的数据。我们的实施可在https://github.com/deepgraphlearning/gearnet上获得。
translated by 谷歌翻译
计算蛋白质设计,即推断与给定结构一致的新型和多样的蛋白质序列仍然是一个主要的未解决的挑战。最近,从单独的序列或序列和结构中学习的深度生成模型在此任务上表现出令人印象深刻的性能。然而,这些模型在建模结构约束方面出现有限,捕获足够的序列分集或两者。在这里,我们考虑三个最近提出的蛋白质设计的深度生成框架:(AR)基于序列的自回归生成模型,(GVP)基于精确的结构形式的图形神经网络,以及折叠模糊的模糊和无规模表示的折叠表示 - 折叠,同时强制执行结构到序列(反之亦然)一致性。我们基准这些模型对抗体序列计算设计的任务,要求设计具有高多样性的序列以进行功能含义。在设计序列的多样性方面,FOLD2SEQ框架突出了两个其他基线,同时保持典型的折叠。
translated by 谷歌翻译
Human perception, memory and decision-making are impacted by tens of cognitive biases and heuristics that influence our actions and decisions. Despite the pervasiveness of such biases, they are generally not leveraged by today's Artificial Intelligence (AI) systems that model human behavior and interact with humans. In this theoretical paper, we claim that the future of human-machine collaboration will entail the development of AI systems that model, understand and possibly replicate human cognitive biases. We propose the need for a research agenda on the interplay between human cognitive biases and Artificial Intelligence. We categorize existing cognitive biases from the perspective of AI systems, identify three broad areas of interest and outline research directions for the design of AI systems that have a better understanding of our own biases.
translated by 谷歌翻译
Federated learning (FL) has been proposed as a privacy-preserving approach in distributed machine learning. A federated learning architecture consists of a central server and a number of clients that have access to private, potentially sensitive data. Clients are able to keep their data in their local machines and only share their locally trained model's parameters with a central server that manages the collaborative learning process. FL has delivered promising results in real-life scenarios, such as healthcare, energy, and finance. However, when the number of participating clients is large, the overhead of managing the clients slows down the learning. Thus, client selection has been introduced as a strategy to limit the number of communicating parties at every step of the process. Since the early na\"{i}ve random selection of clients, several client selection methods have been proposed in the literature. Unfortunately, given that this is an emergent field, there is a lack of a taxonomy of client selection methods, making it hard to compare approaches. In this paper, we propose a taxonomy of client selection in Federated Learning that enables us to shed light on current progress in the field and identify potential areas of future research in this promising area of machine learning.
translated by 谷歌翻译
捕获基于协变量的多变量响应载体之间的条件协方差或相关性对于包括神经科学,流行病学和生物医学在内的各个领域很重要。我们提出了一种新方法,称为随机森林(covregrf),以使用随机森林框架估算一个多变量响应的协方差矩阵。随机林木的建造具有专门设计的分裂规则,以最大化儿童节点的样本协方差矩阵估计值之间的差异。我们还提出了对协变量子集的部分效应的显着性检验。我们通过一项模拟研究评估了提出的方法和显着性测试的性能,该研究表明该方法提供了准确的协方差矩阵估计值,并且Type-1误差得到了很好的控制。我们还证明了该方法与甲状腺疾病数据集的应用。
translated by 谷歌翻译
负责任的AI被广泛认为是我们时代最大的科学挑战之一,也是释放AI市场并增加采用率的关键。为了应对负责任的AI挑战,最近已经发布了许多AI伦理原则框架,AI系统应该符合这些框架。但是,没有进一步的最佳实践指导,从业者除了真实性之外没有什么。同样,在算法级别而不是系统级的算法上进行了重大努力,主要集中于数学无关的道德原则(例如隐私和公平)的一部分。然而,道德问题在开发生命周期的任何步骤中都可能发生,从而超过AI算法和模型以外的系统的许多AI,非AI和数据组件。为了从系统的角度操作负责任的AI,在本文中,我们采用了一种面向模式的方法,并根据系统的多媒体文献综述(MLR)的结果提出了负责任的AI模式目录。与其呆在道德原则层面或算法层面上,我们专注于AI系统利益相关者可以在实践中采取的模式,以确保开发的AI系统在整个治理和工程生命周期中负责。负责的AI模式编目将模式分为三组:多层次治理模式,可信赖的过程模式和负责任的逐设计产品模式。这些模式为利益相关者实施负责任的AI提供了系统性和可行的指导。
translated by 谷歌翻译
ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列,该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战,这是由于探测器的几何形状,不均匀的散射和冰中光的吸收,并且低于100 GEV的光,每个事件产生的信号光子数量相对较少。为了应对这一挑战,可以将ICECUBE事件表示为点云图形,并将图形神经网络(GNN)作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开,对不同的中微子事件类型进行分类,并重建沉积的能量,方向和相互作用顶点。基于仿真,我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术,包括已知系统不确定性的影响。对于中微子事件分类,与当前的IceCube方法相比,GNN以固定的假阳性速率(FPR)提高了信号效率的18%。另外,GNN在固定信号效率下将FPR的降低超过8(低于半百分比)。对于能源,方向和相互作用顶点的重建,与当前最大似然技术相比,分辨率平均提高了13%-20%。当在GPU上运行时,GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件,这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。
translated by 谷歌翻译
多维时空数据的概率建模对于许多现实世界应用至关重要。然而,现实世界时空数据通常表现出非平稳性的复杂依赖性,即相关结构随位置/时间而变化,并且在空间和时间之间存在不可分割的依赖性,即依赖关系。开发有效和计算有效的统计模型,以适应包含远程和短期变化的非平稳/不可分割的过程,成为一项艰巨的任务,尤其是对于具有各种腐败/缺失结构的大规模数据集。在本文中,我们提出了一个新的统计框架 - 贝叶斯互补内核学习(BCKL),以实现多维时空数据的可扩展概率建模。为了有效地描述复杂的依赖性,BCKL与短距离时空高斯过程(GP)相结合的内核低级分解(GP),其中两个组件相互补充。具体而言,我们使用多线性低级分组组件来捕获数据中的全局/远程相关性,并基于紧凑的核心函数引入加法短尺度GP,以表征其余的局部变异性。我们为模型推断开发了有效的马尔可夫链蒙特卡洛(MCMC)算法,并在合成和现实世界时空数据集上评估了所提出的BCKL框架。我们的结果证实了BCKL在提供准确的后均值和高质量不确定性估计方面的出色表现。
translated by 谷歌翻译
侧通道攻击对加密算法构成了严重的威胁,包括广泛使用的算法,例如AES和RSA,利用硬件或软件中的算法实现,以通过计时和/或电力侧通道来提取秘密信息。软件掩蔽是一种针对电力侧通道攻击的软件缓解方法,旨在将秘密浏览依赖性隐藏在脆弱实现的功率足迹之外。但是,这种类型的软件缓解通常取决于通用编译器,这些编译器不保留非功能性能。此外,Microarchitectural特征(例如内存总线和寄存器重复使用)也可能揭示秘密信息。这些抽象在该程序的高级实施中不可见。相反,它们是在编译时间决定的。为了解决这些问题,安全工程师通常通过关闭编译器优化和/或执行本地兼容后转换来牺牲代码效率。本文提出了SECCONCG,这是一种基于约束的编译器方法,该方法生成了优化但安全的代码。 SECCONCG通过根据处理器成本模型有效地搜索最佳的低级实施来控制缓解程序的质量。在我们在MIPS32和ARM Cortex M0上进行十项掩盖实现的实验中,与非优化优化代码相比,SECCONCG的速度将生成的代码从10%提高到10%至10倍。对于安全和编译器研究人员,本文提出了一个正式模型,以生成安全的低级代码。对于软件工程师,SECCONCG提供了一种实用方法来优化保留安全属性的代码。
translated by 谷歌翻译
用于卫星图像分析的计算机视觉算法的创新可以使我们能够在行星层面探索全球挑战,例如城市化和土地利用变化。但是,当试图复制将这些分析推向新领域的模型时,尤其是在发展中国家的模型时,域转移问题是一个普遍的情况。如果模型是通过一个位置的图像和标签训练的,则通常不会很好地概括到图像和数据分布不同的新位置。在这项工作中,我们考虑了我们有一个大型卫星图像场景的设置,我们希望在该场景上解决一个应用问题 - 构建足迹细分。在这里,我们不一定需要担心创建一个概括过我们场景边界的模型,而是可以训练本地模型。我们表明,使用非常高分辨率(0.5m/px)卫星图像解决建筑细分问题需要的标签很少。我们只有527个稀疏多边形注释(相当于1500 x 1500名被标记的像素)训练的最佳型号,召回了0.87的持有足迹,R2的r2为0.93视窗。我们将模型应用于约旦安曼(Amman)的高分辨率图像中,在一项有关城市变化检测的案例研究中。
translated by 谷歌翻译