源代码的最先进的神经模型倾向于在代码的生成时进行评估,并且通常在长地平任务中的产生,例如整个方法体的产生。我们建议使用静态程序分析仪的弱监督来解决这一缺陷。我们的神经统计方法允许深入的生成模型来象征地计算它已经生成的代码中的静态分析工具,长距离语义关系。在培训期间,该模型观察这些关系,并学习生成条件上的程序。考虑到包含该方法的类的剩余部分,我们将我们的方法应用于生成整个Java方法的问题。我们的实验表明,该方法显着地优于最先进的变换器和模型,明确试图在制作程序中没有基本语义错误的程序以及在句法匹配地面真理方面来学习此任务的模型。
translated by 谷歌翻译
With the rising adoption of Machine Learning across the domains like banking, pharmaceutical, ed-tech, etc, it has become utmost important to adopt responsible AI methods to ensure models are not unfairly discriminating against any group. Given the lack of clean training data, generative adversarial techniques are preferred to generate synthetic data with several state-of-the-art architectures readily available across various domains from unstructured data such as text, images to structured datasets modelling fraud detection and many more. These techniques overcome several challenges such as class imbalance, limited training data, restricted access to data due to privacy issues. Existing work focusing on generating fair data either works for a certain GAN architecture or is very difficult to tune across the GANs. In this paper, we propose a pipeline to generate fairer synthetic data independent of the GAN architecture. The proposed paper utilizes a pre-processing algorithm to identify and remove bias inducing samples. In particular, we claim that while generating synthetic data most GANs amplify bias present in the training data but by removing these bias inducing samples, GANs essentially focuses more on real informative samples. Our experimental evaluation on two open-source datasets demonstrates how the proposed pipeline is generating fair data along with improved performance in some cases.
translated by 谷歌翻译
仇恨言语分类一直是自然语言处理中的一个长期问题。但是,即使有许多仇恨言论检测方法,它们通常忽略了许多仇恨言论,因为它们在自然界中是隐含的。开发数据集以协助隐性仇恨言语分类的任务伴随着自己的挑战;困难是语言上的细微差别,改变了构成仇恨言论的定义以及劳动密集型的注释过程。这导致了可用于训练和测试此类系统的数据稀缺,当使用基于参数的变压器模型来解决该问题时,这会引起较高的差异问题。在本文中,我们探讨了各种优化和正则化技术,并开发了一种基于罗伯塔的新型模型,可实现最先进的性能。
translated by 谷歌翻译
属性推理攻击使对手可以从机器学习模型中提取培训数据集的全局属性。此类攻击对共享数据集来培训机器学习模型的数据所有者具有隐私影响。已经提出了几种针对深神经网络的财产推理攻击的现有方法,但它们都依靠攻击者训练大量的影子模型,这会导致大型计算开销。在本文中,我们考虑了攻击者可以毒化训练数据集的子集并查询训练有素的目标模型的属性推理攻击的设置。通过我们对中毒下模型信心的理论分析的激励,我们设计了有效的财产推理攻击,SNAP,该攻击获得了更高的攻击成功,并且需要比Mahloujifar Et的基于最先进的中毒的财产推理攻击更高的中毒量。 al。例如,在人口普查数据集上,SNAP的成功率比Mahloujifar等人高34%。同时更快56.5倍。我们还扩展了攻击,以确定在培训中是否根本存在某个财产,并有效地估算了利息财产的确切比例。我们评估了对四个数据集各种比例的多种属性的攻击,并证明了Snap的一般性和有效性。
translated by 谷歌翻译
更多数据有助于我们推广到任务。但是实际数据集可以包含分布(OOD)数据;这可以以异质性的形式出现,例如类内变异性,也可以以时间变化或概念漂移的形式出现。我们在此类问题上展示了一种反直觉现象:任务的概括误差可能是OOD样本数量的非单调函数;少数OOD样品可以改善概括,但是如果OOD样品的数量超出了阈值,则概括误差可能会恶化。我们还表明,如果我们知道哪些样品是OOD,则使用目标和OOD样品之间的加权目标确保概括误差单调减少。我们使用线性分类器在CIFAR-10上的合成数据集和中型神经网络上使用线性分类器演示和分析了此问题。
translated by 谷歌翻译
评估成像中的乳腺癌风险仍然是一个主观过程,在该过程中,放射科医生采用计算机辅助检测(CAD)系统或定性视觉评估来估计乳房密度(PD)。更先进的机器学习(ML)模型已成为量化早期,准确和公平诊断的乳腺癌风险的最有希望的方法,但是医学研究中的这种模型通常仅限于小型单一机构数据。由于患者人口统计和成像特征可能在成像站点之间有很大差异,因此在单机构数据中训练的模型往往不会很好地概括。为了应对这个问题,提出了Mammodl,这是一种开源软件工具,利用UNET体系结构来准确估计乳腺PD和数字乳房X线摄影(DM)的复杂性。通过开放的联合学习(OpenFL)库,该解决方案可以在多个机构的数据集上进行安全培训。 Mammodl是一个比其前任更精简,更灵活的模型,由于对更大,更具代表性的数据集的支持培训,因此具有改进的概括。
translated by 谷歌翻译
已经提出了安全的多方计算(MPC),以允许多个相互不信任的数据所有者在其合并数据上共同训练机器学习(ML)模型。但是,通过设计,MPC协议忠实地计算了训练功能,对抗性ML社区已证明该功能泄漏了私人信息,并且可以在中毒攻击中篡改。在这项工作中,我们认为在我们的框架中实现的模型合奏是一种称为Safenet的框架,是MPC的高度无限方法,可以避免许多对抗性ML攻击。 MPC培训中所有者之间数据的自然分区允许这种方法在训练时间高度可扩展,可证明可保护免受中毒攻击的保护,并证明可以防御许多隐私攻击。我们展示了Safenet对在端到端和转移学习方案训练的几个机器学习数据集和模型上中毒的效率,准确性和韧性。例如,Safenet可显着降低后门攻击的成功,同时获得$ 39 \ times $ $的培训,$ 36 \ times $ $ $少于达尔斯科夫(Dalskov)等人的四方MPC框架。我们的实验表明,即使在许多非IID设置中,结合也能保留这些好处。结合的简单性,廉价的设置和鲁棒性属性使其成为MPC私下培训ML模型的强大首选。
translated by 谷歌翻译
利用额外数据的最佳方法(无论是从同一任务中未标记的数据还是从相关任务标记的数据)学习给定任务的最佳方法是什么?本文使用参考研究理论对问题进行正式化。参考先验是客观的,非信息性的贝叶斯先验,可最大程度地提高任务和模型权重之间的相互信息。这样的先验使该任务能够最大程度地影响贝叶斯后部,例如,参考先知取决于可用于学习任务的样本数量,并且对于非常小的样本量,先前的概率质量更大,在假设空间中的低复杂模型上有更多的概率质量。本文介绍了中等尺度深网和基于图像的数据的参考先验的首次演示。我们开发了参考先验的概括,并向两个问题展示了应用。首先,通过使用未标记的数据来计算参考之前,我们开发了新的贝叶斯半监督学习方法,即使每个类别的样本很少,它们仍然有效。其次,通过使用来自源任务的标记数据来计算参考之前,我们开发了一种新的转移学习方法,该方法允许从目标任务进行数据以最大程度地影响贝叶斯后验。这些方法的经验验证是在图像分类数据集上进行的。代码可从https://github.com/grasp-lyrl/deep_reference_priors获得。
translated by 谷歌翻译
Covid-19大流行是人类的祸害,宣称全世界超过500万人的生活。虽然疫苗正在全世界分布,但表观需要实惠的筛选技术,以便为无法获得传统医学的世界服务。人工智能可以提供利用咳嗽声音作为主要筛选模式的解决方案。本文介绍了多种模型,这些模型在学术文献目前呈现的最大评估数据集上取得了相对尊敬的性能。此外,我们还显示性能随着培训数据规模而增加,表明世界各地的数据收集,以帮助使用非传统方式对抗Covid-19大流行。
translated by 谷歌翻译
SlockChain交易的时间方面使我们能够研究地址的行为并检测它是否参与了任何非法活动。但是,由于更改地址的概念(用于横幅重放攻击),时间方面不可直接适用于比特币区块链。在使用此类时间方面之前应该执行几个预处理步骤。我们有动力研究比特币交易网络,并使用诸如突发,吸引力和事件间时间等时间特征以及多个基于图形的属性,例如节点和聚类系数,以验证已知现有方法的应用性的适用性对于比特币区块区块的其他加密电机区块链。我们在不同的时间粒度上生成时间和非时间特征集并培训机器学习(ML)算法以验证最先进的方法。我们研究了数据集的不同时间粒度的地址的行为。我们确定在应用变更址群集之后,在比特币中,可以提取现有的时间特征,并且可以应用ML方法。结果的比较分析表明,在内部,出差和事件间的情况下,国内和比特币中的地址行为类似。此外,我们识别出3名嫌疑人,这些嫌疑人在不同的时间粒度上显示出恶意行为。这些嫌疑人并没有标记为比特币的恶意。
translated by 谷歌翻译