大多数低编码平台的用户,例如Excel和PowerApps,都以特定于域的公式语言编写程序来执行非平凡的任务。用户通常可以编写他们想要的大部分程序,但是引入了一些小错误,这些错误会产生破损的公式。这些错误既可以是句法和语义,也很难让低代码用户识别和修复,即使只能通过一些编辑解决。我们正式化了产生最后一英里维修问题等编辑的问题。为了解决这个问题,我们开发了Lamirage,这是一种最后一英里的维修发动机发电机,结合了符号和神经技术,以低代码公式语言进行最后一英里维修。 Lamirage采用语法和一组特定领域的约束/规则,它们共同近似目标语言,并使用它们来生成可以用该语言修复公式的维修引擎。为了应对本地化错误和对候选维修进行排名的挑战,Lamirage利用神经技术,而它依赖于符号方法来生成候选维修。这种组合使Lamirage可以找到满足提供的语法和约束的维修,然后选择最自然的修复。我们将Lamirage与400个Real Excel和PowerFX公式的最新神经和符号方法进行了比较,其中Lamirage的表现优于所有基线。我们释放这些基准,以鼓励在低代码域中进行后续工作。
translated by 谷歌翻译
The library scikit-fda is a Python package for Functional Data Analysis (FDA). It provides a comprehensive set of tools for representation, preprocessing, and exploratory analysis of functional data. The library is built upon and integrated in Python's scientific ecosystem. In particular, it conforms to the scikit-learn application programming interface so as to take advantage of the functionality for machine learning provided by this package: pipelines, model selection, and hyperparameter tuning, among others. The scikit-fda package has been released as free and open-source software under a 3-Clause BSD license and is open to contributions from the FDA community. The library's extensive documentation includes step-by-step tutorials and detailed examples of use.
translated by 谷歌翻译
成功培训端到端的深网进行真实运动去缩合,需要尖锐/模糊的图像对数据集,这些数据集现实且多样化,足以实现概括以实现真实的图像。获得此类数据集仍然是一项具有挑战性的任务。在本文中,我们首先回顾了现有的Deblurring基准数据集的局限性,从泛化到野外模糊图像的角度。其次,我们提出了一种有效的程序方法,以基于一个简单而有效的图像形成模型来生成清晰/模糊的图像对。这允许生成几乎无限的现实和多样化的培训对。我们通过在模拟对上训练现有的DeBlurring架构,并在四个真实模糊图像的标准数据集中对其进行评估,从而证明了所提出的数据集的有效性。我们观察到使用建议方法训练时动态场景的真实运动毛线照片的最终任务的出色概括性能。
translated by 谷歌翻译
社会互动网络是建立文明的基材。通常,我们与我们喜欢的人建立新的纽带,或者认为通过第三方的干预,我们的关系损害了。尽管它们的重要性和这些过程对我们的生活产生的巨大影响,但对它们的定量科学理解仍处于起步阶段,这主要是由于很难收集大量的社交网络数据集,包括个人属性。在这项工作中,我们对13所学校的真实社交网络进行了彻底的研究,其中3,000多名学生和60,000名宣布正面关系和负面关系,包括对所有学生的个人特征的测试。我们引入了一个度量标准 - “三合会影响”,该指标衡量了最近的邻居在其接触关系中的影响。我们使用神经网络来预测关系,并根据他们的个人属性或三合会的影响来提取两个学生是朋友或敌人的可能性。或者,我们可以使用网络结构的高维嵌入来预测关系。值得注意的是,三合会影响(一个简单的一维度量)在预测两个学生之间的关系方面达到了最高的准确性。我们假设从神经网络中提取的概率 - 三合会影响的功能和学生的个性 - 控制真实社交网络的演变,为这些系统的定量研究开辟了新的途径。
translated by 谷歌翻译
编写代码时,大多数程序员会犯错误。这些错误中的一些很小,几乎不需要对原始程序进行编辑 - 最近称为最后一个英里错误的错误。这些错误打破了经验丰富的开发人员的流程,并且可以使新手程序员陷入困境。针对此类错误的现有自动化维修技术是特定于域的,并且不容易延续到新域。转移符号方法需要实质性的工程和神经方法需要数据和重新培训。我们介绍RING,这是一种多语言维修引擎,该引擎由经过代码训练的大型语言模型(例如Codex)提供动力。这样的多语言引擎可以为编程援助提供一个翻转的模型,该模型与传统的代码建议技术相比,程序员编写代码和AI援助建议修复。从程序员手动修复错误的方式中汲取灵感,我们表明,基于迅速的策略将修复作为本地化,转换和候选排名概念化,可以成功地在多个域中成功维修程序,但努力最少。我们通过评估6个不同的域并将性能与域特异性维修引擎进行比较,为这种多语言维修引擎提供了第一个结果。我们表明,环可以超过这些域中3个域中的特定于域特异性修复引擎。我们还确定了使用LLMC进行多语言维修的未来研究方向。
translated by 谷歌翻译
电子表格广泛用于桌面操作和演示。这些表的风格格式是演示和分析的重要属性。结果,流行的电子表格软件(例如Excel)支持基于数据依赖性规则的自动格式表。不幸的是,编写这些格式规则对于用户来说可能是具有挑战性的,因为这需要了解基础规则语言和数据逻辑。在本文中,我们提出了Cornet,这是一种神经符号系统,该系统解决了从格式化细胞的用户示例中自动学习此类格式规则的新问题。 Cornet从归纳计划的合成中汲取灵感,并根据半监督聚类和迭代决策树学习结合了符号规则,并与神经排名者一起产生条件格式的规则。为了激励和评估我们的方法,我们从超过40k真实电子​​表格的语料库中提取了表格的表格。使用这些数据,我们将短号与各种符号和神经基线进行了比较。我们的结果表明,与这些基线相比,Cornet可以在不同条件下更准确地学习规则。除了从用户示例中学习规则外,我们还提出了两个案例研究,以激发Cornet的其他用途:简化用户条件格式规则并恢复规则,即使用户可能手动格式化了其数据。
translated by 谷歌翻译
预训练的语言模型的目的是学习文本数据的上下文表示。预训练的语言模型已成为自然语言处理和代码建模的主流。使用探针,一种研究隐藏矢量空间的语言特性的技术,以前的作品表明,这些预训练的语言模型在其隐藏表示中编码简单的语言特性。但是,以前的工作都没有评估这些模型是否编码编程语言的整个语法结构。在本文中,我们证明了\ textit {句法子空间}的存在,该{语法子空间}位于预训练的语言模型的隐藏表示中,其中包含编程语言的句法信息。我们表明,可以从模型的表示形式中提取此子空间,并定义一种新颖的探测方法AST-Probe,该方法可以恢复输入代码段的整个抽象语法树(AST)。在我们的实验中,我们表明这种句法子空间存在于五个最先进的预训练的语言模型中。此外,我们强调说,模型的中间层是编码大多数AST信息的模型。最后,我们估计该句法子空间的最佳大小,并表明其尺寸大大低于模型的表示空间。这表明,预训练的语言模型使用其表示空间的一小部分来编码编程语言的句法信息。
translated by 谷歌翻译
近年来经历的计算设备部署爆炸,由诸如互联网(物联网)和5G的技术(IOT)和5G等技术的激励,导致了全局情景,随着网络安全的风险和威胁的增加。其中,设备欺骗和模糊的网络攻击因其影响而脱颖而出,并且通常需要推出的低复杂性。为了解决这个问题,已经出现了几种解决方案,以根据行为指纹和机器/深度学习(ML / DL)技术的组合来识别设备模型和类型。但是,这些解决方案不适合数据隐私和保护的方案,因为它们需要数据集中处理以进行处理。在这种情况下,尚未完全探索较新的方法,例如联合学习(FL),特别是当恶意客户端存在于场景设置时。目前的工作分析并比较了使用基于执行时间的事件的v一体的集中式DL模型的设备模型识别性能。对于实验目的,已经收集并公布了属于四种不同模型的55个覆盆子PI的执行时间特征的数据集。使用此数据集,所提出的解决方案在两个设置,集中式和联合中实现了0.9999的精度,在保留数据隐私时显示没有性能下降。后来,使用几种聚集机制作为对策,评估标签翻转攻击在联邦模型训练期间的影响。 ZENO和协调明智的中值聚合表现出最佳性能,尽管当他们的性能大大降低时,当完全恶意客户(所有培训样本中毒)增长超过50%时大大降临。
translated by 谷歌翻译
基因表达数据集通常具有高维度,因此需要有效且有效的方法来识别其属性的相对重要性。由于可能的解决方案的搜索空间的大小,属性子集评估特征选择方法往往不适用,因此在这些方案中使用特征对方法。文献中描述的大多数特征排名方法是单变量的方法,因此它们不会检测因子之间的相互作用。在本文中,我们提出了基于成对相关性和成对一致性的两种新的多变量特征排名方法,我们应用于三种基因表达分类问题。我们在统计上证明所提出的方法优于现有技术的状态,特征对方法进行分类方法聚类变化,CHI平方,相关性,信息增益,相关性和意义,以及基于与多目标的相关性和一致性的属性子集评估的特征选择方法进化搜索策略。
translated by 谷歌翻译
接收器操作特性(ROC)曲线下的区域称为AUC,是监督学习域中众所周知的性能措施。由于其引人注目的功能,它已在许多研究中使用,以评估和比较不同分类器的性能。在这项工作中,我们在集群分析的背景下更具体地,我们将AUC作为无监督学习域中的性能措施。特别是,我们详细说明了AUC作为聚类质量的内部/相对测量,我们将其称为聚类曲线下的区域(AUCC)。我们表明给定候选聚类解决方案的AUCC在随机聚类解决方案的空模型下具有预期值,无论数据集的大小如何,更重要的是,无论在评估下的群集的数量或(IM)平衡如何。此外,我们详细阐述了在我们考虑的内部/相对聚类验证的背景下,AUCC实际上是Baker和Hubert(1975)的伽玛标准的线性转换,我们也正式得出了理论预期机会群集的价值。我们还讨论了这些标准的计算复杂性,并表明,对于集群分析的大多数真实应用,伽玛的普通实施可能是计算令人望而不容的,但对于大多数真实应用,其与AUCC的等价实际上推出了更有效的算法过程。我们的理论发现得到了实验结果的支持。这些结果表明,除了由AUCC提供的有效和稳健的定量评估之外,ROC曲线本身的目视检查对于进一步评估来自更广泛的,定性的透视的候选聚类解决方案也是有用的。
translated by 谷歌翻译