This thesis develops the translation between category theory and computational linguistics as a foundation for natural language processing. The three chapters deal with syntax, semantics and pragmatics. First, string diagrams provide a unified model of syntactic structures in formal grammars. Second, functors compute semantics by turning diagrams into logical, tensor, neural or quantum computation. Third, the resulting functorial models can be composed to form games where equilibria are the solutions of language processing tasks. This framework is implemented as part of DisCoPy, the Python library for computing with string diagrams. We describe the correspondence between categorical, linguistic and computational structures, and demonstrate their applications in compositional natural language processing.
translated by 谷歌翻译
One of the major challenges in Deep Reinforcement Learning for control is the need for extensive training to learn the policy. Motivated by this, we present the design of the Control-Tutored Deep Q-Networks (CT-DQN) algorithm, a Deep Reinforcement Learning algorithm that leverages a control tutor, i.e., an exogenous control law, to reduce learning time. The tutor can be designed using an approximate model of the system, without any assumption about the knowledge of the system's dynamics. There is no expectation that it will be able to achieve the control objective if used stand-alone. During learning, the tutor occasionally suggests an action, thus partially guiding exploration. We validate our approach on three scenarios from OpenAI Gym: the inverted pendulum, lunar lander, and car racing. We demonstrate that CT-DQN is able to achieve better or equivalent data efficiency with respect to the classic function approximation solutions.
translated by 谷歌翻译
由于传感器的成本和可靠性高,泵的设计人员会尽可能地估算可行操作点所需的传感器数量。获得良好估计的主要挑战是可用的数据量低。使用此数量的数据,估算方法的性能不足以满足客户的要求。为了解决这个缺乏数据的问题,获取高质量数据对于获得良好的估计很重要。根据这些考虑,我们开发了一个主动学习框架,用于估计能量场中使用的模块化多泵的工作点。特别是,我们专注于电涌距离的估计。我们应用主动学习以使用最小数据集估算浪涌距离。结果报告说,主动学习也是真正应用的宝贵技术。
translated by 谷歌翻译
机器学习(ML)代表了当前和未来信息系统的关键技术,许多域已经利用了ML的功能。但是,网络安全中ML的部署仍处于早期阶段,揭示了研究和实践之间的显着差异。这种差异在当前的最新目的中具有其根本原因,该原因不允许识别ML在网络安全中的作用。除非广泛的受众理解其利弊,否则ML的全部潜力将永远不会释放。本文是对ML在整个网络安全领域中的作用的首次尝试 - 对任何对此主题感兴趣的潜在读者。我们强调了ML在人类驱动的检测方法方面的优势,以及ML在网络安全方面可以解决的其他任务。此外,我们阐明了影响网络安全部署实际ML部署的各种固有问题。最后,我们介绍了各种利益相关者如何为网络安全中ML的未来发展做出贡献,这对于该领域的进一步进步至关重要。我们的贡献补充了两项实际案例研究,这些案例研究描述了ML作为对网络威胁的辩护的工业应用。
translated by 谷歌翻译
目的:通过可穿戴传感器持续监测生物信号,在医疗和健康领域迅速扩展。在静止时,自动检测重要参数通常是准确的。然而,在诸如高强度运动的条件下,信号发生突然的生理变化,损害标准算法的鲁棒性。方法:我们的方法称为Bayeslope,是基于无监督的学习,贝叶斯滤波和非线性归一化,并根据ECG中的预期位置来增强和正确地检测R峰值。此外,随着贝叶克洛斯的计算沉重并且可以快速排出设备电池,我们提出了一种在线设计,可使其突然生理变化以及对现代嵌入式平台的异构资源的复杂性。该方法将Bayeslope与轻量级算法相结合,在具有不同能力的核心中执行,以减少能量消耗,同时保持精度。结果:贝森普洛普在激进的骑自行车运动中实现了99.3%的F1得分为99.3%。此外,在线自适应过程在五种不同的运动强度上实现了99%的F1得分,总能耗为1.55±0.54〜MJ。结论:我们提出了一种高度准确和稳健的方法,以及在现代超低功耗嵌入式平台中的完整节能实现,以提高攻击条件下的R峰值检测,例如在高强度运动期间。重要意义:实验表明,贝叶普洛斯在F1分数中优于8.4%的最先进的算法,而我们的在线自适应方法可以在现代异构可穿戴平台上达到高达38.7%的节能。
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
尽管近期因因果推断领域的进展,迄今为止没有关于从观察数据的收集治疗效应估算的方法。对临床实践的结果是,当缺乏随机试验的结果时,没有指导在真实情景中似乎有效的指导。本文提出了一种务实的方法,以获得从观察性研究的治疗效果的初步但稳健地估算,为前线临床医生提供对其治疗策略的信心程度。我们的研究设计适用于一个公开问题,估算Covid-19密集护理患者的拳击机动的治疗效果。
translated by 谷歌翻译
在这项工作中,我们考虑线性逆问题$ y = ax + \ epsilon $,其中$ a \ colon x \ to y $是可分离的hilbert spaces $ x $和$ y $之间的已知线性运算符,$ x $。 $ x $和$ \ epsilon $中的随机变量是$ y $的零平均随机过程。该设置涵盖成像中的几个逆问题,包括去噪,去束和X射线层析造影。在古典正规框架内,我们专注于正则化功能的情况下未能先验,而是从数据中学习。我们的第一个结果是关于均方误差的最佳广义Tikhonov规则器的表征。我们发现它完全独立于前向操作员$ a $,并仅取决于$ x $的平均值和协方差。然后,我们考虑从两个不同框架中设置的有限训练中学习常规程序的问题:一个监督,根据$ x $和$ y $的样本,只有一个无人监督,只基于$ x $的样本。在这两种情况下,我们证明了泛化界限,在X $和$ \ epsilon $的分发的一些弱假设下,包括子高斯变量的情况。我们的界限保持在无限尺寸的空间中,从而表明更精细和更细的离散化不会使这个学习问题更加困难。结果通过数值模拟验证。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
飞行机器人通常相当细腻,在面对碰撞的风险时需要保护性围墙,而高复杂性和有效载荷降低是碰撞弹性飞行机器人的反复出现的问题。受节肢动物的外骨骼的启发,我们设计了一个简单,开源的,易于制造的半刚性结构,具有柔软的接头,可以承受高速影响。使用外骨骼,保护壳成为主要机器人结构的一部分,从而最大程度地减少了其有效载荷能力的损失。我们的设计易于使用廉价组件(例如竹串)和消费级3D打印机来构建和自定义。结果是认知,这是一种低于250G的自动脉动四轮摩托车,可在高达7m/s的速度下生存多个碰撞。除了其碰撞弹性外,使用Python或Buzz可以易于编程,还携带传感器,使其可以飞行大约。 17分钟无需GPS或外部运动捕获系统,具有足够的计算能力,可以在板载板上运行深神网络模型,并旨在促进与自动化电池交换系统的集成。通过大大降低破坏自己的硬件或环境的风险,这种结构成为高风险活动(例如在混乱的环境或加固学习培训中飞行)的理想平台。源代码,3D文件,说明和视频可通过项目网站(https://thecognifly.github.io)获得。
translated by 谷歌翻译