两样本测试在统计和机器学习中很重要,既是科学发现的工具,又是检测分布变化的工具。这导致了许多复杂的测试程序的开发,超出了标准监督学习框架,它们的用法可能需要有关两样本测试的专业知识。我们使用一个简单的测试,该测试将证人功能的平均差异作为测试统计量,并证明最小化平方损失会导致具有最佳测试能力的证人。这使我们能够利用汽车的最新进步。如果没有任何用户对当前问题的输入,并在我们所有实验中使用相同的方法,我们的AutoML两样本测试可以在各种分配转移基准以及挑战两样本测试问题上实现竞争性能。我们在Python软件包AUTOTST中提供了Automl两样本测试的实现。
translated by 谷歌翻译
我们基于从多个数据集的合并信息介绍了一种反事实推断的方法。我们考虑了统计边际问题的因果重新重新制定:鉴于边际结构因果模型(SCM)的集合在不同但重叠的变量集上,请确定与边际相反一致的关节SCMS集。我们使用响应函数配方对分类SCM进行了形式化这种方法,并表明它降低了允许的边际和关节SCM的空间。因此,我们的工作通过其他变量突出了一种通过其他变量的新模式,与统计数据相反。
translated by 谷歌翻译
已经假设量子计算机可以很好地为机器学习中的应用提供很好。在本作工作中,我们分析通过量子内核定义的函数类。量子计算机提供了有效地计算符合难以计算的指数大密度运算符的内部产品。然而,具有指数大的特征空间使得普遍化的问题造成泛化的问题。此外,能够有效地评估高尺寸空间中的内部产品本身不能保证量子优势,因为已经是经典的漫步核可以对应于高或无限的维度再现核Hilbert空间(RKHS)。我们分析量子内核的频谱属性,并发现我们可以期待优势如果其RKHS低维度,并且包含很难经典计算的功能。如果已知目标函数位于该类中,则这意味着量子优势,因为量子计算机可以编码这种电感偏压,而没有同样的方式对功能类进行经典有效的方式。但是,我们表明查找合适的量子内核并不容易,因为内核评估可能需要指数倍数的测量。总之,我们的信息是有点令人发声的:我们猜测量子机器学习模型只有在我们设法将关于传递到量子电路的问题的知识编码的情况下,才能提供加速,同时将相同的偏差置于经典模型。难的。然而,在学习由量子流程生成的数据时,这些情况可能会被典雅地发生,但对于古典数据集来说,它们似乎更难。
translated by 谷歌翻译
Everting, soft growing vine robots benefit from reduced friction with their environment, which allows them to navigate challenging terrain. Vine robots can use air pouches attached to their sides for lateral steering. However, when all pouches are serially connected, the whole robot can only perform one constant curvature in free space. It must contact the environment to navigate through obstacles along paths with multiple turns. This work presents a multi-segment vine robot that can navigate complex paths without interacting with its environment. This is achieved by a new steering method that selectively actuates each single pouch at the tip, providing high degrees of freedom with few control inputs. A small magnetic valve connects each pouch to a pressure supply line. A motorized tip mount uses an interlocking mechanism and motorized rollers on the outer material of the vine robot. As each valve passes through the tip mount, a permanent magnet inside the tip mount opens the valve so the corresponding pouch is connected to the pressure supply line at the same moment. Novel cylindrical pneumatic artificial muscles (cPAMs) are integrated into the vine robot and inflate to a cylindrical shape for improved bending characteristics compared to other state-of-the art vine robots. The motorized tip mount controls a continuous eversion speed and enables controlled retraction. A final prototype was able to repeatably grow into different shapes and hold these shapes. We predict the path using a model that assumes a piecewise constant curvature along the outside of the multi-segment vine robot. The proposed multi-segment steering method can be extended to other soft continuum robot designs.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
在许多科学学科中,我们有兴趣推断一组观察到的时间序列的非线性动力学系统,这是面对混乱的行为和噪音,这是一项艰巨的任务。以前的深度学习方法实现了这一目标,通常缺乏解释性和障碍。尤其是,即使基本动力学生存在较低维的多种多样的情况下,忠实嵌入通常需要的高维潜在空间也会阻碍理论分析。在树突计算的新兴原则的推动下,我们通过线性样条基础扩展增强了动态解释和数学可牵引的分段线性(PL)复发性神经网络(RNN)。我们表明,这种方法保留了简单PLRNN的所有理论上吸引人的特性,但在相对较低的尺寸中提高了其近似任意非线性动态系统的能力。我们采用两个框架来训练该系统,一个将反向传播的时间(BPTT)与教师强迫结合在一起,另一个将基于快速可扩展的变异推理的基础。我们表明,树枝状扩展的PLRNN可以在各种动力学系统基准上获得更少的参数和尺寸,并与其他方法进行比较,同时保留了可拖动和可解释的结构。
translated by 谷歌翻译
展示了在欧洲生物安全卓越网络框架内设计和获取的新的多模态生物识别数据库。它由600多个个人在三种情况下在三种情况下获得:1)在互联网上,2)在带台式PC的办公环境中,以及3)在室内/室外环境中,具有移动便携式硬件。这三种方案包括音频/视频数据的共同部分。此外,已使用桌面PC和移动便携式硬件获取签名和指纹数据。此外,使用桌面PC在第二个方案中获取手和虹膜数据。收购事项已于11名欧洲机构进行。 BioSecure多模式数据库(BMDB)的其他功能有:两个采集会话,在某些方式的几种传感器,均衡性别和年龄分布,多式化现实情景,每种方式,跨欧洲多样性,人口统计数据的可用性,以及人口统计数据的可用性与其他多模式数据库的兼容性。 BMDB的新型收购条件允许我们对单币或多模式生物识别系统进行新的具有挑战性的研究和评估,如最近的生物安全的多模式评估活动。还给出了该活动的描述,包括来自新数据库的单个模式的基线结果。预计数据库将通过2008年通过生物安全协会进行研究目的
translated by 谷歌翻译
复发性神经网络(RNN)是用于建模顺序和时间序列数据的广泛机器学习工具。众所周知,他们很难训练,因为他们的损失梯度在训练过程中倾向于饱和或差异。这被称为爆炸和消失的梯度问题。对该问题的先前解决方案要么建立在具有门控内存缓冲区的相当复杂的,专门设计的体系结构上,要么 - 最近 - 施加的约束,以确保收敛到固定点或限制(限制复发矩阵)。然而,这种限制传达了对RNN表现性的严重局限性。绝对的内在动态(例如多稳定性或混乱)被禁用。这本质上是在大自然和社会中遇到的许多(如果不是大多数时间)的混乱性质的脱节性。在科学应用中,尤其是一个旨在重建基本动力学系统的科学应用程序。在这里,我们通过将RNN培训期间的损耗梯度与RNN生成的轨道的lyapunov谱相关联,对该问题提供了全面的理论处理。我们从数学上证明,产生稳定平衡或环状行为的RNN具有有限的梯度,而混沌动力学的RNN梯度总是不同。基于这些分析和见解,我们建议如何根据系统的Lyapunov Spectrum,如何优化混乱数据的训练过程,无论使用的RNN架构如何。
translated by 谷歌翻译
我们介绍了ThreedWorld(TDW),是交互式多模态物理模拟的平台。 TDW能够模拟高保真感官数据和富裕的3D环境中的移动代理和对象之间的物理交互。独特的属性包括:实时近光 - 真实图像渲染;对象和环境库,以及他们定制的例程;有效构建新环境课程的生成程序;高保真音频渲染;各种材料类型的现实物理相互作用,包括布料,液体和可变形物体;可定制的代理体现AI代理商;并支持与VR设备的人类交互。 TDW的API使多个代理能够在模拟中进行交互,并返回一系列表示世界状态的传感器和物理数据。我们在计算机视觉,机器学习和认知科学中的新兴的研究方向上提供了通过TDW的初始实验,包括多模态物理场景理解,物理动态预测,多代理交互,像孩子一样学习的模型,并注意研究人类和神经网络。
translated by 谷歌翻译
也称为(非参数)结构方程模型(SEMS)的结构因果模型(SCM)被广泛用于因果建模目的。特别是,也称为递归SEM的无循环SCMS,形成了一个研究的SCM的良好的子类,概括了因果贝叶斯网络来允许潜在混淆。在本文中,我们调查了更多普通环境中的SCM,允许存在潜在混杂器和周期。我们展示在存在周期中,无循环SCM的许多方便的性质通常不会持有:它们并不总是有解决方案;它们并不总是诱导独特的观察,介入和反事实分布;边缘化并不总是存在,如果存在边缘模型并不总是尊重潜在的投影;他们并不总是满足马尔可夫财产;他们的图表并不总是与他们的因果语义一致。我们证明,对于SCM一般,这些属性中的每一个都在某些可加工条件下保持。我们的工作概括了SCM的结果,迄今为止仅针对某些特殊情况所知的周期。我们介绍了将循环循环设置扩展到循环设置的简单SCM的类,同时保留了许多方便的无环SCM的性能。用本文,我们的目标是为SCM提供统计因果建模的一般理论的基础。
translated by 谷歌翻译