预训练的语言模型的目的是学习文本数据的上下文表示。预训练的语言模型已成为自然语言处理和代码建模的主流。使用探针,一种研究隐藏矢量空间的语言特性的技术,以前的作品表明,这些预训练的语言模型在其隐藏表示中编码简单的语言特性。但是,以前的工作都没有评估这些模型是否编码编程语言的整个语法结构。在本文中,我们证明了\ textit {句法子空间}的存在,该{语法子空间}位于预训练的语言模型的隐藏表示中,其中包含编程语言的句法信息。我们表明,可以从模型的表示形式中提取此子空间,并定义一种新颖的探测方法AST-Probe,该方法可以恢复输入代码段的整个抽象语法树(AST)。在我们的实验中,我们表明这种句法子空间存在于五个最先进的预训练的语言模型中。此外,我们强调说,模型的中间层是编码大多数AST信息的模型。最后,我们估计该句法子空间的最佳大小,并表明其尺寸大大低于模型的表示空间。这表明,预训练的语言模型使用其表示空间的一小部分来编码编程语言的句法信息。
translated by 谷歌翻译
We leverage path differentiability and a recent result on nonsmooth implicit differentiation calculus to give sufficient conditions ensuring that the solution to a monotone inclusion problem will be path differentiable, with formulas for computing its generalized gradient. A direct consequence of our result is that these solutions happen to be differentiable almost everywhere. Our approach is fully compatible with automatic differentiation and comes with assumptions which are easy to check, roughly speaking: semialgebraicity and strong monotonicity. We illustrate the scope of our results by considering three fundamental composite problem settings: strongly convex problems, dual solutions to convex minimization problems and primal-dual solutions to min-max problems.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
We present SpaceQA, to the best of our knowledge the first open-domain QA system in Space mission design. SpaceQA is part of an initiative by the European Space Agency (ESA) to facilitate the access, sharing and reuse of information about Space mission design within the agency and with the public. We adopt a state-of-the-art architecture consisting of a dense retriever and a neural reader and opt for an approach based on transfer learning rather than fine-tuning due to the lack of domain-specific annotated data. Our evaluation on a test set produced by ESA is largely consistent with the results originally reported by the evaluated retrievers and confirms the need of fine tuning for reading comprehension. As of writing this paper, ESA is piloting SpaceQA internally.
translated by 谷歌翻译
嗜睡是驾驶员和交通事故主要原因之一的主要关注点。认知神经科学和计算机科学的进步已通过使用脑部计算机界面(BCIS)和机器学习(ML)来检测驾驶员的嗜睡。然而,几个挑战仍然开放,应该面对。首先,文献中缺少使用一组ML算法的多种ML算法对嗜睡检测性能的全面评估。最后,需要研究适合受试者组的可扩展ML模型的检测性能,并将其与文献中提出的单个模型进行比较。为了改善这些局限性,这项工作提出了一个智能框架,该框架采用了BCIS和基于脑电图(EEG)的功能,以检测驾驶场景中的嗜睡。 SEED-VIG数据集用于喂食不同的ML回归器和三类分类器,然后评估,分析和比较单个受试者和组的表现最佳模型。有关单个模型的更多详细信息,随机森林(RF)获得了78%的F1分数,改善了通过文献中使用的模型(例如支持向量机(SVM))获得的58%。关于可扩展模型,RF达到了79%的F1得分,证明了这些方法的有效性。所学的经验教训可以总结如下:i)不仅SVM,而且文献中未充分探索的其他模型与嗜睡检测有关,ii)ii)适用于受试者组的可伸缩方法也有效地检测嗜睡,即使新受试者也是如此评估模型培训中未包括的。
translated by 谷歌翻译
我们证明了Yolov5模型(一种基于通用卷积的单杆对象检测模型)的应用,在从当前生成干涉仪检测器的重力数据中检测到二进制中子星(BNS)聚合事件的任务。我们还基于用于模型训练,验证和测试步骤的大概波形模型对合成数据生成和准备任务的详尽说明。使用这种方法,我们实现平均平均精度($ \ text {map} _ {[0.50]} $)的单个类验证数据集的值为0.945,测试数据集的平均值为0.945,高达0.978。此外,训练有素的模型成功地识别了LIGO H1检测器数据中的GW170817事件。 LIGO L1检测器数据也可以通过附加的预处理步骤进行识别,而无需在Inspiral的最后阶段消除大故障。 GW190425事件的检测不太成功,这证明了信噪比的性能退化。我们的研究表明,Yolov5模型是第一阶段检测警报管道的有趣方法,并且在整合到更复杂的管道中时,用于实时推断物理源参数。
translated by 谷歌翻译
基于模型的经颅超声疗法的治疗计划通常涉及从头部的X射线计算机断层扫描(CT)图像中映射头骨的声学特性。在这里,将三种用于从磁共振(MR)图像中生成伪CT图像的方法作为CT的替代方法。在配对的MR-CT图像上训练了卷积神经网络(U-NET),以从T1加权或零回波时间(ZTE)MR图像(分别表示TCT和ZCT)生成伪CT图像。还实施了从中兴通讯到伪CT的直接映射(表示为CCT)。在比较测试集的伪CT和地面真相CT图像时,整个头部的平均绝对误差为133、83和145 Hounsfield单位(HU),以及398、222和336 HU的头骨内的颅骨内部的平均误差为133、83和145个。 TCT,ZCT和CCT图像。还使用生成的伪CT图像进行了超声模拟,并将其与基于CT的模拟进行了比较。使用环形阵列传感器针对视觉或运动皮层。基于TCT图像的模拟,模拟局灶性局灶性,焦点位置和焦距的平均差异为9.9%,1.5 mm和15.1%,ZCT的平均差异为5.7%,0.6 mm和5.7%,为6.7%,和5.7% CCT为0.9毫米,为12.1%。映射的图像的改进结果突出了使用成像序列的优势,从而改善了颅骨的对比度。总体而言,这些结果表明,基于MR图像的声学仿真可以与基于CT的声学相比精度。
translated by 谷歌翻译
可激发的光电设备代表了在神经形态(脑启发)光子系统中实施人工尖峰神经元的关键构件之一。这项工作介绍并实验研究了用谐振隧穿二极管(RTD)构建的光电 - 光学(O/E/O)人工神经元,该神经元(RTD)耦合到光电探测器作为接收器和垂直腔表面发射激光器作为发射机。我们证明了一个明确定义的兴奋性阈值,在此上面,该神经元在该神经元中产生100 ns的光学尖峰反应,具有特征性的神经样耐受性。我们利用其粉丝功能来执行设备中的重合检测(逻辑和)以及独家逻辑或(XOR)任务。这些结果提供了基于RTD的Spiking光电神经元的确定性触发和任务的首次实验验证,并具有输入和输出光学(I/O)终端。此外,我们还从理论上研究了拟议系统的纳米光子实施的前景,并结合了纳米级RTD元素和纳米剂的整体设计。因此,在未来的神经形态光子硬件中,证明了基于RTD的综合兴奋节点对低足迹,高速光电尖峰神经元的潜力。
translated by 谷歌翻译
与其他技术(例如电感回路,雷达或激光器)相比,使用摄像头进行车速测量的成本效益要高得多。但是,由于相机的固有局限性提供准确的范围估计值,因此准确的速度测量仍然是一个挑战。此外,基于经典的视觉方法对相机和道路之间的外部校准非常敏感。在这种情况下,使用数据驱动的方法是一种有趣的选择。但是,数据收集需要一个复杂且昂贵的设置,以在与高精度速度传感器同步的相机中录制视频,以生成地面真相速度值。最近已经证明,使用驾驶模拟器(例如Carla)可以用作生成大型合成数据集的强大替代方案,以实现对单个摄像机的车辆速度估算的应用。在本文中,我们在不同的虚拟位置和不同的外部参数中使用多个摄像机研究相同的问题。我们解决了复杂的3D-CNN体系结构是否能够使用单个模型隐式学习视图速度的问题,或者特定于视图的模型是否更合适。结果非常有前途,因为它们表明具有来自多个视图的数据报告的单个模型比摄像机特异性模型更好地准确性,从而铺平了迈向视图的车辆速度测量系统。
translated by 谷歌翻译
语义图像细分是通过训练深层模型来解决的。由于受监督的训练借鉴了基于人类的图像标签的诅咒,因此使用具有自动生成地面真实的合成图像以及未标记的现实世界图像是一种有希望的选择。这意味着解决无监督的域适应性(UDA)问题。在本文中,我们为语义分割模型的合成器UDA提出了一个新的共同训练过程。首先,我们设计了一个提供两个初始模型的自我训练过程。然后,我们继续以协作方式培训这些模型,以获得最终模型。总体过程将深层模型视为黑匣子,并在伪标记的目标图像级别上驱动其协作,即,不需要修改损失函数,也不需要明确的特征对齐。我们测试有关标准合成和现实世界数据集的建议。我们的共同训练显示了MIOU比基线的15-20个百分点的改善,因此建立了新的最先进的结果。
translated by 谷歌翻译