这项工作表征了深度对线性回归优化景观的影响,表明尽管具有非凸性,但更深的模型具有更理想的优化景观。我们考虑了一个健壮且过度参数化的设置,其中测量的子集严重损坏了噪声,真正的线性模型将通过$ n $ layer-layer线性神经网络捕获。在负面方面,我们表明这个问题\ textit {do}具有良性景观:给定任何$ n \ geq 1 $,具有恒定概率,存在与既不是本地也不是全局最小值的地面真理的解决方案。但是,从积极的一面来看,我们证明,对于具有$ n \ geq 2 $的任何$ n $ layer模型,一种简单的次级方法变得忽略了这种``有问题的''解决方案;取而代之的是,它收敛于平衡的解决方案,该解决方案不仅接近地面真理,而且享有平坦的当地景观,从而避免了“早期停止”的需求。最后,我们从经验上验证了更深层模型的理想优化格局扩展到其他强大的学习任务,包括具有$ \ ell_1 $ -loss的深层矩阵恢复和深度relu网络。
translated by 谷歌翻译
Three-dimensional (3D) ultrasound imaging technique has been applied for scoliosis assessment, but current assessment method only uses coronal projection image and cannot illustrate the 3D deformity and vertebra rotation. The vertebra detection is essential to reveal 3D spine information, but the detection task is challenging due to complex data and limited annotations. We propose VertMatch, a two-step framework to detect vertebral structures in 3D ultrasound volume by utilizing unlabeled data in semi-supervised manner. The first step is to detect the possible positions of structures on transverse slice globally, and then the local patches are cropped based on detected positions. The second step is to distinguish whether the patches contain real vertebral structures and screen the predicted positions from the first step. VertMatch develops three novel components for semi-supervised learning: for position detection in the first step, (1) anatomical prior is used to screen pseudo labels generated from confidence threshold method; (2) multi-slice consistency is used to utilize more unlabeled data by inputting multiple adjacent slices; (3) for patch identification in the second step, the categories are rebalanced in each batch to solve imbalance problem. Experimental results demonstrate that VertMatch can detect vertebra accurately in ultrasound volume and outperforms state-of-the-art methods. VertMatch is also validated in clinical application on forty ultrasound scans, and it can be a promising approach for 3D assessment of scoliosis.
translated by 谷歌翻译
Neural image classifiers are known to undergo severe performance degradation when exposed to input that exhibits covariate-shift with respect to the training distribution. Successful hand-crafted augmentation pipelines aim at either approximating the expected test domain conditions or to perturb the features that are specific to the training environment. The development of effective pipelines is typically cumbersome, and produce transformations whose impact on the classifier performance are hard to understand and control. In this paper, we show that recent Text-to-Image (T2I) generators' ability to simulate image interventions via natural-language prompts can be leveraged to train more robust models, offering a more interpretable and controllable alternative to traditional augmentation methods. We find that a variety of prompting mechanisms are effective for producing synthetic training data sufficient to achieve state-of-the-art performance in widely-adopted domain-generalization benchmarks and reduce classifiers' dependency on spurious features. Our work suggests that further progress in T2I generation and a tighter integration with other research fields may represent a significant step towards the development of more robust machine learning systems.
translated by 谷歌翻译
Minimum Bayesian Risk Decoding (MBR) emerges as a promising decoding algorithm in Neural Machine Translation. However, MBR performs poorly with label smoothing, which is surprising as label smoothing provides decent improvement with beam search and improves generality in various tasks. In this work, we show that the issue arises from the un-consistency of label smoothing on the token-level and sequence-level distributions. We demonstrate that even though label smoothing only causes a slight change in the token-level, the sequence-level distribution is highly skewed. We coin the issue \emph{distributional over-smoothness}. To address this issue, we propose a simple and effective method, Distributional Cooling MBR (DC-MBR), which manipulates the entropy of output distributions by tuning down the Softmax temperature. We theoretically prove the equivalence between pre-tuning label smoothing factor and distributional cooling. Experiments on NMT benchmarks validate that distributional cooling improves MBR's efficiency and effectiveness in various settings.
translated by 谷歌翻译
完成知识三胞胎的任务具有广泛的下游应用程序。结构和语义信息在知识图完成中起着重要作用。与以前依靠知识图的结构或语义的方法不同,我们建议将语义共同嵌入知识三胞胎的自然语言描述及其结构信息。我们的方法通过对概率结构化损失进行微调预训练的语言模型来嵌入完成任务的知识图,其中语言模型的正向通过捕获语义和损失重建结构。我们对各种知识图基准的广泛实验证明了我们方法的最新性能。我们还表明,由于语义的更好使用,我们的方法可以显着提高低资源制度的性能。代码和数据集可在https://github.com/pkusjh/lass上找到。
translated by 谷歌翻译
与人一起工作的协作机器人(配件)必须能够快速学习新技能并适应新的任务配置。从演示中学习(LFD)使柯伯特能够学习并适应不同的使用条件。但是,最先进的LFD方法需要手动调整固有参数,并且很少在没有专家的工业环境中使用。在本文中,介绍了与幼稚用户的工业应用程序开发和实施。我们提出了一种基于概率运动基础的无参数方法,其中所有参数均使用Jensen-Shannon Divergence和贝叶斯优化进行预定。因此,用户不必执行手动参数调整。该方法从用户演示的小数据集中学习动作,并将运动推广到各种情况和条件。我们在两个现场测试中广泛评估了该方法:一个在电梯门维护上工作的方法是一个在其中,其中三名辛德勒工人教授Cobot任务对其工作流程有用。 Cobot最终效果和目标位置之间的错误范围从$ 0 $到$ 1.48 \ pm0.35 $ mm。对于所有测试,没有任何任务失败报告。 Schindler工人完成的问卷突出了该方法的易用性,安全性和重复运动的准确性。我们的代码和记录的轨迹可在线提供以进行复制。
translated by 谷歌翻译
组合多个传感器使机器人能够最大程度地提高其对环境的感知意识,并增强其对外部干扰的鲁棒性,对机器人导航至关重要。本文提出了可融合的基准测试,这是一个完整的多传感器数据集,具有多种移动机器人序列。本文提出了三项贡献。我们首先推进便携式和通用的多传感器套件,可提供丰富的感官测量值:10Hz激光镜点云,20Hz立体声框架图像,来自立体声事件相机的高速率和异步事件,来自IMU的200Hz惯性读数以及10Hz GPS信号。传感器已经在硬件中暂时同步。该设备轻巧,独立,并为移动机器人提供插件支持。其次,我们通过收集17个序列来构建数据集,该序列通过利用多个机器人平台进行数据收集来涵盖校园上各种环境。一些序列对现有的SLAM算法具有挑战性。第三,我们为将本地化和映射绩效评估提供了基础真理。我们还评估最新的大满贯方法并确定其局限性。该数据集将发布由原始传感器的设置,地面真相,校准数据和评估算法组成:https://ram-lab.com/file/site/site/multi-sensor-dataset。
translated by 谷歌翻译
由于共同国家行动空间相对于代理人的数量,多代理强化学习(MARL)中的政策学习(MARL)是具有挑战性的。为了实现更高的可伸缩性,通过分解执行(CTDE)的集中式培训范式被MARL中的分解结构广泛采用。但是,我们观察到,即使在简单的矩阵游戏中,合作MARL中现有的CTDE算法也无法实现最佳性。为了理解这种现象,我们引入了一个具有政策分解(GPF-MAC)的广义多代理参与者批评的框架,该框架的特征是对分解的联合政策的学习,即,每个代理人的政策仅取决于其自己的观察行动历史。我们表明,最受欢迎的CTDE MARL算法是GPF-MAC的特殊实例,可能会陷入次优的联合政策中。为了解决这个问题,我们提出了一个新颖的转型框架,该框架将多代理的MDP重新制定为具有连续结构的特殊“单位代理” MDP,并且可以允许使用现成的单机械加固学习(SARL)算法来有效地学习相应的多代理任务。这种转换保留了SARL算法的最佳保证,以合作MARL。为了实例化此转换框架,我们提出了一个转换的PPO,称为T-PPO,该PPO可以在有限的多代理MDP中进行理论上执行最佳的策略学习,并在一系列合作的多代理任务上显示出明显的超出性能。
translated by 谷歌翻译
幻觉是一种困扰神经机器翻译的一种病理翻译,最近引起了很多关注。简而言之,幻觉翻译是流利的句子,但与源输入几乎没有关系。可以说,如何发生幻觉仍然是一个开放的问题。在本文中,我们建议使用探测方法从模型架构的角度研究幻觉的原因,旨在避免将来的架构设计中的此类问题。通过对各种NMT数据集进行实验,我们发现幻觉通常伴随着不足的编码器,尤其是嵌入式和脆弱的交叉分离,而有趣的是,跨煽动会减轻编码器引起的一些错误。
translated by 谷歌翻译
我们提出了一种视觉本地化系统,这些系统在合成数据的帮助下学习在现实世界中估算相机姿势。尽管近年来取得了重大进展,但大多数基于学习的学习方法在单个域中的视觉定位目标,并需要良好的地理标记图像的密集数据库运行。为了减轻数据稀缺问题并提高神经定位模型的可扩展性,我们介绍了Topo-Datagen,这是一个多功能合成数据生成工具,在真实和虚拟世界之间平稳地遍历,铰接在地理相机视点。建议新的大型SIM-to-Real基准数据集展示并评估所述合成数据的效用。我们的实验表明,合成数据在实际上提高了真实数据的神经网络性能。此外,我们介绍Crossloc,一种跨模型视觉表示学习方法来姿态估计,可以通过自我监督充分利用现场坐标地面真理。在没有任何额外数据的情况下,Crossloc显着优于最先进的方法,并实现了更高的实际数据样本效率。我们的代码可在https://github.com/topo-epfl/crossloc获得。
translated by 谷歌翻译