构建可靠的AI决策支持系统需要一组强大的数据来培训模型;在数量和多样性方面。在资源有限的设置或在部署的早期阶段中,获取此类数据集可能很困难。样本拒绝是应对这一挑战的一种方法,但是该领域的许多现有工作都不适合这种情况。本文证明了该立场并提出了一个简单的解决方案作为概念基线的证明。
translated by 谷歌翻译
Complex and contact-rich robotic manipulation tasks, particularly those that involve multi-fingered hands and underactuated object manipulation, present a significant challenge to any control method. Methods based on reinforcement learning offer an appealing choice for such settings, as they can enable robots to learn to delicately balance contact forces and dexterously reposition objects without strong modeling assumptions. However, running reinforcement learning on real-world dexterous manipulation systems often requires significant manual engineering. This negates the benefits of autonomous data collection and ease of use that reinforcement learning should in principle provide. In this paper, we describe a system for vision-based dexterous manipulation that provides a "programming-free" approach for users to define new tasks and enable robots with complex multi-fingered hands to learn to perform them through interaction. The core principle underlying our system is that, in a vision-based setting, users should be able to provide high-level intermediate supervision that circumvents challenges in teleoperation or kinesthetic teaching which allow a robot to not only learn a task efficiently but also to autonomously practice. Our system includes a framework for users to define a final task and intermediate sub-tasks with image examples, a reinforcement learning procedure that learns the task autonomously without interventions, and experimental results with a four-finger robotic hand learning multi-stage object manipulation tasks directly in the real world, without simulation, manual modeling, or reward engineering.
translated by 谷歌翻译
Heart failure remains a major public health challenge with growing costs. Ejection fraction (EF) is a key metric for the diagnosis and management of heart failure however estimation of EF using echocardiography remains expensive for the healthcare system and subject to intra/inter operator variability. While chest x-rays (CXR) are quick, inexpensive, and require less expertise, they do not provide sufficient information to the human eye to estimate EF. This work explores the efficacy of computer vision techniques to predict reduced EF solely from CXRs. We studied a dataset of 3488 CXRs from the MIMIC CXR-jpg (MCR) dataset. Our work establishes benchmarks using multiple state-of-the-art convolutional neural network architectures. The subsequent analysis shows increasing model sizes from 8M to 23M parameters improved classification performance without overfitting the dataset. We further show how data augmentation techniques such as CXR rotation and random cropping further improves model performance another ~5%. Finally, we conduct an error analysis using saliency maps and Grad-CAMs to better understand the failure modes of convolutional models on this task.
translated by 谷歌翻译
我们考虑由一般随机序列驱动的随机梯度下降(SGD)算法,包括I.I.D噪声和随机行走,在任意图上等等;并以渐近意义进行分析。具体而言,我们采用了“效率排序”的概念,这是一种分析的工具,用于比较马尔可夫链蒙特卡洛(MCMC)采样器的性能,以sgd算法的形式以与量表矩阵相关的loewner订购形式长期。使用此顺序,我们表明对MCMC采样更有效的输入序列也导致限制中SGD算法的误差的较小协方差。这也表明,当受到更有效的链驱动时,任意加权的SGD迭代的MSE迭代会变小。我们的发现在分散的优化和群学习等应用程序中特别感兴趣,其中SGD是在基础通信图上以随机步行方式实施的,以解决成本问题和/或数据隐私。我们证明了某些非马克维亚过程如何在基于典型的混合时间的非轴突界限上是棘手的,在SGD的效率订购意义上,可以超越其马尔可夫对应物。我们通过将其应用于梯度下降,并以洗牌和小批量梯度下降将其应用于梯度下降,从而显示了我们的方法的实用性,从而在统一框架下重申了现有文献的关键结果。从经验上讲,我们还观察到SGD的变体(例如加速SGD和Adam)的效率排序,开辟了将我们的效率订购概念扩展到更广泛的随机优化算法的可能性。
translated by 谷歌翻译
最大熵的原理是一种广泛适用的技术,用于计算可能最少的信息的分布,同时约束以匹配经验估计的特征期望。但是,在许多使用噪声传感器计算功能期望的现实世界中,由于对相关模型变量的部分观察,该功能期望可能具有挑战性。例如,执行学徒学习的机器人可能会因环境阻塞而忽视其正在学习的代理。我们表明,在将最大熵的原理概括为这些类型的情况时,我们不可避免地将对学习模型的依赖性引入了经验特征期望。我们介绍了不确定的最大熵的原理,并提出了从潜在最大熵原理中概括的基于期望最大化的解决方案。最后,我们在实验上证明了我们技术在最大因果熵逆增强学习域中提供的嘈杂数据的鲁棒性。
translated by 谷歌翻译
众所周知,由于现代实施实践,类似于Horn和Schunck模型的古典配方仍然在很大程度上具有竞争力。在大多数情况下,这些模型的表现优于许多现代流动估计方法。鉴于此,我们为光流的边缘$ l^1 $正则化方法提出了有效的实施设计。在有限变化的函数$ bv(\ omega,\ mathbb {r}^2)$的功能空间中研究了我们提出的模型的数学良好性。实施方案以多个步骤设计。使用强大的Chambolle-Pock原始二重式算法计算流场。在最近的Castro和Donoho的研究中,我们将迭代中位过滤的启发式方法扩展到了我们的流量估计。此外,为了完善流动边缘,我们将Li和Osher建立的加权中值过滤器作为后处理步骤。我们在Middlebury数据集上进行的实验表明,与基于最新的角和Schunck的一些变异方法相比,所提出的方法达到了最佳的平均角和终点错误。
translated by 谷歌翻译
良好的初始化对于训练深神网络(DNN)至关重要。通常,通过试验和误差方法可以发现这种初始化,每当架构经过实质性修改或从较小尺寸的网络中继承而导致次优初始化时,必须重新应用。在这项工作中,我们介绍了一种新的便宜算法,该算法使人们可以自动找到一个良好的初始化,以供一般的前馈DNN。该算法利用相邻网络块之间的雅各比式将网络超参数调整为关键性。我们解决了具有Relu的完全连接的网络的算法的动力学,并得出了其收敛条件。然后,我们将讨论扩展到具有BatchNorm和剩余连接的更通用体系结构。最后,我们将方法应用于RESMLP和VGG体系结构,在该架构中,我们的方法发现的自动单次初始化在视觉任务上显示出良好的性能。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
While video action recognition has been an active area of research for several years, zero-shot action recognition has only recently started gaining traction. In this work, we propose a novel end-to-end trained transformer model which is capable of capturing long range spatiotemporal dependencies efficiently, contrary to existing approaches which use 3D-CNNs. Moreover, to address a common ambiguity in the existing works about classes that can be considered as previously unseen, we propose a new experimentation setup that satisfies the zero-shot learning premise for action recognition by avoiding overlap between the training and testing classes. The proposed approach significantly outperforms the state of the arts in zero-shot action recognition in terms of the the top-1 accuracy on UCF-101, HMDB-51 and ActivityNet datasets. The code and proposed experimentation setup are available in GitHub: https://github.com/Secure-and-Intelligent-Systems-Lab/SemanticVideoTransformer
translated by 谷歌翻译
深度神经网络对于违抗理论治疗是臭名昭着的。然而,当每个层中的参数的数量倾向于无穷大时,网络功能是高斯过程(GP)和定量预测描述是可能的。高斯近似允许制定用于选择超参数的标准,例如权重和偏差的差异,以及学习率。这些标准依赖于为深神经网络定义的临界概念。在这项工作中,我们描述了一种新的诊断(理论上和凭经验)这种关键性的新方法。为此,我们介绍了网络的部分雅各者,定义为在Lay $ L_0 <L $中的Preactivation中的Preactivation中的常见率。当网络架构涉及许多不同的层时,这些数量特别有用。我们讨论了部分雅可比人的各种属性,例如他们的缩放,深度和与神经切线内核(NTK)的关系。我们派生了部分雅典人的复发关系,并利用它们来分析深层MLP网络的关键性(且没有)Playernorm。我们发现归一化层改变了超参数和临界指数的最佳值。我们认为在应用开始时,PlayerNorm更稳定,而不是由于相关深度较大的激活。
translated by 谷歌翻译