在本文中,我们使用混合整数编程(MIP)探索基于模型的培训鲁棒和可解释的二金属化回归模型的培训鲁棒和可解释的二值化回归模型。我们的MIP模型通过使用加权目标来余额来实现预测边距和模型大小的优化,即:最大限度地减少错误分类的培训实例的总余量,最大限度地提高了正确分类的培训实例的总余量,并最大限度地提高了整体模型正则化。我们进行两组实验,以便在多个分类数据集的标准和损坏版本上测试MIP模型的分类准确性。在第一组实验中,我们表明我们的MIP模型优于等效的伪布尔优化(PBO)模型,并在标准数据集中的分类精度方面实现了对逻辑回归(LR)和梯度下降(GD)的竞争结果。在第二组实验中,我们表明我们的MIP模型在分类准确性方面优于大多数损坏的数据集的分类准确性。最后,我们在目视展示了MIP模型在其在MNIST DataSet上的学习参数方面的可解释性。总体而言,我们展示了使用MIP培训培训稳健和可解释的二值化回归模型的有效性。
translated by 谷歌翻译
Many machine learning problems encode their data as a matrix with a possibly very large number of rows and columns. In several applications like neuroscience, image compression or deep reinforcement learning, the principal subspace of such a matrix provides a useful, low-dimensional representation of individual data. Here, we are interested in determining the $d$-dimensional principal subspace of a given matrix from sample entries, i.e. from small random submatrices. Although a number of sample-based methods exist for this problem (e.g. Oja's rule \citep{oja1982simplified}), these assume access to full columns of the matrix or particular matrix structure such as symmetry and cannot be combined as-is with neural networks \citep{baldi1989neural}. In this paper, we derive an algorithm that learns a principal subspace from sample entries, can be applied when the approximate subspace is represented by a neural network, and hence can be scaled to datasets with an effectively infinite number of rows and columns. Our method consists in defining a loss function whose minimizer is the desired principal subspace, and constructing a gradient estimate of this loss whose bias can be controlled. We complement our theoretical analysis with a series of experiments on synthetic matrices, the MNIST dataset \citep{lecun2010mnist} and the reinforcement learning domain PuddleWorld \citep{sutton1995generalization} demonstrating the usefulness of our approach.
translated by 谷歌翻译
We study the learning dynamics of self-predictive learning for reinforcement learning, a family of algorithms that learn representations by minimizing the prediction error of their own future latent representations. Despite its recent empirical success, such algorithms have an apparent defect: trivial representations (such as constants) minimize the prediction error, yet it is obviously undesirable to converge to such solutions. Our central insight is that careful designs of the optimization dynamics are critical to learning meaningful representations. We identify that a faster paced optimization of the predictor and semi-gradient updates on the representation, are crucial to preventing the representation collapse. Then in an idealized setup, we show self-predictive learning dynamics carries out spectral decomposition on the state transition matrix, effectively capturing information of the transition dynamics. Building on the theoretical insights, we propose bidirectional self-predictive learning, a novel self-predictive algorithm that learns two representations simultaneously. We examine the robustness of our theoretical insights with a number of small-scale experiments and showcase the promise of the novel representation learning algorithm with large-scale experiments.
translated by 谷歌翻译
在模板和搜索区域之间学习强大的功能匹配对于3D暹罗跟踪至关重要。暹罗功能匹配的核心是如何在模板和搜索区域之间的相应点上分配高特征相似性,以进行精确的对象本地化。在本文中,我们提出了一个新颖的点云登记驱动的暹罗跟踪框架,直觉是空间对齐相应点(通过3D注册)倾向于实现一致的特征表示。具体而言,我们的方法由两个模块组成,包括特定于特定的非局部注册模块和一个注册辅助的sindhorn模板 - 特征聚合模块。登记模块在模板和搜索区域之间的精确空间对齐中进行目标。提出了跟踪特异性的空间距离约束,以优化非局部模块中的交叉注意权重,以进行判别特征学习。然后,我们使用加权SVD来计算模板和搜索区域之间的刚性转换,并对齐它们以实现所需的空间对齐相应点。对于特征聚合模型,我们将转换模板和搜索区域之间的特征匹配作为最佳传输问题,并利用Sinkhorn优化来搜索异常型匹配匹配解决方案。同样,建造了登记辅助空间距离图,以改善无法区分的区域(例如光滑的表面)的匹配鲁棒性。最后,在获得的功能匹配地图的指导下,我们将目标信息从模板中汇总到搜索区域中以构建特定于目标的特征,然后将其馈送到一个类似中心点的检测头中以进行对象定位。关于Kitti,Nuscenes和Waymo数据集的广泛实验验证了我们提出的方法的有效性。
translated by 谷歌翻译
无人驾驶汽车(UAV)在许多领域都受雇于摄影,紧急,娱乐,国防,农业,林业,采矿和建筑。在过去的十年中,无人机技术在许多施工项目阶段中找到了应用程序,从现场映射,进度监控,建筑物检查,损坏评估和材料交付等等。尽管已经对无人机在各种施工相关的过程中的优势进行了广泛的研究,但关于提高任务能力和效率的无人机协作的研究仍然很少。本文提出了一种基于塔格狩猎游戏和粒子群优化(PSO)的多个无人机的新合作路径计划算法。首先,定义了每个无人机的成本函数,并包含多个目标和约束。然后,开发了无人机游戏框架,以将多功能路径计划制定到寻找回报优势均衡的问题。接下来,提出了基于PSO的算法来获得无人机的最佳路径。由三个无人机检查的大型建筑工地的仿真结果表明,在检查任务期间,提出的算法在为无人机形成的可行和高效飞行路径生成可行,高效的飞行路径上的有效性。
translated by 谷歌翻译
最近的人工智能(AI)算法已在各种医学分类任务上实现了放射科医生级的性能。但是,只有少数研究涉及CXR扫描异常发现的定位,这对于向放射学家解释图像级分类至关重要。我们在本文中介绍了一个名为Vindr-CXR的可解释的深度学习系统,该系统可以将CXR扫描分类为多种胸部疾病,同时将大多数类型的关键发现本地化在图像上。 Vindr-CXR接受了51,485次CXR扫描的培训,并通过放射科医生提供的边界盒注释进行了培训。它表现出与经验丰富的放射科医生相当的表现,可以在3,000张CXR扫描的回顾性验证集上对6种常见的胸部疾病进行分类,而在接收器操作特征曲线(AUROC)下的平均面积为0.967(95%置信区间[CI]:0.958---------0.958------- 0.975)。 VINDR-CXR在独立患者队列中也得到了外部验证,并显示出其稳健性。对于具有14种类型病变的本地化任务,我们的自由响应接收器操作特征(FROC)分析表明,VINDR-CXR以每扫描确定的1.0假阳性病变的速率达到80.2%的敏感性。还进行了一项前瞻性研究,以衡量VINDR-CXR在协助六名经验丰富的放射科医生方面的临床影响。结果表明,当用作诊断工具时,提出的系统显着改善了放射科医生本身之间的一致性,平均Fleiss的Kappa的同意增加了1.5%。我们还观察到,在放射科医生咨询了Vindr-CXR的建议之后,在平均Cohen的Kappa中,它们和系统之间的一致性显着增加了3.3%。
translated by 谷歌翻译
基于暹罗网络的跟踪器将3D单一对象跟踪作为模板和搜索区域的点特征之间的互相关学习。由于跟踪过程中模板和搜索区域之间的外观差异很大,因此如何学习它们之间的稳健跨相关性以识别搜索区域中的潜在目标仍然是一个挑战性的问题。在本文中,我们明确使用变压器形成一个3D Siamese变压器网络,以学习模板和点云的搜索区域之间的强大互相关。具体来说,我们开发了一个暹罗点变压器网络,以了解目标的形状上下文信息。它的编码器使用自我注意力来捕获点云的非本地信息来表征对象的形状信息,而解码器则利用交叉注意来提取歧视点特征。之后,我们开发了一个迭代的粗到加密相关网络,以了解模板与搜索区域之间的稳健跨相关性。它通过交叉注意将模板与搜索区域中的潜在目标联系起来,制定了交叉功能的增强。为了进一步增强潜在目标,它采用了自我功能增强,该增强功能将自我注意力应用于特征空间的本地K-NN图来汇总目标特征。 Kitti,Nuscenes和Waymo数据集的实验表明,我们的方法在3D单一对象跟踪任务上实现了最先进的性能。
translated by 谷歌翻译
本文研究了通过机器学习模型估计特征对特定实例预测的贡献的问题,以及功能对模型的总体贡献。特征(变量)对预测结果的因果效应反映了该特征对预测的贡献。一个挑战是,如果没有已知的因果图,就无法从数据中估算大多数现有的因果效应。在本文中,我们根据假设的理想实验定义了解释性因果效应。该定义给不可知论的解释带来了一些好处。首先,解释是透明的,具有因果关系。其次,解释性因果效应估计可以数据驱动。第三,因果效应既提供了特定预测的局部解释,又提供了一个全局解释,显示了一个特征在预测模型中的总体重要性。我们进一步提出了一种基于解释性因果效应来解释的方法和组合变量的方法。我们显示了对某些现实世界数据集的实验的定义和方法。
translated by 谷歌翻译
在过去的几十年里,互联网用户在网上举办了实时事件并与现场,互动受众分享经历的日益增长的需求。像抽搐一样的在线流媒体服务吸引了数百万用户来流并窥视。关于抽搐对流动性普及的预测有很少的研究。在本文中,我们看起来可能有助于娱乐的潜在因素。在4周时段期间,通过使用Twitch的API一致的跟踪收集娱乐数据。收集每个用户的流信息,例如当前观看者和追随者的数量,流类型等。从结果中,我们发现流媒体会话的频率,内容的类型和流的长度是确定在会话期间可以获得多少观众和订户的垃圾媒体。
translated by 谷歌翻译
Compressed videos often exhibit visually annoying artifacts, known as Perceivable Encoding Artifacts (PEAs), which dramatically degrade video visual quality. Subjective and objective measures capable of identifying and quantifying various types of PEAs are critical in improving visual quality. In this paper, we investigate the influence of four spatial PEAs (i.e. blurring, blocking, bleeding, and ringing) and two temporal PEAs (i.e. flickering and floating) on video quality. For spatial artifacts, we propose a visual saliency model with a low computational cost and higher consistency with human visual perception. In terms of temporal artifacts, self-attention based TimeSFormer is improved to detect temporal artifacts. Based on the six types of PEAs, a quality metric called Saliency-Aware Spatio-Temporal Artifacts Measurement (SSTAM) is proposed. Experimental results demonstrate that the proposed method outperforms state-of-the-art metrics. We believe that SSTAM will be beneficial for optimizing video coding techniques.
translated by 谷歌翻译