This paper presents a novel framework for planning in unknown and occluded urban spaces. We specifically focus on turns and intersections where occlusions significantly impact navigability. Our approach uses an inpainting model to fill in a sparse, occluded, semantic lidar point cloud and plans dynamically feasible paths for a vehicle to traverse through the open and inpainted spaces. We demonstrate our approach using a car's lidar data with real-time occlusions, and show that by inpainting occluded areas, we can plan longer paths, with more turn options compared to without inpainting; in addition, our approach more closely follows paths derived from a planner with no occlusions (called the ground truth) compared to other state of the art approaches.
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
我们建议\ emph {Choquet正则化器}来衡量和管理强化学习的探索水平(RL),并重新重新制定Wang等人的连续时间熵调节的RL问题。(2020年,JMLR,21(198)),其中我们用Choquet正常器代替用于正则化的差分熵。我们通过使汉密尔顿(Jacobi-Bellman方程)得出了问题的jacobi-bellman方程,并在线性 - 季度(LQ)情况下明确求解了汉密尔顿(LQ)(LQ)情况,这是通过静态上一种平均值 - 差异约束的Choquet正常制剂。在LQ设置下,我们为几个特定的Choquet正规化器提供了明确的最佳分布,相反,我们确定了产生许多广泛使用的探索性采样器的Choquet正则化器,例如$ \ epsilon $ - 果岭,指数,统一,统一和高斯。
translated by 谷歌翻译
视觉和听觉信息对于确定视频中的显着区域都是有价值的。深度卷积神经网络(CNN)展示了应对视听显着性预测任务的强大能力。由于各种因素,例如拍摄场景和天气,源训练数据和目标测试数据之间通常存在适度的分布差异。域差异导致CNN模型目标测试数据的性能降解。本文提前尝试解决视听显着性预测的无监督域适应问题。我们提出了一种双重域交流学习算法,以减轻源数据和目标数据之间的域差异。首先,建立了一个特定的域歧视分支,以对齐听觉功能分布。然后,这些听觉功能通过跨模式自我发项模块融合到视觉特征中。设计了其他域歧视分支,以减少视觉特征的域差异和融合视听特征所隐含的视听相关性的差异。公共基准测试的实验表明,我们的方法可以减轻域差异引起的性能降解。
translated by 谷歌翻译
有效的视频识别是一个热点研究主题,具有互联网和移动设备上多媒体数据的爆炸性增长。大多数现有方法都选择了显着帧,而不意识对特定于类的显着性分数,这忽略了框架显着性及其归属类别之间的隐式关联。为了减轻此问题,我们设计了一种新颖的时间显着性查询(TSQ)机制,该机制引入了特定于类的信息,以提供明显测量的细粒线索。具体而言,我们将特定于类的显着性测量过程建模为查询响应任务。对于每个类别,它的共同模式被用作查询,最突出的框架对其进行了响应。然后,计算出的相似性被用作框架显着性得分。为了实现这一目标,我们提出了一个时间显着性查询网络(TSQNET),其中包括基于视觉外观相似性和文本事件对象关系的TSQ机制的两个实例化。之后,实施了交叉模式相互作用以促进它们之间的信息交换。最后,我们使用了两种模式生成的最自信类别的特定阶级销售,以执行显着框架的选择。广泛的实验通过在ActivityNet,FCVID和Mini-Kinetics数据集上实现最新结果来证明我们方法的有效性。我们的项目页面位于https://lawrencexia2008.github.io/projects/tsqnet。
translated by 谷歌翻译
尽管完全监督的人类骨架序列建模成功,但使用自我监督的预训练进行骨架序列表示学习一直是一个活跃的领域,因为很难在大规模上获取特定于任务的骨骼注释。最近的研究重点是使用对比学习学习视频级别的时间和歧视性信息,但忽略了人类骨骼的层次空间时间。与视频级别的这种表面监督不同,我们提出了一种自我监督的分层预训练方案,该方案纳入了基于层次变压器的骨骼骨骼序列编码器(HI-TRS),以明确捕获空间,短期和长期和长期框架,剪辑和视频级别的时间依赖性分别。为了通过HI-TR评估提出的自我监督预训练方案,我们进行了广泛的实验,涵盖了三个基于骨架的下游任务,包括动作识别,动作检测和运动预测。根据监督和半监督评估协议,我们的方法实现了最新的性能。此外,我们证明了我们的模型在训练阶段中学到的先验知识具有强大的下游任务的转移能力。
translated by 谷歌翻译
第三方评级机构颁发的公司信贷评级是对公司信誉的量化评估。信贷评级与公司违约债务义务的可能性高度相关。这些评级在投资决策中起关键作用,这是关键风险因素之一。它们也是监管框架的核心,例如在计算金融机构必要的资本中,巴塞尔二世。能够预测评级变化将极大地使投资者和监管机构受益。在本文中,我们考虑了公司信用评级移民早期预测问题,该问题预测发行人的信用等级将根据当时的最新财务报告信息在12个月后升级,不变或降级。我们研究了不同标准的机器学习算法的有效性,并得出结论这些模型表现不佳。作为我们贡献的一部分,我们提出了一个新的多任务设想基于变压器的自动编码器(META)模型,以解决这个具有挑战性的问题。 META包括位置编码,基于变压器的自动编码器和多任务预测,以学习迁移预测和评级预测的有效表示。这使得元可以更好地探索一年后预测的培训阶段的历史数据。实验结果表明,元表现优于所有基线模型。
translated by 谷歌翻译
机器学习模型容易受到分数过失(OOD)的示例,这种问题引起了很多关注。但是,当前的方法缺乏对不同类型的OOD数据的完全理解:有一些良性的OOD数据可以适当地适应以增强学习性能,而其他MALIGN OOD数据将严重地退化分类结果。为了利用数据,本文提出了引擎盖方法,该方法可以利用每个图像实例中的内容和样式来识别良性和恶意数据。特别是,我们通过构建结构性因果模型来设计一个变异推理框架,以使因果关系和样式特征。随后,我们通过干预过程分别提高内容和样式,分别产生恶性和良性OOD数据。良性的OOD数据包含新型样式,但持有我们感兴趣的内容,并且可以利用它们来帮助培训风格不变的模型。相比之下,MALIGN OOD数据继承了未知内容,但通过检测它们可以提高模型的稳健性,以抗欺骗异常。得益于拟议的新型解开和数据增强技术,Hood可以有效地处理未知和开放环境中的OOD示例,在三个典型的OOD应用程序中,其有效性在包括OOD检测,开放设定的半监督学习和开放设定的三个典型OOD应用程序中得到了验证域适应。
translated by 谷歌翻译
旨在找到合成靶分子的反应途径的循环合成计划在化学和药物发现中起着重要作用。此任务通常被建模为搜索问题。最近,数据驱动的方法吸引了许多研究兴趣,并显示了反递归计划的有希望的结果。我们观察到在搜索过程中多次访问了相同的中间分子,并且通常在先前基于树的方法(例如,或树搜索,蒙特卡洛树搜索)中独立处理。这样的裁员使搜索过程效率低下。我们提出了基于图的搜索策略,以消除任何中间分子的冗余探索。由于图形上的搜索比在树上更复杂,因此我们进一步采用图形神经网络来指导图形搜索。同时,我们的方法可以在图中搜索一批目标,并在基于树的搜索方法中删除目标间重复。两个数据集的实验结果证明了我们方法的有效性。尤其是在广泛使用的USPTO基准测试中,我们将搜索成功率提高到99.47%,以2.6分提高了先前的最新性能。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译