本文提出了来自Covid-19患者CT体积的肺部感染区的分段方法。 Covid-19在全球范围内传播,造成许多受感染的患者和死亡。 CT图像的Covid-19诊断可以提供快速准确的诊断结果。肺中感染区的自动分割方法提供了诊断的定量标准。以前的方法采用整个2D图像或基于3D卷的过程。感染区域的尺寸具有相当大的变化。这种过程容易错过小型感染区域。基于补丁的过程对于分割小目标是有效的。然而,在感染区分割中选择适当的贴片尺寸难以。我们利用分段FCN的各种接受场大小之间的规模不确定性以获得感染区域。接收场尺寸可以定义为贴片尺寸和块从斑块的卷的分辨率。本文提出了一种执行基于补丁的分割的感染分段网络(ISNet)和尺度的不确定性感知预测聚合方法,其改进分割结果。我们设计ISNET到具有各种强度值的分段感染区域。 ISNet具有多个编码路径来处理由多个强度范围归一化的修补程序卷。我们收集具有各种接收场尺寸的ISNet产生的预测结果。预测聚合方法提取预测结果之间的规模不确定性。我们使用聚合FCN来在预测之间的规模不确定性来生成精确的分段结果。在我们的实验中,使用199例Covid-19案例,预测聚集方法将骰子相似度评分从47.6%提高到62.1%。
translated by 谷歌翻译
Event cameras are novel bio-inspired sensors that offer advantages over traditional cameras (low latency, high dynamic range, low power, etc.). Optical flow estimation methods that work on packets of events trade off speed for accuracy, while event-by-event (incremental) methods have strong assumptions and have not been tested on common benchmarks that quantify progress in the field. Towards applications on resource-constrained devices, it is important to develop optical flow algorithms that are fast, light-weight and accurate. This work leverages insights from neuroscience, and proposes a novel optical flow estimation scheme based on triplet matching. The experiments on publicly available benchmarks demonstrate its capability to handle complex scenes with comparable results as prior packet-based algorithms. In addition, the proposed method achieves the fastest execution time (> 10 kHz) on standard CPUs as it requires only three events in estimation. We hope that our research opens the door to real-time, incremental motion estimation methods and applications in real-world scenarios.
translated by 谷歌翻译
Event cameras are emerging vision sensors and their advantages are suitable for various applications such as autonomous robots. Contrast maximization (CMax), which provides state-of-the-art accuracy on motion estimation using events, may suffer from an overfitting problem called event collapse. Prior works are computationally expensive or cannot alleviate the overfitting, which undermines the benefits of the CMax framework. We propose a novel, computationally efficient regularizer based on geometric principles to mitigate event collapse. The experiments show that the proposed regularizer achieves state-of-the-art accuracy results, while its reduced computational complexity makes it two to four times faster than previous approaches. To the best of our knowledge, our regularizer is the only effective solution for event collapse without trading off runtime. We hope our work opens the door for future applications that unlocks the advantages of event cameras.
translated by 谷歌翻译
使用移动操纵器来整理家庭环境,在机器人技术中提出了各种挑战,例如适应大型现实世界的环境变化,以及在人类面前的安全和强大的部署。2021年9月举行的全球竞赛,对真正的家庭环境中的整理任务进行了基准测试,重要的是,对全面的系统性能进行了测试。对于此挑战,我们开发了整个家庭服务机器人系统,该机器人系统利用数据驱动的方法来适应众多的方法在执行过程中发生的边缘案例,而不是经典的手动预编程解决方案。在本文中,我们描述了提出的机器人系统的核心成分,包括视觉识别,对象操纵和运动计划。我们的机器人系统赢得了二等奖,验证了数据驱动的机器人系统在家庭环境中移动操作的有效性和潜力。
translated by 谷歌翻译
事件摄像机对场景动态做出响应,并提供了估计运动的优势。遵循最近基于图像的深度学习成就,事件摄像机的光流估计方法急于将基于图像的方法与事件数据相结合。但是,由于它们具有截然不同的属性,因此需要几个改编(数据转换,损失功能等)。我们开发了一种原则性的方法来扩展对比度最大化框架以估算仅事件的光流。我们研究关键要素:如何设计目标函数以防止过度拟合,如何扭曲事件以更好地处理遮挡,以及如何改善与多规模原始事件的收敛性。有了这些关键要素,我们的方法在MVSEC基准的无监督方法中排名第一,并且在DSEC基准上具有竞争力。此外,我们的方法使我们能够在这些基准测试中揭露地面真相流的问题,并在将其转移到无监督的学习环境中时会产生出色的结果。我们的代码可在https://github.com/tub-rip/event_based_optility_flow上找到
translated by 谷歌翻译
上下文最大化(CMAX)是一个框架,可在几个基于事件的计算机视觉任务(例如自我移动或光流估计)上提供最新结果。但是,它可能会遇到一个称为事件崩溃的问题,这是一种不希望的解决方案,其中事件被扭曲成太少的像素。由于先前的工作在很大程度上忽略了这个问题或提议的解决方法,因此必须详细分析这种现象。我们的工作证明了事件以最简单的形式崩溃,并通过使用基于差异几何和物理学的时空变形的第一原理提出了崩溃指标。我们通过实验表明,公开可用的数据集表明,拟议的指标减轻了事件崩溃,并且不会损害良好的扭曲。据我们所知,与其他方法相比,基于提议的指标的正规化器是唯一有效的解决方案,可以防止在考虑的实验环境中发生事件崩溃。我们希望这项工作激发了进一步的研究,以应对更复杂的翘曲模型。
translated by 谷歌翻译
为汉字设计字体是高度劳动力且耗时的。尽管最新方法成功地生成了英语字母矢量字体,尽管对自动字体的生成需求很高,但由于其复杂的形状和许多字符,中国矢量字体生成一直是一个未解决的问题。这项研究解决了仅从单个样式和内容参考的中文矢量字体自动生成的问题。我们提出了一种具有变压器和损耗功能的新型网络体系结构,以捕获结构特征而无需渲染。尽管数据集范围仍然仅限于Sans-Serif家族,但我们首次使用建议的方法成功地生成了中国矢量字体。
translated by 谷歌翻译
在过去的十年中,在杂交无人驾驶空中水下车辆的研究中努力,机器人可以轻松飞行和潜入水中的机械适应水平。然而,大多数文献集中在物理设计,建筑物的实际问题上,最近,低水平的控制策略。在高级情报的背景下,如运动规划和与现实世界的互动的情况下已经完成。因此,我们在本文中提出了一种轨迹规划方法,允许避免避免未知的障碍和空中媒体之间的平滑过渡。我们的方法基于经典迅速探索随机树的变体,其主要优点是处理障碍,复杂的非线性动力学,模型不确定性和外部干扰的能力。该方法使用\ Hydrone的动态模型,提出具有高水下性能的混合动力车辆,但我们认为它可以很容易地推广到其他类型的空中/水生平台。在实验部分中,我们在充满障碍物的环境中显示了模拟结果,其中机器人被命令执行不同的媒体运动,展示了我们的策略的适用性。
translated by 谷歌翻译
这项工作提出了M3E2,一种多任务学习神经网络模型来估计多种治疗的效果。与现有方法相比,M3E2对于同时应用于同一单元,连续和二元处理以及许多协变量的多种治疗效果是鲁棒的。我们将M3E2与三个基准数据集中的三个基线进行比较:两个具有多种治疗和一个待遇。我们的分析表明,我们的方法具有卓越的性能,制作了对真实治疗效果的更大的自信估计。代码可在github.com/raquelaoki/m3e2上获得。
translated by 谷歌翻译
This paper introduces a new open source platform for end-toend speech processing named ESPnet. ESPnet mainly focuses on end-to-end automatic speech recognition (ASR), and adopts widely-used dynamic neural network toolkits, Chainer and Py-Torch, as a main deep learning engine. ESPnet also follows the Kaldi ASR toolkit style for data processing, feature extraction/format, and recipes to provide a complete setup for speech recognition and other speech processing experiments. This paper explains a major architecture of this software platform, several important functionalities, which differentiate ESPnet from other open source ASR toolkits, and experimental results with major ASR benchmarks.
translated by 谷歌翻译