扫描像素摄像机是一种新型的低成本低功率传感器,不受衍射限制。它作为扫描过程中从场景的各个部分提取的样品序列产生数据。它可以提供非常详细的图像,而牺牲了采样和缓慢的图像获取时间。本文提出了一种新的算法,该算法允许传感器在此序列的过程中调整采样量。这可以通过最大程度地减少图像和传输场景所需的带宽和时间来克服这些限制,同时保持图像质量。我们检查了图像分类和语义分割的应用,与完全采样的输入相比,能够获得相似的结果,而使用样本少80%
translated by 谷歌翻译
计算光学成像(COI)系统利用其设置中的光学编码元素(CE)在单个或多个快照中编码高维场景,并使用计算算法对其进行解码。 COI系统的性能很大程度上取决于其主要组件的设计:CE模式和用于执行给定任务的计算方法。常规方法依赖于随机模式或分析设计来设置CE的分布。但是,深神经网络(DNNS)的可用数据和算法功能已在CE数据驱动的设计中开辟了新的地平线,该设计共同考虑了光学编码器和计算解码器。具体而言,通过通过完全可区分的图像形成模型对COI测量进行建模,该模型考虑了基于物理的光及其与CES的相互作用,可以在端到端优化定义CE和计算解码器的参数和计算解码器(e2e)方式。此外,通过在同一框架中仅优化CE,可以从纯光学器件中执行推理任务。这项工作调查了CE数据驱动设计的最新进展,并提供了有关如何参数化不同光学元素以将其包括在E2E框架中的指南。由于E2E框架可以通过更改损耗功能和DNN来处理不同的推理应用程序,因此我们提出低级任务,例如光谱成像重建或高级任务,例如使用基于任务的光学光学体系结构来增强隐私的姿势估计,以维护姿势估算。最后,我们说明了使用全镜DNN以光速执行的分类和3D对象识别应用程序。
translated by 谷歌翻译
压缩学习(CL)是一个新兴框架,可以通过压缩传感(CS)和机器学习来整合信号的收购,直接在少量测量上进行推理任务。它可以是经典图像域方法的有希望的替代方法,并且在保存和计算效率方面具有很大的优势。但是,以前对CL的尝试不仅限于固定的CS比率,该比率缺乏灵活性,而且还限于MNIST/CIFAR样数据集,并且不扩展到复杂的现实世界高分辨率(HR)数据或视觉任务。在本文中,提出了一个新型的基于变压器的压缩学习框架,该框架在具有任意CS比率的大规模图像上(称为TransCl)。具体而言,TransCL首先采用了基于可学习的基于块的压缩感测的策略,并提出了一种灵活的线性投影策略,以使CL能够以任意CS比率的有效逐块方式在大规模图像上进行。然后,关于从所有块作为序列的CS测量值,将部署一个基于纯变压器的骨架来执行具有各种面向任务的头部的视觉任务。我们的足够分析表明,TRANSCL对干扰和对任意CS比率的强大适应性表现出强烈的抵抗力。复杂HR数据的广泛实验表明,所提出的TransCl可以在图像分类和语义分割任务中实现最新性能。特别是,CS比率为$ 10 \%$的TRANSCL几乎可以获得与直接在原始数据上运行时的性能,即使CS极低的CS比率为$ 1 \%$ $,也可以获得令人满意的性能。我们提出的TransCl的源代码可在\ url {https://github.com/mc-e/transcl/}上获得。
translated by 谷歌翻译
现代设备(例如智能手机,卫星和医疗设备)中的摄像机能够捕获非常高分辨率的图像和视频。这种高分辨率数据通常需要通过深度学习模型来处理癌症检测,自动化道路导航,天气预测,监视,优化农业过程和许多其他应用。使用高分辨率的图像和视频作为深度学习模型的直接输入,由于其参数数量大,计算成本,推理延迟和GPU内存消耗而造成了许多挑战。简单的方法(例如将图像调整为较低的分辨率大小)在文献中很常见,但是它们通常会显着降低准确性。文献中的几项作品提出了更好的替代方案,以应对高分辨率数据的挑战并提高准确性和速度,同时遵守硬件限制和时间限制。这项调查描述了这种高效的高分辨率深度学习方法,总结了高分辨率深度学习的现实应用程序,并提供了有关可用高分辨率数据集的全面信息。
translated by 谷歌翻译
光学成像通常用于行业和学术界的科学和技术应用。在图像传感中,通过数字化图像的计算分析来执行一个测量,例如对象的位置。新兴的图像感应范例通过设计光学组件来执行不进行成像而是编码,从而打破了数据收集和分析之间的描述。通过将图像光学地编码为适合有效分析后的压缩,低维的潜在空间,这些图像传感器可以以更少的像素和更少的光子来工作,从而可以允许更高的直通量,较低的延迟操作。光学神经网络(ONNS)提供了一个平台,用于处理模拟,光学域中的数据。然而,基于ONN的传感器仅限于线性处理,但是非线性是深度的先决条件,而多层NNS在许多任务上的表现都大大优于浅色。在这里,我们使用商业图像增强器作为平行光电子,光学到光学非线性激活函数,实现用于图像传感的多层预处理器。我们证明,非线性ONN前处理器可以达到高达800:1的压缩率,同时仍然可以在几个代表性的计算机视觉任务中高精度,包括机器视觉基准测试,流程度图像分类以及对对象中对象的识别,场景。在所有情况下,我们都会发现ONN的非线性和深度使其能够胜过纯线性ONN编码器。尽管我们的实验专门用于ONN传感器的光线图像,但替代ONN平台应促进一系列ONN传感器。这些ONN传感器可能通过在空间,时间和/或光谱尺寸中预处处理的光学信息来超越常规传感器,并可能具有相干和量子质量,所有这些都在光学域中。
translated by 谷歌翻译
Spatially varying spectral modulation can be implemented using a liquid crystal spatial light modulator (SLM) since it provides an array of liquid crystal cells, each of which can be purposed to act as a programmable spectral filter array. However, such an optical setup suffers from strong optical aberrations due to the unintended phase modulation, precluding spectral modulation at high spatial resolutions. In this work, we propose a novel computational approach for the practical implementation of phase SLMs for implementing spatially varying spectral filters. We provide a careful and systematic analysis of the aberrations arising out of phase SLMs for the purposes of spatially varying spectral modulation. The analysis naturally leads us to a set of "good patterns" that minimize the optical aberrations. We then train a deep network that overcomes any residual aberrations, thereby achieving ideal spectral modulation at high spatial resolution. We show a number of unique operating points with our prototype including dynamic spectral filtering, material classification, and single- and multi-image hyperspectral imaging.
translated by 谷歌翻译
在视频中利用时空冗余的自适应抽样对于在有限的计算机和电池资源的可穿戴设备上始终进行动作识别至关重要。常用的固定采样策略不是上下文感知的,并且可能会在视觉内容下进行样本,从而对计算效率和准确性产生不利影响。受到人类视觉感知机制的动脉视觉和动力前处理的概念的启发,我们引入了一种新型的自适应时空抽样方案,以进行有效的动作识别。我们的系统以低分辨率为扫描前扫视全球场景上下文,并决定跳过或要求在显着区域的高分辨率功能进行进一步处理。我们在Epic-Kitchens和UCF-101数据集上验证该系统以进行动作识别,并表明我们所提出的方法可以大大加快与最先进基线相比的准确性丧失的推断。
translated by 谷歌翻译
在许多重要的科学和工程应用中发现了卷数据。渲染此数据以高质量和交互速率为苛刻的应用程序(例如虚拟现实)的可视化化,即使使用专业级硬件也无法实现。我们介绍了Fovolnet - 一种可显着提高数量数据可视化的性能的方法。我们开发了一种具有成本效益的渲染管道,该管道稀疏地对焦点进行了量度,并使用深层神经网络重建了全帧。 FOVEATED渲染是一种优先考虑用户焦点渲染计算的技术。这种方法利用人类视觉系统的属性,从而在用户视野的外围呈现数据时节省了计算资源。我们的重建网络结合了直接和内核预测方法,以产生快速,稳定和感知令人信服的输出。凭借纤细的设计和量化的使用,我们的方法在端到端框架时间和视觉质量中都优于最先进的神经重建技术。我们对系统的渲染性能,推理速度和感知属性进行了广泛的评估,并提供了与竞争神经图像重建技术的比较。我们的测试结果表明,Fovolnet始终在保持感知质量的同时,在传统渲染上节省了大量时间。
translated by 谷歌翻译
单像素成像(SPI)是一种新型成像技术,其工作原理基于压缩感(CS)理论。在SPI中,数据是通过一系列压缩测量获得的,并重建了相应的图像。通常,重建算法(例如基础追求)依赖于图像中的稀疏性假设。但是,深度学习的最新进展发现了其在重建CS图像中的用途。尽管在模拟中显示出令人鼓舞的结果,但通常不清楚如何在实际的SPI设置中实现这种算法。在本文中,我们证明了对SPI图像的重建以及块压缩感(BCS)的重建。我们还提出了一个基于卷积神经网络的新型重建模型,该模型优于其他竞争性CS重建算法。此外,通过将BCS合并到我们的深度学习模型中,我们能够重建以上图像大小以上的任何大小的图像。此外,我们表明我们的模型能够重建从SPI设置获得的图像,同时接受自然图像进行训练,这可能与SPI图像大不相同。这为CS重建来自各个领域的图像重建的深度学习模型的可行性打开了机会。
translated by 谷歌翻译
虽然最先进的视觉变压器模型实现了图像分类的有希望的结果,但它们是非常昂贵的并且需要许多GFLOPS。尽管可以通过减少网络中的令牌数量来降低视觉变压器的GFLOPS,但是没有对所有输入图像的最佳设置。因此,在这项工作中,我们引入了可分辨率的无参数自适应令牌采样(ATS)模块,可以插入任何现有的视觉变压器架构。通过评分和自适应采样重要令牌,在视觉变压器上实现视觉变压器。结果,令牌的数量不再静态,但是每个输入图像都变化。通过将ATS集成为当前变压器块内的附加层,我们可以将它们转换为具有自适应令牌的更高效的视觉变压器。由于ATS是一种无参数模块,因此它可以作为即插即用模块添加到从货架上的预制视觉变压器中,从而在没有任何额外训练的情况下减少他们的GFLOP。但是,由于其可分辨动的设计,人们还可以培训配有ATS的视觉变压器。通过将其添加到多个最先进的视觉变压器,我们在想象成数据集上进行评估。我们的评估表明,通过将计算成本(GFLOPS)降低37%,在保留准确性时,该模块通过降低了37%,提高了最先进的模块。
translated by 谷歌翻译
有源深度传感器,如结构化光,激光雷达和飞行时间系统以固定扫描速率均匀地样本整个场景的深度。这导致了有限的时空分辨率,其中冗余静态信息是过度采样的,并且可能会被采样珍贵运动信息。在本文中,我们提出了一种有效的生物启发事件 - 摄像机驱动深度估计算法。在我们的方法中,我们密集地动态地照亮感兴趣的领域,这取决于事件摄像机检测到的场景活动,并在没有动作的视野中稀疏地照亮区域。深度估计是通过基于事件的结构化光系统来实现,该光点投影仪组成,该激光点投影仪与调谐的第二事件的传感器耦合,以检测来自场景的激光器的反射。我们在模拟自主驾驶场景和真实室内序列中展示了我们方法的可行性,使用我们的原型。我们表明,在自动驾驶和室内环境的自然场景中,移动边缘平均对应于场景的不到10%。因此,我们的设置要求传感器仅扫描10%的场景,这可能会导致照明源的功耗较低的差价较低。虽然我们为基于事件的结构光系统提供了评估和验证,但这里提出的思想适用于Lidar,飞行时间和标准立体声等广泛的深度感测模式。视频可用于\ url {https://youtu.be/rvv9iqlyjcq}。
translated by 谷歌翻译
侧扫声纳强度编码有关海床表面正常变化的信息。但是,其他因素(例如海底几何形状及其材料组成)也会影响回流强度。可以建模这些强度从向前方向上的变化从从测深图和物理特性到测量强度的表面正常的变化,或者可以使用逆模型,该模型从强度开始并模拟表面正常。在这里,我们使用一个逆模型,该模型利用深度学习能够从数据中学习的能力;卷积神经网络用于估计侧扫的正常表面。因此,海床的内部特性仅是隐式学习的。一旦估算了此信息,就可以通过优化框架重建测深图,该框架还包括高度计读数,以提供稀疏的深度轮廓作为约束。最近提出了隐式神经表示学习,以代表这种优化框架中的测深图。在本文中,我们使用神经网络来表示地图并在高度计点的约束和侧can的估计表面正常状态下进行优化。通过从几个侧扫线的不同角度融合多个观测值,通过优化改善了估计的结果。我们通过使用大型侧扫调查的侧扫数据重建高质量的测深,通过重建高质量的测深,证明了该方法的效率和可伸缩性。我们比较了提出的数据驱动的逆模型方法,该方法将侧扫形成前向兰伯特模型。我们通过将每个重建的质量与由多光束传感器构建的数据进行比较来评估它的质量。因此,我们能够讨论每种方法的优点和缺点。
translated by 谷歌翻译
我们向传感器独立性(Sensei)介绍了一种新型神经网络架构 - 光谱编码器 - 通过该传感器独立性(Sensei) - 通过其中具有不同组合的光谱频带组合的多个多光谱仪器可用于训练广义深度学习模型。我们专注于云屏蔽的问题,使用几个预先存在的数据集,以及Sentinel-2的新的自由可用数据集。我们的模型显示在卫星上实现最先进的性能,它受过训练(Sentinel-2和Landsat 8),并且能够推断到传感器,它在训练期间尚未见过Landsat 7,每\ 'USAT-1,和Sentinel-3 SLST。当多种卫星用于培训,接近或超越专用单传感器型号的性能时,模型性能显示出改善。这项工作是激励遥感社区可以使用巨大各种传感器采取的数据的动机。这不可避免地导致标记用于不同传感器的努力,这限制了深度学习模型的性能,因为他们需要最佳地执行巨大的训练。传感器独立性可以使深度学习模型能够同时使用多个数据集进行培训,提高性能并使它们更广泛适用。这可能导致深入学习方法,用于在板载应用程序和地面分段数据处理中更频繁地使用,这通常需要模型在推出时或之后即将开始。
translated by 谷歌翻译
本文探讨了一种机器学习方法,用于从单芯片MMWave雷达产生高分辨率点云。与激光雷达和基于视觉的系统不同,MMWave雷达可以在恶劣的环境中运行,并通过烟雾,雾气和灰尘等遮挡。不幸的是,与激光点云相比,当前的MMWAVE处理技术可提供差的空间分辨率。本文介绍了Radarhd,这是一种端到端的神经网络,该网络从低分辨率雷达输入中构造了激光雷达点云。由于存在镜面和虚假的反射,增强雷达图像是具有挑战性的。由于信号的类似SINC的扩展模式,雷达数据也不能很好地映射到传统的图像处理技术。我们通过在大量的RAW I/Q雷达数据上训练Radarhd与各种室内环境中的LiDar Point云配对来克服这些挑战。我们的实验表明,即使在训练期间未观察到的场景和存在浓烟的情况下,也能够产生丰富的点云。此外,Radarhd的点云足够高,足以与现有的LiDAR ODOMETIRE和映射工作流程配合使用。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译
Computer vision applications in intelligent transportation systems (ITS) and autonomous driving (AD) have gravitated towards deep neural network architectures in recent years. While performance seems to be improving on benchmark datasets, many real-world challenges are yet to be adequately considered in research. This paper conducted an extensive literature review on the applications of computer vision in ITS and AD, and discusses challenges related to data, models, and complex urban environments. The data challenges are associated with the collection and labeling of training data and its relevance to real world conditions, bias inherent in datasets, the high volume of data needed to be processed, and privacy concerns. Deep learning (DL) models are commonly too complex for real-time processing on embedded hardware, lack explainability and generalizability, and are hard to test in real-world settings. Complex urban traffic environments have irregular lighting and occlusions, and surveillance cameras can be mounted at a variety of angles, gather dirt, shake in the wind, while the traffic conditions are highly heterogeneous, with violation of rules and complex interactions in crowded scenarios. Some representative applications that suffer from these problems are traffic flow estimation, congestion detection, autonomous driving perception, vehicle interaction, and edge computing for practical deployment. The possible ways of dealing with the challenges are also explored while prioritizing practical deployment.
translated by 谷歌翻译
光学系统的可区分模拟可以与基于深度学习的重建网络结合使用,以通过端到端(E2E)优化光学编码器和深度解码器来实现高性能计算成像。这使成像应用程序(例如3D定位显微镜,深度估计和无透镜摄影)通过优化局部光学编码器。更具挑战性的计算成像应用,例如将3D卷压入单个2D图像的3D快照显微镜,需要高度非本地光学编码器。我们表明,现有的深网解码器具有局部性偏差,可防止这种高度非本地光学编码器的优化。我们使用全球内核傅里叶卷积神经网络(Fouriernets)基于浅神经网络体系结构的解码器来解决此问题。我们表明,在高度非本地分散镜头光学编码器捕获的照片中,傅立叶网络超过了现有的基于网络的解码器。此外,我们表明傅里叶可以对3D快照显微镜的高度非本地光学编码器进行E2E优化。通过将傅立叶网和大规模多GPU可区分的光学模拟相结合,我们能够优化非本地光学编码器170 $ \ times $ \ times $ tos 7372 $ \ times $ \ times $ \ times $比以前的最新状态,并证明了ROI的潜力-type特定的光学编码使用可编程显微镜。
translated by 谷歌翻译
近年来,MMWave FMCW雷达吸引了人类居中应用的大量研究兴趣,例如人类姿态/活动识别。大多数现有的管道由传统的离散傅立叶变换(DFT)预处理和深神经网络分类器混合方法建立,其中大多数以前的作品专注于设计下游分类器以提高整体精度。在这项工作中,我们返回返回并查看预处理模块。为了避免传统DFT预处理的缺点,我们提出了一个名为Cubelearn的学习预处理模块,直接从原始雷达信号中提取特征,并为MMWAVE FMCW雷达运动识别应用构建端到端的深神经网络。广泛的实验表明,我们的立方体模块一直提高不同管道的分类准确性,特别是利益以前较弱的模型。我们提供关于所提出的模块的初始化方法和结构的消融研究,以及对PC和边缘设备上运行时间的评估。这项工作也用作不同方法对数据立方体切片的比较。通过我们的任务无关设计,我们向雷达识别问题提出了一步迈向通用端到端解决方案。
translated by 谷歌翻译
Remote sensing imagery provides comprehensive views of the Earth, where different sensors collect complementary data at different spatial scales. Large, pretrained models are commonly finetuned with imagery that is heavily augmented to mimic different conditions and scales, with the resulting models used for various tasks with imagery from a range of spatial scales. Such models overlook scale-specific information in the data. In this paper, we present Scale-MAE, a pretraining method that explicitly learns relationships between data at different, known scales throughout the pretraining process. Scale-MAE pretrains a network by masking an input image at a known input scale, where the area of the Earth covered by the image determines the scale of the ViT positional encoding, not the image resolution. Scale-MAE encodes the masked image with a standard ViT backbone, and then decodes the masked image through a bandpass filter to reconstruct low/high frequency images at lower/higher scales. We find that tasking the network with reconstructing both low/high frequency images leads to robust multiscale representations for remote sensing imagery. Scale-MAE achieves an average of a $5.0\%$ non-parametric kNN classification improvement across eight remote sensing datasets compared to current state-of-the-art and obtains a $0.9$ mIoU to $3.8$ mIoU improvement on the SpaceNet building segmentation transfer task for a range of evaluation scales.
translated by 谷歌翻译