智能论文笔记

Image-to-Height Domain Translation for Synthetic Aperture Sonar

Dylan Stewart , Shawn Johnson , Alina Zare

分类：计算机视觉 | 机器学习

2021-12-12

用合成孔径声纳的海底纹理观察依赖于几个因素。在这项工作中，我们专注于各向同性和各向异性纹理的收集几何形状。收集几何形状的低放牧角度，与声纳路径相对于各向异性纹理的方向相结合，对图像对齐和其他多视图场景了解框架构成了重大挑战。我们之前建议使用估计的海底缓解捕获的功能来改善现场了解。虽然已经开发了几种方法来通过强度估计海底浮雕，但文献中没有任何大规模的研究。此外，Coregristered海底浮雕地图和声纳图像的数据集是不存在的，以了解这个域名翻译。我们通过从两个独特的Sonar数据仿真技术制作包含含有共记高的海底浮雕和强度图的大型模拟数据集来解决这些问题。我们应用三种类型的模型，随着复杂性的不同，将强度图像转化为海底救济：高斯马尔可夫随机场方法（GMRF），条件生成对抗网络（Cgan）和Unet架构。使用L1误差将方法进行比较。此外，还显示了对模拟和真实SAS图像的预测。最后，在与使用强度相比，将模型与手动对齐的SAS图像的两个数据集进行比较。我们的综合实验表明，拟议的UNET架构优于MGRF和PIX2PIX CGAN模型对模拟和真实SAS图像的海底救济估算。

translated by 谷歌翻译

A Survey on Intrinsic Images: Delving Deep Into Lambert and Beyond

Elena Garces , Carlos Rodriguez-Pardo , Dan Casas , Jorge Lopez-Moreno

分类：计算机视觉

2021-12-07

传统上，本征成像或内在图像分解被描述为将图像分解为两层：反射率，材料的反射率;和一个阴影，由光和几何之间的相互作用产生。近年来，深入学习技术已广泛应用，以提高这些分离的准确性。在本调查中，我们概述了那些在知名内在图像数据集和文献中使用的相关度量的结果，讨论了预测所需的内在图像分解的适用性。虽然Lambertian的假设仍然是许多方法的基础，但我们表明，对图像形成过程更复杂的物理原理组件的潜力越来越意识到，这是光学准确的材料模型和几何形状，更完整的逆轻型运输估计。考虑使用的前瞻和模型以及驾驶分解过程的学习架构和方法，我们将这些方法分类为分解的类型。考虑到最近神经，逆和可微分的渲染技术的进步，我们还提供了关于未来研究方向的见解。

translated by 谷歌翻译

Large Scale GAN Training for High Fidelity Natural Image Synthesis

Andrew Brock , Jeff Donahue , Karen Simonyan

分类：

2018-09-28

Despite recent progress in generative image modeling, successfully generating high-resolution, diverse samples from complex datasets such as ImageNet remains an elusive goal. To this end, we train Generative Adversarial Networks at the largest scale yet attempted, and study the instabilities specific to such scale. We find that applying orthogonal regularization to the generator renders it amenable to a simple "truncation trick," allowing fine control over the trade-off between sample fidelity and variety by reducing the variance of the Generator's input. Our modifications lead to models which set the new state of the art in class-conditional image synthesis. When trained on ImageNet at 128×128 resolution, our models (BigGANs) achieve an Inception Score (IS) of 166.5 and Fréchet Inception Distance (FID) of 7.4, improving over the previous best IS of 52.52 and FID of 18.65.

translated by 谷歌翻译

Astronomical Image Colorization and upscaling with Generative Adversarial Networks

Shreyas Kalvankar , Hrushikesh Pandit , Pranav Parwate , Atharva Patil , Snehal Kamalapur

分类：计算机视觉 | 机器学习

2021-12-27

在没有人为干预的图像自动色彩上是在机器学习界的兴趣中的一个短暂的时间。分配颜色到图像是一个非常令人虐待的问题，因为它具有非常高的自由度的先天性;给定图像，通常没有单一的颜色组合是正确的。除了着色之外，图像重建中的另一个问题是单图像超分辨率，其旨在将低分辨率图像转换为更高的分辨率。该研究旨在通过专注于图像的非常特定的图像，即天文图像，并使用生成的对抗网络（GAN）来提供自动化方法。我们探索两种不同颜色空间，RGB和L * A *中各种型号的使用。我们使用传输学习，由于小数据集，使用预先训练的Reset-18作为骨干，即U-Net的编码器，进一步微调。该模型产生视觉上有吸引力的图像，其在原始图像中不存在的这些结果中呈现的高分辨率高分辨率，着色数据。我们通过使用所有通道的每个颜色空间中的距离度量（例如L1距离和L2距离）评估GAN来提供我们的结果，以提供比较分析。我们使用Frechet Inception距离（FID）将生成的图像的分布与实际图像的分布进行比较，以评估模型的性能。

translated by 谷歌翻译

Progressive Update Guided Interdependent Networks for Single Image Dehazing

Aupendu Kar , Sobhan Kanti Dhara , Debashis Sen , Prabir Kumar Biswas

分类：计算机视觉

2020-08-04

Images with haze of different varieties often pose a significant challenge to dehazing. Therefore, guidance by estimates of haze parameters related to the variety would be beneficial and their progressive update jointly with haze reduction will allow effective dehazing. To this end, we propose a multi-network dehazing framework containing novel interdependent dehazing and haze parameter updater networks that operate in a progressive manner. The haze parameters, transmission map and atmospheric light, are first estimated using specific convolutional networks allowing color-cast handling. The estimated parameters are then used to guide our dehazing module, where the estimates are progressively updated by novel convolutional networks. The updating takes place jointly with progressive dehazing by a convolutional network that invokes inter-step dependencies. The joint progressive updating and dehazing gradually modify the haze parameter estimates toward achieving effective dehazing. Through different studies, our dehazing framework is shown to be more effective than image-to-image mapping or predefined haze formation model based dehazing. Our dehazing framework is qualitatively and quantitatively found to outperform the state-of-the-art on synthetic and real-world hazy images of several datasets with varied haze conditions.

translated by 谷歌翻译

Positional Encoding Augmented GAN for the Assessment of Wind Flow for Pedestrian Comfort in Urban Areas

Henrik Høiness , Kristoffer Gjerde , Luca Oggiano , Knut Erik Teigen Giljarhus , Massimiliano Ruocco

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-15

使用计算流体动力学（CFD）方法近似风流可能是耗时的。创建用于在观察风流量变化的同时以交互式设计原型的工具需要更简单的模型来模拟更快。代替运行数值近似导致的详细计算，深度学习中的数据驱动方法可能能够在一小部分中提供类似的结果。这项工作将使用CFD计算到计算3D流场的问题，以在建筑占地面积上使用CFD到基于2D图像到图像转换的问题，以预测行人高度水平的流场。我们调查使用生成的对冲网络（GAN），例如PIX2PIX [1]和CYCREGAN [2]代表各种域中的图像到图像转换任务以及U-Net AutoEncoder [ 3]。模型可以以数据驱动的方式学习数据集的基础分布，我们认为可以帮助模型从CFD中了解底层雷诺平均的Navier-Stokes（RANS）方程。我们在具有且没有高度信息的各种三维诈唬型建筑物上进行新型模拟数据集。此外，我们为生成的图像提供了广泛的定性和定量评估，以选择模型，并将其性能与CFD传递的模拟进行比较。然后，我们通过提出用于在不同架构上注入这种信息的一般框架，将位置数据添加到输入可以产生更准确的结果。此外，我们表明模型通过应用注意机制和光谱归一化来改善，以便于稳定训练。

translated by 谷歌翻译

An Overview on the Generation and Detection of Synthetic and Manipulated Satellite Images

Lydia Abady , Edoardo Daniele Cannas , Paolo Bestagini , Benedetta Tondi , Stefano Tubaro , Mauro Barni

分类：计算机视觉

2022-09-19

由于技术成本的降低和卫星发射的增加，卫星图像变得越来越流行和更容易获得。除了提供仁慈的目的外，还可以出于恶意原因（例如错误信息）使用卫星数据。事实上，可以依靠一般图像编辑工具来轻松操纵卫星图像。此外，随着深层神经网络（DNN）的激增，可以生成属于各种领域的现实合成图像，与合成生成的卫星图像的扩散有关的其他威胁正在出现。在本文中，我们回顾了关于卫星图像的产生和操纵的最新技术（SOTA）。特别是，我们既关注从头开始的合成卫星图像的产生，又要通过图像转移技术对卫星图像进行语义操纵，包括从一种类型的传感器到另一种传感器获得的图像的转换。我们还描述了迄今已研究的法医检测技术，以对合成图像伪造进行分类和检测。虽然我们主要集中在法医技术上明确定制的，该技术是针对AI生成的合成内容物的检测，但我们还审查了一些用于一般剪接检测的方法，这些方法原则上也可以用于发现AI操纵图像

translated by 谷歌翻译

Neural Network Normal Estimation and Bathymetry Reconstruction from Sidescan Sonar

Yiping Xie , Nils Bore , John Folkesson

分类：机器人 | 人工智能

2022-06-15

侧扫声纳强度编码有关海床表面正常变化的信息。但是，其他因素（例如海底几何形状及其材料组成）也会影响回流强度。可以建模这些强度从向前方向上的变化从从测深图和物理特性到测量强度的表面正常的变化，或者可以使用逆模型，该模型从强度开始并模拟表面正常。在这里，我们使用一个逆模型，该模型利用深度学习能够从数据中学习的能力；卷积神经网络用于估计侧扫的正常表面。因此，海床的内部特性仅是隐式学习的。一旦估算了此信息，就可以通过优化框架重建测深图，该框架还包括高度计读数，以提供稀疏的深度轮廓作为约束。最近提出了隐式神经表示学习，以代表这种优化框架中的测深图。在本文中，我们使用神经网络来表示地图并在高度计点的约束和侧can的估计表面正常状态下进行优化。通过从几个侧扫线的不同角度融合多个观测值，通过优化改善了估计的结果。我们通过使用大型侧扫调查的侧扫数据重建高质量的测深，通过重建高质量的测深，证明了该方法的效率和可伸缩性。我们比较了提出的数据驱动的逆模型方法，该方法将侧扫形成前向兰伯特模型。我们通过将每个重建的质量与由多光束传感器构建的数据进行比较来评估它的质量。因此，我们能够讨论每种方法的优点和缺点。

translated by 谷歌翻译

ResDepth: A Deep Residual Prior For 3D Reconstruction From High-resolution Satellite Images

Corinne Stucker , Konrad Schindler

分类：计算机视觉

2021-06-15

现代光学卫星传感器使高分辨率立体声重建。但是在观察地球从空间推动立体声匹配时挑战成像条件。在实践中，由此产生的数字表面模型（DSM）相当嘈杂，并且通常不会达到3D城市建模等高分辨率应用所需的准确性。可以说，基于低电平图像相似性的立体声对应不足，并且应该互补关于超出基本局部平滑度的预期表面几何的先验知识。为此，我们介绍了Resptepth，这是一个卷积神经网络，其在示例数据之前学习如此表达几何。 Restepth在调节图像上的细化时改进初始原始的立体声DSM。即，它充当了一个智能，学习的后处理过滤器，可以无缝地补充任何立体声匹配管道。在一系列实验中，我们发现所提出的方法始终如一地改善了定量和定性的立体声DSM。我们表明，网络权重中的先前编码捕获了城市设计的有意义的几何特征，这也概括了不同地区，甚至从一个城市到另一个城市。此外，我们证明，通过对各种立体对的训练，RESPTH可以在成像条件和采集几何体中获得足够的不变性。

translated by 谷歌翻译

Towards Daily High-resolution Inundation Observations using Deep Learning and EO

Antara Dasgupta , Lasse Hybbeneth , Björn Waske

分类：计算机视觉 | 机器学习

2022-08-10

卫星遥感提供了一种具有成本效益的概要洪水监测的解决方案，卫星衍生的洪水图为传统上使用的数值洪水淹没模型提供了一种计算有效的替代方法。尽管卫星碰巧涵盖正在进行的洪水事件时确实提供了及时的淹没信息，但它们受其时空分辨率的限制，因为它们在各种规模上动态监测洪水演变的能力。不断改善对新卫星数据源的访问以及大数据处理功能，就此问题的数据驱动解决方案而言，已经解锁了前所未有的可能性。具体而言，来自卫星的数据融合，例如哥白尼前哨，它们具有很高的空间和低时间分辨率，以及来自NASA SMAP和GPM任务的数据，它们的空间较低，但时间较高的时间分辨率可能会导致高分辨率的洪水淹没在A处的高分辨率洪水。每日规模。在这里，使用Sentinel-1合成孔径雷达和各种水文，地形和基于土地利用的预测因子衍生出的洪水淹没图对卷积神经网络进行了训练，以预测高分辨率的洪水泛滥概率图。使用Sentinel-1和Sentinel-2衍生的洪水面罩，评估了UNET和SEGNET模型架构的性能，分别具有95％的信心间隔。精确召回曲线（PR-AUC）曲线下的区域（AUC）被用作主要评估指标，这是由于二进制洪水映射问题中类固有的不平衡性质，最佳模型提供了PR-AUC 0.85。

translated by 谷歌翻译

HRF-Net: Holistic Radiance Fields from Sparse Inputs

Phong Nguyen-Ha , Lam Huynh , Esa Rahtu , Jiri Matas , Janne Heikkila

分类：计算机视觉

2022-08-09

我们提出了HRF-NET，这是一种基于整体辐射场的新型视图合成方法，该方法使用一组稀疏输入来呈现新视图。最近的概括视图合成方法还利用了光辉场，但渲染速度不是实时的。现有的方法可以有效地训练和呈现新颖的观点，但它们无法概括地看不到场景。我们的方法解决了用于概括视图合成的实时渲染问题，并由两个主要阶段组成：整体辐射场预测指标和基于卷积的神经渲染器。该架构不仅基于隐式神经场的一致场景几何形状，而且还可以使用单个GPU有效地呈现新视图。我们首先在DTU数据集的多个3D场景上训练HRF-NET，并且网络只能仅使用光度损耗就看不见的真实和合成数据产生合理的新视图。此外，我们的方法可以利用单个场景的密集参考图像集来产生准确的新颖视图，而无需依赖其他明确表示，并且仍然保持了预训练模型的高速渲染。实验结果表明，HRF-NET优于各种合成和真实数据集的最先进的神经渲染方法。

translated by 谷歌翻译

iToF2dToF: A Robust and Flexible Representation for Data-Driven Time-of-Flight Imaging

Felipe Gutierrez-Barragan , Huaijin Chen , Mohit Gupta , Andreas Velten , Jinwei Gu

分类：计算机视觉

2021-03-12

间接飞行时间（ITOF）相机是一个有希望的深度传感技术。然而，它们容易出现由多路径干扰（MPI）和低信噪比（SNR）引起的错误。传统方法，在去噪后，通过估计编码深度的瞬态图像来减轻MPI。最近，在不使用中间瞬态表示的情况下，共同去噪和减轻MPI的数据驱动方法已经成为最先进的。在本文中，我们建议重新审视瞬态代表。使用数据驱动的Priors，我们将其插入/推断ITOF频率并使用它们来估计瞬态图像。给定直接TOF（DTOF）传感器捕获瞬态图像，我们将我们的方法命名为ITOF2DTOF。瞬态表示是灵活的。它可以集成与基于规则的深度感测算法，对低SNR具有强大，并且可以处理实际上出现的模糊场景（例如，镜面MPI，光学串扰）。我们在真正深度传感方案中展示了先前方法上的ITOF2DTOF的好处。

translated by 谷歌翻译

Neural Shape-from-Shading for Survey-Scale Self-Consistent Bathymetry from Sidescan

Nils Bore , John Folkesson

分类：机器人

2022-06-18

侧can声纳是一种小型且具有成本效益的传感溶液，可以轻松地安装在大多数船上。从历史上看，它一直用于生产高清图像，专家可能用来识别海底或水柱上的目标。虽然已提出溶液仅从侧扫或与Multibeam结合使用，但影响有限。这部分是由于主要仅限于单侧扫描线的结果。在本文中，我们提出了一种现代可口的解决方案，以从许多侧扫线中创建高质量的测量规模测深。通过合并对同一位置的多个观察结果，可以改善结果，因为估计值相互加强。我们的方法基于正弦表示网络，这是神经表示学习的最新进展。我们通过从大型侧扫调查中产生测深，证明了该方法的可伸缩性。通过与高精度多光束传感器收集的数据进行比较，可以证明所得的质量。

translated by 谷歌翻译

Towards Practical Single-shot Phase Retrieval with Physics-Driven Deep Neural Network

Qiuliang Ye , Li-Wen Wang , Daniel Pak-Kong Lun

分类：人工智能 | 计算机视觉

2022-08-18

相位检索（PR）是从其仅限强度测量中恢复复杂值信号的长期挑战，由于其在数字成像中的广泛应用，引起了很大的关注。最近，开发了基于深度学习的方法，这些方法在单发PR中取得了成功。这些方法需要单个傅立叶强度测量，而无需对测量数据施加任何其他约束。然而，由于PR问题的输入和输出域之间存在很大的差异，香草深神经网络（DNN）并没有提供良好的性能。物理信息的方法试图将傅立叶强度测量结果纳入提高重建精度的迭代方法。但是，它需要一个冗长的计算过程，并且仍然无法保证准确性。此外，其中许多方法都在模拟数据上工作，这些数据忽略了一些常见问题，例如实用光学PR系统中的饱和度和量化错误。在本文中，提出了一种新型的物理驱动的多尺度DNN结构，称为PPRNET。与其他基于深度学习的PR方法类似，PPRNET仅需要一个傅立叶强度测量。物理驱动的是，网络被指导遵循不同尺度的傅立叶强度测量，以提高重建精度。 PPRNET具有前馈结构，可以端到端训练。因此，它比传统物理驱动的PR方法更快，更准确。进行了实用光学平台上的大量模拟和实验。结果证明了拟议的PPRNET比传统的基于基于学习的PR方法的优势和实用性。

translated by 谷歌翻译

The hybrid approach -- Convolutional Neural Networks and Expectation Maximization Algorithm -- for Tomographic Reconstruction of Hyperspectral Images

Mads J. Ahlebæk , Mads S. Peters , Wei-Chih Huang , Mads T. Frandsen , René L. Eriksen , Bjarke Jørgensen

分类：计算机视觉

2022-05-31

We present a simple but novel hybrid approach to hyperspectral data cube reconstruction from computed tomography imaging spectrometry (CTIS) images that sequentially combines neural networks and the iterative Expectation Maximization (EM) algorithm. We train and test the ability of the method to reconstruct data cubes of $100\times100\times25$ and $100\times100\times100$ voxels, corresponding to 25 and 100 spectral channels, from simulated CTIS images generated by our CTIS simulator. The hybrid approach utilizes the inherent strength of the Convolutional Neural Network (CNN) with regard to noise and its ability to yield consistent reconstructions and make use of the EM algorithm's ability to generalize to spectral images of any object without training. The hybrid approach achieves better performance than both the CNNs and EM alone for seen (included in CNN training) and unseen (excluded from CNN training) cubes for both the 25- and 100-channel cases. For the 25 spectral channels, the improvements from CNN to the hybrid model (CNN + EM) in terms of the mean-squared errors are between 14-26%. For 100 spectral channels, the improvements between 19-40% are attained with the largest improvement of 40% for the unseen data, to which the CNNs are not exposed during the training.

translated by 谷歌翻译

Multi-structure bone segmentation in pediatric MR images with combined regularization from shape priors and adversarial network

Arnaud Boutillon , Bhushan Borotikar , Valérie Burdin , Pierre-Henri Conze

分类：计算机视觉

2020-09-15

儿科肌肉骨骼系统的形态学和诊断评价在临床实践中至关重要。但是，大多数分段模型在稀缺的儿科成像数据上都不好。我们提出了一种新的预训练的正则化卷积编码器 - 解码器，用于分割异质儿科磁共振（MR）图像的具有挑战性的任务。在这方面，我们采用转移学习方法以及正规化策略来改善分段模型的概括。为此，我们已经构思了用于分割网络的新颖优化方案，其包括丢失函数的额外正则化术语。为了获得全局一致的预测，我们纳入了基于形状的正则化，从自动编码器学习的非线性形状表示来源。另外，通过鉴别器计算的对抗正规化是集成的，以鼓励合理的描绘。评估来自脚踝和肩部关节的两个稀缺的小儿摄像数据集的多骨分割任务的方法，包括病理和健康检查。所提出的方法与先前提出的骰子，灵敏度，特异性，最大对称表面距离，平均对称表面距离和相对绝对体积差异度量的方法更好或以前的方法进行更好或以前的方法进行比例。我们说明所提出的方法可以很容易地集成到各种骨骼分割策略中，并且可以提高在大型非医学图像数据库上预先培训的模型的预测准确性。获得的结果为小儿肌肉骨骼障碍的管理带来了新的视角。

translated by 谷歌翻译

Physics-based Deep Learning

Nils Thuerey , Philipp Holl , Maximilian Mueller , Patrick Schnell , Felix Trost , Kiwon Um

分类：机器学习

2021-09-11

这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多，所有主题都带有Jupyter笔记本的形式的动手代码示例，以便快速入门。除了标准的受监督学习的数据中，我们将看看物理丢失约束，更紧密耦合的学习算法，具有可微分的模拟，以及加强学习和不确定性建模。我们生活在令人兴奋的时期：这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。

translated by 谷歌翻译

Generative Adversarial Networks: An Overview

Antonia Creswell , Tom White , Vincent Dumoulin , Kai Arulkumaran , Biswa Sengupta , Anil A Bharath

分类：

2017-10-19

Generative adversarial networks (GANs) provide a way to learn deep representations without extensively annotated training data. They achieve this through deriving backpropagation signals through a competitive process involving a pair of networks. The representations that can be learned by GANs may be used in a variety of applications, including image synthesis, semantic image editing, style transfer, image super-resolution and classification. The aim of this review paper is to provide an overview of GANs for the signal processing community, drawing on familiar analogies and concepts where possible. In addition to identifying different methods for training and constructing GANs, we also point to remaining challenges in their theory and application.

translated by 谷歌翻译

Towards Real-Time Monocular Depth Estimation for Robotics: A Survey

Xingshuai Dong , Matthew A. Garratt , Sreenatha G. Anavatti , Hussein A. Abbass

分类：机器人

2021-11-16

作为许多自主驾驶和机器人活动的基本组成部分，如自我运动估计，障碍避免和场景理解，单眼深度估计（MDE）引起了计算机视觉和机器人社区的极大关注。在过去的几十年中，已经开发了大量方法。然而，据我们所知，对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是，我们为涵盖各种方法的MDE提供了全面的调查，介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现，并比较了他们的表演。此外，我们在一些重要的机器人任务中审查了MDE的应用。最后，我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。

translated by 谷歌翻译

Spectral Bandwidth Recovery of Optical Coherence Tomography Images using Deep Learning

Timothy T. Yu , Da Ma , Jayden Cole , Myeong Jin Ju , Mirza F. Beg , Marinko V. Sarunic

分类：人工智能 | 计算机视觉

2023-01-02

Optical coherence tomography (OCT) captures cross-sectional data and is used for the screening, monitoring, and treatment planning of retinal diseases. Technological developments to increase the speed of acquisition often results in systems with a narrower spectral bandwidth, and hence a lower axial resolution. Traditionally, image-processing-based techniques have been utilized to reconstruct subsampled OCT data and more recently, deep-learning-based methods have been explored. In this study, we simulate reduced axial scan (A-scan) resolution by Gaussian windowing in the spectral domain and investigate the use of a learning-based approach for image feature reconstruction. In anticipation of the reduced resolution that accompanies wide-field OCT systems, we build upon super-resolution techniques to explore methods to better aid clinicians in their decision-making to improve patient outcomes, by reconstructing lost features using a pixel-to-pixel approach with an altered super-resolution generative adversarial network (SRGAN) architecture.

translated by 谷歌翻译