智能视频监视系统(IVSS)可以自动分析监视图像(SI)的内容并减轻体力劳动的负担。但是,SIS在获取,压缩和传播过程中可能会遭受质量下降,这使得IVSS难以理解SIS的内容。在本文中,我们首先进行了一个示例实验(即面部检测任务),以证明SIS的质量对IVSS的性能具有至关重要的影响,然后提出一个基于显着的深神经网络,以实现盲目质量评估SIS,这有助于IVSS过滤低质量的SIS并改善检测和识别性能。具体而言,我们首先计算SI的显着性图以选择最突出的局部区域,因为显着区域通常包含丰富的语义信息,以实现机器视觉,因此对SIS的整体质量产生了很大的影响。接下来,采用卷积神经网络(CNN)来提取整个图像和局部区域的质量感知功能,然后分别通过完全连接的(FC)网络映射到全球和本地质量分数中。最后,将整体质量得分计算为全球和本地质量分数的加权总和。 SI质量数据库(SIQD)的实验结果表明,所提出的方法优于所有最新的BIQA方法。
translated by 谷歌翻译
由于空间分辨率的巨大改进,4K内容可以为消费者提供更严肃的视觉体验。但是,由于分辨率扩大和特定的扭曲,现有的盲图质量评估(BIQA)方法不适合原始和升级的4K内容物。在本文中,我们提出了一个针对4K内容的深度学习的BIQA模型,一方面可以识别True和pseudo 4K内容,另一方面可以评估其感知视觉质量。考虑到高空间分辨率可以代表更丰富的高频信息的特征,我们首先提出了基于灰色级别的共发生矩阵(GLCM)的纹理复杂度度量,以从4K图像中选择三个代表性图像贴片,这可以减少计算复杂性,被证明对通过实验的总体质量预测非常有效。然后,我们从卷积神经网络(CNN)的中间层中提取不同种类的视觉特征,并将它们集成到质量感知的特征表示中。最后,使用两个多层感知(MLP)网络用于将质量感知功能映射到类概率和每个贴片的质量分数中。总体质量指数是通过平均贴片结果汇总获得的。提出的模型通过多任务学习方式进行了训练,我们引入了不确定性原理,以平衡分类和回归任务的损失。实验结果表明,所提出的模型的表现均优于所有4K内容质量评估数据库中的BIQA指标。
translated by 谷歌翻译
由于存在于视觉信号采集,压缩,传输和显示的各个阶段的质量降级,图像质量评估(IQA)在基于图像的应用中起着重要作用。根据参考图像是否完整且可用,图像质量评估可分为三类:全引用(FR),减少参考(RR)和非引用(NR)。本文将审查最先进的图像质量评估算法。
translated by 谷歌翻译
Saliency detection is one of the most challenging problems in image analysis and computer vision. Many approaches propose different architectures based on the psychological and biological properties of the human visual attention system. However, there is still no abstract framework that summarizes the existing methods. In this paper, we offered a general framework for saliency models, which consists of five main steps: pre-processing, feature extraction, saliency map generation, saliency map combination, and post-processing. Also, we study different saliency models containing each level and compare their performance. This framework helps researchers to have a comprehensive view of studying new methods.
translated by 谷歌翻译
用户生成的内容(UGC)的盲图质量评估(BIQA)遭受范围效应,表明在整体质量范围,平均意见评分(MOS)和预测的MOS(PMO)(PMO)上有很好的相关性;关注特定范围,相关性较低。范围效应的原因是,在较大范围内和狭窄范围内的预测偏差破坏了MOS和PMO之间的均匀性。为了解决这个问题,提出了一种新的方法,从粗粒度度量到细粒度的预测。首先,我们为粗粒度度量设计了排名和梯度损失。损失保持了PMOS和MOS之间的顺序和毕业生一致性,从而在较大范围内减少了预测的偏差。其次,我们提出多级公差损失以进行细粒度的预测。损失受到减少阈值的限制,以限制较窄和较窄范围的预测偏差。最后,我们设计了一个反馈网络来进行粗到精细的评估。一方面,网络采用反馈块来处理多尺度的失真功能,另一方面,它将非本地上下文功能融合到每次迭代的输出中,以获取更多质量感知的功能表示。实验结果表明,与最先进的方法相比,提出的方法可以减轻范围效应。
translated by 谷歌翻译
Point Cloud是3D内容使用最广泛使用的数字表示格式之一,其视觉质量可能会在生产过程中遇到噪声和几何变化,以及在传输过程中的压缩和压缩采样。为了应对点云质量评估(PCQA)的挑战,已经提出了许多PCQA方法来评估点云的视觉质量水平,以评估渲染的静态2D投影。尽管这种基于投影的PCQA方法在成熟图像质量评估(IQA)方法的帮助下实现了竞争性能,但它们忽略了动态质量感知信息,这与观察者倾向于通过两种静态感知点云的事实完全不符和动态视图。因此,在本文中,我们将点云视为移动相机视频,并通过使用视频质量评估(VQA)方法(NR)方式探索处理PCQA任务的方式。首先,我们通过四个圆形路径将相机围绕点云旋转来生成捕获的视频。然后,我们分别使用可训练的2D-CNN和预训练的3D-CNN模型从所选的关键帧和视频剪辑中提取空间和时间质量感知功能。最后,点云的视觉质量由回归的视频质量值表示。实验结果表明,所提出的方法可有效预测点云的视觉质量水平,甚至可以使用全参考(FR)PCQA方法竞争。消融研究进一步验证了提出的框架的合理性,并确认了从动态视图中提取的质量感知特征所做的贡献。
translated by 谷歌翻译
在过去的几十年中,盲目的图像质量评估(BIQA)旨在准确地预测图像质量而无需任何原始参考信息,但一直在广泛关注。特别是,在深层神经网络的帮助下,取得了巨大进展。但是,对于夜间图像(NTI)的BIQA的研究仍然较少,通常患有复杂的真实扭曲,例如可见性降低,低对比度,添加噪声和颜色失真。这些多样化的真实降解特别挑战了有效的深神网络的设计,用于盲目NTI质量评估(NTIQE)。在本文中,我们提出了一个新颖的深层分解和双线性池网络(DDB-NET),以更好地解决此问题。 DDB-NET包含三个模块,即图像分解模块,一个特征编码模块和双线性池模块。图像分解模块的灵感来自Itinex理论,并涉及将输入NTI解耦到负责照明信息的照明层组件和负责内容信息的反射层组件。然后,编码模块的功能涉及分别植根于两个解耦组件的降解的特征表示。最后,通过将照明相关和与内容相关的降解作为两因素变化进行建模,将两个特征集组合在一起,将双线汇总在一起以形成统一的表示,以进行质量预测。在几个基准数据集上进行了广泛的实验,已对所提出的DDB-NET的优势得到了很好的验证。源代码将很快提供。
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
图像裁切旨在在图像中找到视觉吸引力的作物,这是一项重要但具有挑战性的任务。在本文中,我们考虑了一种特定而实用的应用:以人为中心的图像种植,重点是对人的描绘。为此,我们提出了一种以人为中心的图像裁剪方法,该方法具有两种新型候选作物的特征设计:分区感知功能和内容保留功能。对于分区感知功能,我们将整个图像分为基于人类边界框的九个分区,并在人类信息上以不同条件的候选作物中处理不同的分区。为了提供内容的功能,我们预测了一个热图,表明要包含在良好农作物中的重要内容,并提取热图和候选作物之间的几何关系。广泛的实验表明,我们的方法可以在以人为中心的图像裁剪任务上对最新的图像裁剪方法有利。代码可从https://github.com/bcmi/human-centric-image-cropping获得。
translated by 谷歌翻译
360 {\ TextDegree}视频的盲目视觉质量评估(BVQA)在优化沉浸式多媒体系统中起着关键作用。在评估360 {\ TextDegree}视频的质量时,人类倾向于从每个球形帧的基于视口的空间失真来识别其在相邻帧中的运动伪影,以视频级质量分数为止,即渐进性质量评估范式。然而,现有的BVQA方法对于360 {\ TextDegree}视频忽略了这条范式。在本文中,我们考虑了人类对球面视频质量的逐步范例,因此提出了一种新颖的BVQA方法(即ProvQA),通过逐步学习从像素,帧和视频中逐步学习。对应于像素,帧和视频的渐进学习,三个子网被设计为我们的PROPQA方法,即球形感知感知质量预测(SPAQ),运动感知感知质量预测(MPAQ)和多帧时间非本地(MFTN)子网。 SPAQ子网首先模拟基于人的球面感知机制的空间质量下降。然后,通过跨越相邻帧的运动提示,MPAQ子网适当地结合了在360 {\ TextDegree}视频上的质量评估的运动上下文信息。最后,MFTN子网聚集多帧质量劣化,通过探索来自多个帧的长期质量相关性来产生最终质量分数。实验验证了我们的方法在两个数据集中的360 {\ TextDegree}视频上显着提高了最先进的BVQA性能,该代码是公共\ url {https://github.com/yanglixiaoshen/的代码Provqa。}
translated by 谷歌翻译
图像质量评估(IQA)对基于图像的应用程序的重要性越来越重要。其目的是建立一种可以代替人类的模型,以准确评估图像质量。根据参考图像是否完整且可用,图像质量评估可分为三类:全引用(FR),减少参考(RR)和非参考(NR)图像质量评估。由于深度学习的蓬勃发展和研究人员的广泛关注,近年来提出了基于深度学习的几种非参考图像质量评估方法,其中一些已经超过了引人注目甚至全参考图像的性能质量评估模型。本文将审查图像质量评估的概念和指标以及视频质量评估,简要介绍了一些完整参考和半参考图像质量评估的方法,并专注于基于深度学习的非参考图像质量评估方法。然后介绍常用的合成数据库和现实世界数据库。最后,总结和呈现挑战。
translated by 谷歌翻译
基于深度学习的技术为自动图像质量评估(IQA)领域的显着进步做出了贡献。现有的IQA方法旨在根据图像级别(即整个图像)或贴片级(将图像分为多个单元和测量每个图像的质量在图像级别(即整个图像)处的平均意见分数(MOS)来衡量图像的质量修补)。某些应用可能需要评估像素级别(即每个像素的MOS值)处的质量,但是,由于其网络结构而丢失了空间信息,因此在现有技术的情况下不可能评估这是不可能的。本文提出了一种IQA算法,除图像级MOS外,还可以测量像素级的MOS。提出的算法由三个核心部分组成,即:i)本地IQA; ii)感兴趣的区域(ROI)预测; iii)高级功能嵌入。本地IQA部件在像素级或像素MOS上输出MOS - 我们称其为“ PMOS”。 ROI预测部分输出的权重来计算图像级IQA时区域的相对重要性。嵌入零件的高级特征提取高级图像特征,然后将其嵌入到本地IQA部分中。换句话说,提出的算法产生三个输出:代表每个像素的MOS的PMO,来自ROI的权重表示区域的相对重要性,最后是通过PMOS和ROI加权总和获得的图像级MOS值。与现有流行的IQA技术相比,通过使用PMO和ROI权重获得的图像级MOS表现出较高的性能。此外,可视化结果表明,预测的PMO和ROI输出与人类视觉系统(HVS)的一般原理相当一致。
translated by 谷歌翻译
Recent progress on salient object detection is substantial, benefiting mostly from the explosive development of Convolutional Neural Networks (CNNs). Semantic segmentation and salient object detection algorithms developed lately have been mostly based on Fully Convolutional Neural Networks (FCNs). There is still a large room for improvement over the generic FCN models that do not explicitly deal with the scale-space problem. Holistically-Nested Edge Detector (HED) provides a skip-layer structure with deep supervision for edge and boundary detection, but the performance gain of HED on saliency detection is not obvious. In this paper, we propose a new salient object detection method by introducing short connections to the skip-layer structures within the HED architecture. Our framework takes full advantage of multi-level and multi-scale features extracted from FCNs, providing more advanced representations at each layer, a property that is critically needed to perform segment detection. Our method produces state-of-theart results on 5 widely tested salient object detection benchmarks, with advantages in terms of efficiency (0.08 seconds per image), effectiveness, and simplicity over the existing algorithms. Beyond that, we conduct an exhaustive analysis on the role of training data on performance. Our experimental results provide a more reasonable and powerful training set for future research and fair comparisons.
translated by 谷歌翻译
为了支持迫切需要高分辨率(HR)图像的应用程序方案,开发了各种单个图像超分辨率(SISR)算法。但是,SISR是一个不良的逆问题,可能会将诸如纹理转移,模糊等的伪像到重建图像中,因此有必要评估超分辨率图像(SRIS)的质量。请注意,大多数现有的图像质量评估(IQA)方法都是用于合成扭曲的图像的,这可能对SRI不起作用,因为它们的扭曲更加多样化和复杂。因此,在本文中,我们提出了一种基于频率图的无参考图像质量评估方法,因为SISR算法引起的伪像对频率信息非常敏感。具体而言,我们首先通过使用SOBEL操作员和分段光滑的图像近似来获得SRI的高频图(HM)和低频图(LM)。然后,使用两个流网络来提取两个频率图的质量感知特征。最后,使用完全连接的图层将功能回归单个质量值。实验结果表明,我们的方法的表现均优于所有的三种超分辨率质量评估(SRQA)数据库中的IQA模型。
translated by 谷歌翻译
With the wide applications of colored point cloud in many fields, point cloud perceptual quality assessment plays a vital role in the visual communication systems owing to the existence of quality degradations introduced in various stages. However, the existing point cloud quality assessments ignore the mechanism of human visual system (HVS) which has an important impact on the accuracy of the perceptual quality assessment. In this paper, a progressive knowledge transfer based on human visual perception mechanism for perceptual quality assessment of point clouds (PKT-PCQA) is proposed. The PKT-PCQA merges local features from neighboring regions and global features extracted from graph spectrum. Taking into account the HVS properties, the spatial and channel attention mechanism is also considered in PKT-PCQA. Besides, inspired by the hierarchical perception system of human brains, PKT-PCQA adopts a progressive knowledge transfer to convert the coarse-grained quality classification knowledge to the fine-grained quality prediction task. Experiments on three large and independent point cloud assessment datasets show that the proposed no reference PKT-PCQA network achieves better of equivalent performance comparing with the state-of-the-art full reference quality assessment methods, outperforming the existed no reference quality assessment network.
translated by 谷歌翻译
令人难忘性测量在闪光后将容易记忆的难忘,这可能有助于设计杂志盖板,旅游宣传材料等。最近的作品对令人难忘的通用图像,对象图像或面部照片的可视化功能。然而,这些方法不能有效地预测户外自然场景图像的令人难忘性。为了克服以前作品的这种缺点,在本文中,我们提供了回答:“究竟是什么让户外自然场景令人难忘的东西”。为此,我们首先建立大规模的户外自然场景图像难忘(LNSIM)数据库,其中包含2,632个户外自然场景图像,其基础令人难忘分数和多标签场景类别注释。然后,类似于以前的作品,我们挖掘了我们的数据库,调查了如何影响户外自然场景的令人难忘程度,中高水平和高水平的手工业。特别是,我们发现场景类别的高级特征与户外自然场景难忘相当相关,深神经网络(DNN)学习的深度特征在预测令人难忘分数方面也是有效的。此外,将具有类别特征的深度特征组合可以进一步提高难忘预测的性能。因此,我们提出了基于端到端的DNN的户外自然场景难忘(DeepnSM)预测器,其利用了学习的类别相关的特征。然后,实验结果验证了我们深度的模型的有效性,超出了最先进的方法。最后,我们试图了解我们Deepnsm模型的良好表现的原因,并研究了我们的Deepnsm模型成功或未能准确预测户外自然场景的令人难忘的情况。代码:github.com/jiaxinlu-home/natural-cene-memorability-dataset。
translated by 谷歌翻译
图像的美学质量被定义为图像美的度量或欣赏。美学本质上是一个主观性的财产,但是存在一些影响它的因素,例如图像的语义含量,描述艺术方面的属性,用于射击的摄影设置等。在本文中,我们提出了一种方法基于语义含量分析,艺术风格和图像的组成的图像自动预测图像的美学。所提出的网络包括:用于语义特征的预先训练的网络,提取(骨干网);依赖于骨干功能的多层的Perceptron(MLP)网络,用于预测图像属性(attributeNet);一种自适应的HyperNetwork,可利用以前编码到attributeNet生成的嵌入的属性以预测专用于美学估计的目标网络的参数(AestheticNet)。鉴于图像,所提出的多网络能够预测:风格和组成属性,以及美学分数分布。结果三个基准数据集展示了所提出的方法的有效性,而消融研究则更好地了解所提出的网络。
translated by 谷歌翻译
在这项工作中,我们介绍了梯度暹罗网络(GSN)进行图像质量评估。所提出的方法熟练地捕获了全参考图像质量评估(IQA)任务中扭曲的图像和参考图像之间的梯度特征。我们利用中央微分卷积获得图像对中隐藏的语义特征和细节差异。此外,空间注意力指导网络专注于与图像细节相关的区域。对于网络提取的低级,中级和高级功能,我们创新设计了一种多级融合方法,以提高功能利用率的效率。除了常见的均方根错误监督外,我们还进一步考虑了批处理样本之间的相对距离,并成功地将KL差异丢失应用于图像质量评估任务。我们在几个公开可用的数据集上试验了提出的算法GSN,并证明了其出色的性能。我们的网络赢得了NTIRE 2022感知图像质量评估挑战赛1的第二名。
translated by 谷歌翻译
随着非专家们拍摄的野外视频的快速增长,盲目视频质量评估(VQA)已成为一个具有挑战性且苛刻的问题。尽管已经做出了许多努力来解决这个问题,但尚不清楚人类视觉系统(HVS)与视频的时间质量有何关系。同时,最近的工作发现,自然视频的框架变成了HV的感知领域,往往会形成表示形式的直线轨迹。通过获得的洞察力,即失真会损害感知的视频质量并导致感知表示的弯曲轨迹,我们提出了一个时间感知质量指数(TPQI),以通过描述表示形式的图形形态来测量时间失真。具体而言,我们首先从HVS的横向基因核(LGN)和主要视觉区域(V1)中提取视频感知表示,然后测量其轨迹的直率和紧凑性,以量化视频的自然性和内容连续性的降解。实验表明,HVS中的感知表示是一种预测主观时间质量的有效方法,因此TPQI首次可以实现与空间质量度量的可比性能,并且在评估具有较大时间变化的视频方面更加有效。我们进一步证明,通过与NIQE(空间质量指标)结合使用,TPQI可以在流行的野外视频数据集中实现最佳性能。更重要的是,除了要评估的视频之外,TPQI不需要任何其他信息,因此可以将其应用于任何数据集,而无需参数调整。源代码可在https://github.com/uolmm/tpqi-vqa上找到。
translated by 谷歌翻译
无参考图像质量评估(NR-IQA)的目标是根据主观评估来估计感知图像质量,由于不存在原始参考图像,它是复杂和未解决的问题。在本文中,我们提出了一种新颖的模型来解决NR-IQA任务,利用卷积神经网络(CNNS)和变压器中的自我关注机制来解决来自输入图像的本地和非局部特征的混合方法来解决NR-IQA任务。我们通过CNN捕获图像的局部结构信息,然后避免提取的CNNS特征之间的局部偏压并获得图像的非本地表示,我们利用所提取的特征上的变压器,其中我们将它们塑造为顺序输入变压器模型。此外,为了改善主观和目标分数之间的单调性相关性,我们利用每个批处理内图像之间的相对距离信息,并强制执行它们之间的相对排名。最后但并非最不重要的是,我们观察到NR-IQA模型的性能在我们应用于输入到输入时申请等级变换(例如水平翻转)。因此,我们提出了一种利用自我保持性作为自我监督来源的方法,以改善NRIQA模型的鲁棒性。具体而言,我们为每个图像的质量评估模型的输出和其转换(水平翻转)强制实施自我一致性,以利用丰富的自我监控信息,并降低模型的不确定性。为了展示我们工作的有效性,我们在七个标准IQA数据集(合成和真实)上评估它,并显示我们的模型在各种数据集上实现最先进的结果。
translated by 谷歌翻译