手写文档映像二值化由于书面内容和复杂的背景属性,如页面样式,纸张质量,污渍,阴影梯度和非均匀照明等复杂背景属性而挑战。虽然传统的阈值方法没有有效地推广在这种具有挑战性的真实情景中,但是在提供足够的训练数据时,基于深度的基于学习的方法表现得相对较好。但是,现有数据集的大小和多样性有限。这项工作提出了LS-HDIB - 一个大规模的手写文件映像二值化数据集,其中包含跨越众多真实情景的百万个文档图像。此外,我们介绍了一种新颖的技术,它使用自适应阈值和无缝克隆方法的组合来创建数据集,以准确的基础事实。通过广泛的定量和定性评估超过八种不同的基于深度学习的模型,我们在LS-HDIB数据集上培训并在看不见的图像上进行测试时,我们展示了这些模型的性能的增强。
translated by 谷歌翻译
如今,广泛使用了数字化文件,如科学文章,税务表,发票,合同文件和历史文本。由于各种原因,这些图像可能会劣化或损坏,包括捕获图像时的差的情况,阴影,扫描它们时,噪音和模糊,老化,墨水染色,通过,水印,印模等。文档图像增强和恢复在许多自动文档分析和识别任务中发挥至关重要的作用,例如使用光学字符识别(OCR)的内容提取。随着最近深入学习的进步,提出了许多方法来提高这些文档图像的质量。在本文中,我们审查了基于深入的学习方法,数据集和指标,用于不同的文档图像增强问题。我们提供全面概述六种不同文档图像增强任务的基于深度学习的方法,包括二值化,脱落,去噪,偏差,水印去除和暗影去除。我们总结了每个任务的主要最先进的工作,并讨论其特征,挑战和局限性。我们介绍了多个文件图像增强任务,这些任务不仅仅是注意力,包括在曝光和暴露校正和漏洞中,并识别未来研究的其他一些有前途的研究方向和机会。
translated by 谷歌翻译
本文介绍了用于文档图像分析的图像数据集的系统文献综述,重点是历史文档,例如手写手稿和早期印刷品。寻找适当的数据集进行历史文档分析是促进使用不同机器学习算法进行研究的关键先决条件。但是,由于实际数据非常多(例如,脚本,任务,日期,支持系统和劣化量),数据和标签表示的不同格式以及不同的评估过程和基准,因此找到适当的数据集是一项艰巨的任务。这项工作填补了这一空白,并在现有数据集中介绍了元研究。经过系统的选择过程(根据PRISMA指南),我们选择了56项根据不同因素选择的研究,例如出版年份,文章中实施的方法数量,所选算法的可靠性,数据集大小和期刊的可靠性出口。我们通过将其分配给三个预定义的任务之一来总结每个研究:文档分类,布局结构或语义分析。我们为每个数据集提供统计,文档类型,语言,任务,输入视觉方面和地面真实信息。此外,我们还提供了这些论文或最近竞争的基准任务和结果。我们进一步讨论了该领域的差距和挑战。我们倡导将转换工具提供到通用格式(例如,用于计算机视觉任务的可可格式),并始终提供一组评估指标,而不仅仅是一种评估指标,以使整个研究的结果可比性。
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
The efficient segmentation of foreground text information from the background in degraded color document images is a hot research topic. Due to the imperfect preservation of ancient documents over a long period of time, various types of degradation, including staining, yellowing, and ink seepage, have seriously affected the results of image binarization. In this paper, a three-stage method is proposed for image enhancement and binarization of degraded color document images by using discrete wavelet transform (DWT) and generative adversarial network (GAN). In Stage-1, we use DWT and retain the LL subband images to achieve the image enhancement. In Stage-2, the original input image is split into four (Red, Green, Blue and Gray) single-channel images, each of which trains the independent adversarial networks. The trained adversarial network models are used to extract the color foreground information from the images. In Stage-3, in order to combine global and local features, the output image from Stage-2 and the original input image are used to train the independent adversarial networks for document binarization. The experimental results demonstrate that our proposed method outperforms many classical and state-of-the-art (SOTA) methods on the Document Image Binarization Contest (DIBCO) dataset. We release our implementation code at https://github.com/abcpp12383/ThreeStageBinarization.
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
大规模的暗网(DW)平台的自动监测是发展主动网络威胁情报(CTI)的第一步。虽然有高效的方法用于从表面纤维网收集数据,但大规模的暗网络数据收集通常受到防爬爬措施的阻碍。特别是,基于文本的CAPTCHA是暗网中最普遍的和禁止这些措施的最普遍和禁止的类型。基于文本的CAPTCHA通过强制用户输入难以识别的字母数字字符的组合来识别和阻止自动爬虫。在暗网中,CAPTCHA图像被精心设计,具有额外的背景噪声和可变性格长度,以防止自动验证码断裂。现有的自动CAPTCHA断裂方法难以克服这些暗网挑战。因此,解决基于暗网络文本的CAPTCHA一直依赖于人类参与,这是劳动密集型且耗时的人。在这项研究中,我们提出了一种新颖的框架,用于自动破坏暗网CAPTCHA,以促进暗网络数据收集。该框架包括一种新的生成方法,可以识别基于黑色的Web文本的CAPTCHA,其中包含嘈杂的背景和可变字符长度。为了消除对人类参与的需求,所提出的框架利用生成的对抗网络(GaN)来抵消暗网背景噪声并利用增强的字符分割算法来处理具有可变字符长度的CAPTCHA图像。我们提出的框架DW-GaN在多个暗网络CAPTCHA测试台上进行了系统地评估。 DW-GaN在所有数据集中大大表现出最先进的基准方法,在仔细收集的真实世界黑色网络数据集中实现了超过94.4%的成功率......
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.
translated by 谷歌翻译
分析文档的布局以识别标题,部分,表,数字等对理解其内容至关重要。基于深度学习的检测文档图像布局结构的方法一直很有前途。然而,这些方法在训练期间需要大量注释的例子,这既昂贵又耗时。我们在这里描述了一个合成文档生成器,它自动产生具有用于空间位置,范围和布局元素类别的标签的现实文档。所提出的生成过程将文档的每个物理组件视为随机变量,并使用贝叶斯网络图模拟其内在依赖项。我们使用随机模板的分层制定允许在保留广泛主题之间的文档之间的参数共享,并且分布特性产生视觉上独特的样本,从而捕获复杂和不同的布局。我们经常说明纯粹在合成文档上培训的深层布局检测模型可以匹配使用真实文档的模型的性能。
translated by 谷歌翻译
现场文本识别(STR)已广泛研究学术界和工业。培训文本识别模型通常需要大量标记数据,但数据标签可能是困难,昂贵的或耗时的,尤其是对于传统的中国文本识别。据我们所知,缺乏传统文本认可的公共数据集。本文介绍了传统的中国合成数据引擎的框架,旨在提高文本识别模型性能。我们生成超过2000万遍的合成数据,并在7,000多个手动标记的数据TC-STR 7K-Word中收集为基准。实验结果表明,文本识别模型可以通过从头划痕与我们产生的合成数据或通过TC-STR 7K字进行进一步微调来实现更好的准确性。
translated by 谷歌翻译
文档布局分析(DLA)在信息提取和文档理解中起重要作用。目前,文件布局分析已达到里程碑成果,但是非曼哈顿的文件布局分析仍然是一项挑战。在本文中,我们提出了一种图像层建模方法来解决这一挑战。为了测量所提出的图像层建模方法,我们提出了一个名为FPD的手动标记的非曼哈顿布局细粒细分分段数据集。据我们所知,FPD是第一个手动标记的非曼哈顿布局细粒细分分段数据集。为了有效提取文档的细粒度特征,我们提出了一个名为L-E ^ 3Net的边缘嵌入网络。实验结果证明,我们提出的图像层建模方法可以更好地处理非曼哈顿布局的细粒度分段文件。
translated by 谷歌翻译
摄像头捕获的文档图像通常会遭受透视和几何变形的影响。在考虑视觉不良美学和OCR系统性能不断恶化时,纠正它们是很大的价值。最近的基于学习的方法将重点放在精确的文档图像上。但是,这可能不足以克服实际挑战,包括具有大边缘区域或没有边缘的文档图像。由于这种不切实际,用户在遇到大边缘区域时努力进行裁剪。同时,没有边距的脱瓦图像仍然是一个无法克服的问题。据我们所知,仍然没有完整有效的管道来纠正野外文档图像。为了解决这个问题,我们提出了一种称为Marior的新方法(删除边缘和\迭代内容纠正)。马里奥(Marior)遵循一种渐进策略,以粗到精细的方式迭代地改善脱水质量和可读性。具体而言,我们将管道分为两个模块:边缘去除模块(MRM)和迭代内容整流模块(ICRM)。首先,我们预测输入图像的分割面膜以删除边缘,从而获得初步结果。然后,我们通过产生密集的位移流以实现内容感知的整流来进一步完善图像。我们可以适应地确定改进的迭代次数。实验证明了我们方法在公共基准测试方面的最先进性能。资源可在https://github.com/zzzhang-jx/marior上获得,以进行进一步比较。
translated by 谷歌翻译
在本文中,我们介绍了一个新的建筑数据集,并提出了一种新颖的域泛化方法,以促进从高分辨率遥感图像中提取建筑物的开发。当前建筑数据集的问题涉及它们缺乏多样性,标签的质量不令人满意,并且几乎不用于培训具有良好概括能力的建筑提取模型,以便正确地评估模型在实践中的真实性能场景。为了解决这些问题,我们建立了一个名为WHU-MIX建筑数据集的多样化,大规模和高质量的建筑数据集,该数据集更加面向实践。 WHU-MIX建筑物数据集由一个培训/验证集组成,该培训/验证集包含来自世界各地的43,727个不同图像,以及一个测试集,其中包含来自五大洲其他五个城市的8402张图像。此外,为了进一步提高建筑物提取模型的概括能力,我们提出了一种名为批处理样式混合(BSM)的域概括方法,该方法可以嵌入建筑物的frond-end中,以嵌入为有效的插件模块提取模型,为模型提供逐渐更大的数据分布,以学习数据不变知识。这项研究中进行的实验证实了WHU-MIX建筑数据集的潜力,以提高建筑物提取模型的性能,与其他现有数据集相比,MIOU提高了6-36%。其他数据集中标签不准确的不利影响可能会导致约20%的IOU减少。该实验还证实了所提出的BSM模块在增强模型的概括能力和鲁棒性方面的高性能,超过了13%的基线模型,而MIOU中最新的域概括方法则超过了4-15%。
translated by 谷歌翻译
图像协调旨在调整前景的外观,使其更兼容背景。由于对背景照明方向缺乏了解,现有的作品无法产生现实的前景着色。在本文中,我们将图像协调分解为两个子问题:1)背景图像的照明估计和前景对象的渲染。在解决这两个子问题之前,我们首先通过神经渲染框架学习方向感知的照明描述符,其中密钥是一个着色模块,其将阴影场分解为给定深度信息的多个着色组件。然后我们设计背景照明估计模块,以从背景中提取方向感知的照明描述符。最后,照明描述符与神经渲染框架结合使用,以生成包含新颖谐波阴影的统一前景图像。此外,我们构建了一种照片 - 现实的合成图像协调数据集,其包含基于图像的照明的许多阴影变化。对该数据集的广泛实验证明了该方法的有效性。我们的数据集和代码将公开可用。
translated by 谷歌翻译
This study focuses on improving the optical character recognition (OCR) data for panels in the COMICS dataset, the largest dataset containing text and images from comic books. To do this, we developed a pipeline for OCR processing and labeling of comic books and created the first text detection and recognition datasets for western comics, called "COMICS Text+: Detection" and "COMICS Text+: Recognition". We evaluated the performance of state-of-the-art text detection and recognition models on these datasets and found significant improvement in word accuracy and normalized edit distance compared to the text in COMICS. We also created a new dataset called "COMICS Text+", which contains the extracted text from the textboxes in the COMICS dataset. Using the improved text data of COMICS Text+ in the comics processing model from resulted in state-of-the-art performance on cloze-style tasks without changing the model architecture. The COMICS Text+ dataset can be a valuable resource for researchers working on tasks including text detection, recognition, and high-level processing of comics, such as narrative understanding, character relations, and story generation. All the data and inference instructions can be accessed in https://github.com/gsoykan/comics_text_plus.
translated by 谷歌翻译
许多历史地图表将公开可用于需要长期历史地理数据的研究。这些地图的制图设计包括地图符号和文本标签的组合。从地图图像自动读取文本标签可以大大加快地图解释,并有助于生成描述地图内容的丰富元数据。已经提出了许多文本检测算法以自动定位地图图像中的文本区域,但大多数算法都在Off-Offain数据集(例如,景区图像)上培训。培训数据确定机器学习模型的质量,并在地图图像中手动注释文本区域是劳动力广泛且耗时的。另一方面,现有的地理数据源(例如Open-StreetMap(OSM))包含机器可读地图图层,允许我们分开文本图层并轻松获取文本标签注释。但是,OSM地图瓷砖和历史地图之间的制图样式显着不同。本文提出了一种自动生成无限量的注释历史地图图像的方法,用于训练文本检测模型。我们使用风格转移模型将当代地图图像转换为历史风格,并将文本标签放在上面。我们表明,最先进的文本检测模型(例如,PSENET)可以从合成历史地图中受益,并对历史地图文本检测进行显着改进。
translated by 谷歌翻译
Shadow removal improves the visual quality and legibility of digital copies of documents. However, document shadow removal remains an unresolved subject. Traditional techniques rely on heuristics that vary from situation to situation. Given the quality and quantity of current public datasets, the majority of neural network models are ill-equipped for this task. In this paper, we propose a Transformer-based model for document shadow removal that utilizes shadow context encoding and decoding in both shadow and shadow-free regions. Additionally, shadow detection and pixel-level enhancement are included in the whole coarse-to-fine process. On the basis of comprehensive benchmark evaluations, it is competitive with state-of-the-art methods.
translated by 谷歌翻译
在本文中,我们提出了一个文本降低不变的自动编码器(Text-Diae),这是一种旨在解决两个任务的自我监督模型,即文本识别(手写或场景文本)和文档图像增强。我们首先采用基于变压器的体系结构,该体系结构将三个借口任务作为学习目标,在预训练期间必须在不使用标签数据的情况下进行优化。每个借口目标都是专门针对最终下游任务量身定制的。我们进行了几项消融实验,以确认所选借口任务的设计选择。重要的是,所提出的模型并未基于对比损失表现出先前最新方法的局限性,而同时需要更少的数据样本来收敛。最后,我们证明我们的方法超过了手写和场景文本识别和文档图像增强的现有监督和自我监督的设置中的最新设置。我们的代码和训练有素的模型将在〜\ url {http:// on_accepters}上公开提供。
translated by 谷歌翻译
图像二进制技术通常用于增强嘈杂和/或退化的图像来迎合不同文档图像Anlaysis(DIA)应用(如单词斑点,文档检索和OCR)。大多数现有技术都集中在将像素图像馈送到卷积神经网络中以完成文档二进制化,这在使用不完全减压的情况下需要处理的压缩图像时可能不会产生有效的结果。因此,在本研究论文中,通过使用双重鉴别器生成对抗网络(DD-GAN),提出了使用JPEG压缩图像的文档图像二进制的想法。在这里,两个歧视者网络 - 全球和本地工作在不同的图像比率上,并将焦点损失用作发电机损失。提出的模型已通过不同版本的DIBCO数据集进行了彻底的测试,该数据集具有诸如孔,擦除或弄脏的墨水,灰尘和放错地方的挑战。在时间和空间复杂性方面,该模型被证明是高度鲁棒,有效的,并且还导致了JPEG压缩域中的最新性能。
translated by 谷歌翻译
当通过玻璃等半充实介质进行成像时,通常可以在捕获的图像中找到另一个场景的反射。它降低了图像的质量并影响其后续分析。在本文中,提出了一种新的深层神经网络方法来解决成像中的反射问题。传统的反射删除方法不仅需要长时间的计算时间来解决不同的优化功能,而且不能保证其性能。由于如今的成像设备可以轻松获得数组摄像机,因此我们首先在本文中建议使用卷积神经网络(CNN)采用基于多图像的深度估计方法。提出的网络避免了由于图像中的反射而引起的深度歧义问题,并直接估计沿图像边缘的深度。然后,它们被用来将边缘分类为属于背景或反射的边缘。由于具有相似深度值的边缘在分类中易于误差,因此将它们从反射删除过程中删除。我们建议使用生成的对抗网络(GAN)来再生删除的背景边缘。最后,估计的背景边缘图被馈送到另一个自动编码器网络,以帮助从原始图像中提取背景。实验结果表明,与最先进的方法相比,提出的反射去除算法在定量和定性上取得了出色的性能。与使用传统优化方法相比,所提出的算法还显示出比现有方法相比的速度要快得多。
translated by 谷歌翻译