对于数字化或索引物理文档,光学特征识别(OCR)是从扫描文档中提取文本信息的过程,是一项重要技术。当文档在视觉上损坏或包含非文本元素时,现有技术会产生差的结果,因为错误的检测结果可能会极大地影响OCR的质量。在本文中,我们提出了一个针对商务文件的businet的检测网络。业务文件通常包括敏感信息,因此无法将其上传到OCR的云服务。Businet被设计为快速和轻巧,因此可以在本地避免使用隐私问题。此外,Businet旨在使用专门的合成数据集来处理扫描的文档损坏和噪声。通过采用对抗性训练策略,该模型可实现可观的噪音。我们对可公开可用的数据集进行评估,以证明我们的模型的有用性和广泛适用性。
translated by 谷歌翻译
存储在文档中的信息的数字转换是知识的伟大来源。与文本文本相比,嵌入式文档图形的转换,例如图表和地图,已经探讨了。我们介绍了一种方法和系统,用于将文档图表的端到端转换为机器读取的表格数据格式,可以在数字域中容易地存储和分析。我们的方法提取和分析图表以及其图形元素和支持结构,例如图例,轴,标题和标题。我们的检测系统基于神经网络,完全培训了合成数据,消除了数据收集的限制因素。与以前的方法相反,我们的网络使用边界盒检测图形元素,我们的网络特征辅助域特定的热带预测,可以精确地检测不适合矩形边界推定的饼图,线和散点图。定性和定量结果显示出高的稳健性和精确度,改善了以前的流行基准
translated by 谷歌翻译
学习电子健康记录(EHRS)表示是一个杰出但未被发现的研究主题。它受益于各种临床决策支持应用,例如药物结果预测或患者相似性搜索。当前的方法集中在特定于任务的标签监督上,对矢量化的顺序EHR,这不适用于大规模无监督的方案。最近,对比度学习在自我监督的代表性学习问题上显示出巨大的成功。但是,复杂的时间性通常会降低表现。我们提出了图形内核信息,这是EHR图形表示的一种自我监督的图内学习方法,以克服先前的问题。与最新的艺术品不同,我们不会更改图形结构以构建增强视图。取而代之的是,我们使用内核子空间扩展将节点嵌入两个几何不同的流形视图中。整个框架是通过通过常用的对比目标在这两种歧管视图上对比的节点和图形表示训练的。从经验上讲,使用公开可用的基准EHR数据集,我们的方法在超过最先进的临床下游任务上产生了表现。从理论上讲,距离指标的变化自然会在不改变图形结构的情况下创建不同的视图作为数据增强。
translated by 谷歌翻译