由于复杂的背景和文本实例的不同变化,场景文本识别是一项具有挑战性的任务。在本文中,我们提出了一个新颖的语义gan和平衡的注意网络(SGBANET),以识别场景图像中的文本。提出的方法首先使用语义gan生成简单的语义功能,然后使用平衡的注意模块识别场景文本。语义GAN旨在使支持域和目标域之间的语义特征分布对齐。与在图像级别执行的传统图像到图像翻译方法不同,语义GAN通过语义生成器模块(SGM)和语义歧视器模块(SDM)在语义级别执行生成和歧视。对于目标图像(场景文本图像),语义生成器模块生成简单的语义特征,这些功能与支持图像(清晰的文本图像)共享相同的特征分布。语义鉴别器模块用于区分支​​持域和目标域之间的语义特征。此外,平衡的注意模块旨在减轻注意力漂移的问题。平衡注意模块首先根据视觉瞥见向量和语义瞥见向量学习平衡参数,然后执行平衡操作以获得平衡的瞥见向量。在六个基准测试的实验,包括常规数据集,即IIIT5K,SVT,ICDAR2013和不规则数据集,即ICDAR2015,SVTP,cute80,验证我们提出的方法的有效性。
translated by 谷歌翻译