智能论文笔记

SGBANet: Semantic GAN and Balanced Attention Network for Arbitrarily Oriented Scene Text Recognition

Dajian Zhong , Shujing Lyu , Palaiahnakote Shivakumara , Bing Yin , Jiajia Wu , Umapada Pal , Yue Lu

分类：计算机视觉

2022-07-21

由于复杂的背景和文本实例的不同变化，场景文本识别是一项具有挑战性的任务。在本文中，我们提出了一个新颖的语义gan和平衡的注意网络（SGBANET），以识别场景图像中的文本。提出的方法首先使用语义gan生成简单的语义功能，然后使用平衡的注意模块识别场景文本。语义GAN旨在使支持域和目标域之间的语义特征分布对齐。与在图像级别执行的传统图像到图像翻译方法不同，语义GAN通过语义生成器模块（SGM）和语义歧视器模块（SDM）在语义级别执行生成和歧视。对于目标图像（场景文本图像），语义生成器模块生成简单的语义特征，这些功能与支持图像（清晰的文本图像）共享相同的特征分布。语义鉴别器模块用于区分支持域和目标域之间的语义特征。此外，平衡的注意模块旨在减轻注意力漂移的问题。平衡注意模块首先根据视觉瞥见向量和语义瞥见向量学习平衡参数，然后执行平衡操作以获得平衡的瞥见向量。在六个基准测试的实验，包括常规数据集，即IIIT5K，SVT，ICDAR2013和不规则数据集，即ICDAR2015，SVTP，cute80，验证我们提出的方法的有效性。

translated by 谷歌翻译