2D Positional Embedding-based Transformer for Scene Text Recognition

Zobeir Raisi; Mohamed A. Naiel; Paul Fieguth; Steven Wardell; John Zelek

doi:10.15353/jcvis.v6i1.3533

Vol. 6 No. 1 (2020)
Special Issue: Proceedings of CVIS 2020

Articles

2D Positional Embedding-based Transformer for Scene Text Recognition

https://doi.org/10.15353/jcvis.v6i1.3533

Published 2021-01-15

Zobeir Raisi
Mohamed A. Naiel
Paul Fieguth
Steven Wardell
John Zelek

Zobeir Raisi
University of Waterloo

Mohamed A. Naiel
University of Waterloo

Paul Fieguth
University of Waterloo

Steven Wardell
ATS Automation Tooling Systems

John Zelek
University of Waterloo

How to Cite

Raisi, Z., Naiel, M. A., Fieguth, P., Wardell, S., & Zelek, J. (2021). 2D Positional Embedding-based Transformer for Scene Text Recognition. Journal of Computational Vision and Imaging Systems, 6(1), 1–4. https://doi.org/10.15353/jcvis.v6i1.3533

Download Citation

Abstract

Recent state-of-the-art scene text recognition methods are primarily based on Recurrent Neural Networks (RNNs), however, these methods require one-dimensional (1D) features and are not designed for recognizing irregular-text instances due to the loss of spatial information present in the original two-dimensional (2D) images. In this paper, we leverage a Transformer-based architecture for recognizing both regular and irregular text-in-the-wild images. The proposed method takes advantage of using a 2D positional encoder with the Transformer architecture to better preserve the spatial information of 2D image features than previous methods. The experiments on popular benchmarks, including the challenging COCO-Text dataset, demonstrate that the proposed scene text recognition method outperformed the state-of-the-art in most cases, especially on irregular-text recognition.

PDF