Raisi, Zobeir, et al. “2D Positional Embedding-Based Transformer for Scene Text Recognition”. Journal of Computational Vision and Imaging Systems, vol. 6, no. 1, Jan. 2021, pp. 1-4, doi:10.15353/jcvis.v6i1.3533.