Raisi, Zobeir, Mohamed A. Naiel, Paul Fieguth, Steven Wardell, and John Zelek. “2D Positional Embedding-Based Transformer for Scene Text Recognition”. Journal of Computational Vision and Imaging Systems 6, no. 1 (January 15, 2021): 1–4. Accessed July 6, 2025. https://openjournals.uwaterloo.ca/index.php/vsl/article/view/3533.