Transkribus no fazer filológico

um relato de experiência

Autores

DOI:

https://doi.org/10.24206/lh.v11i2.66189

Palavras-chave:

Filologia, Humanidades Digitais, Transkribus, Edição de Manuscritos, Reconhecimento automático de texto (HTR)

Resumo

Buscando compreender um pouco mais o uso do Transkribus no fazer filológico, esse artigo narra a experiência de seu uso em uma pesquisa de pós-graduação, em que um modelo HTR foi criado e aplicado em um Livro de Atas, e a transcrição gerada foi exportada e editada. O artigo também narra brevemente o percurso histórico do Transkribus, seu funcionamento e o funcionamento do HTR, buscando trazer mais elementos à discussão para basear as escolhas e análises de outros pesquisadores. Descobrimos que o uso do Transkribus para a transcrição já é consolidado em diversas pesquisas, e pode ser bastante útil, inclusive para Filólogos, especialmente para transcrição de grandes volumes de texto. As ressalvas se dão na exportação da transcrição (e posterior transformação em edição) e os riscos inerentes às tecnologias digitais.

Downloads

Não há dados estatísticos.

Biografia do Autor

Ana T. Depizzolatti, USP

Analista Legislativa da Assembleia Legislativa do Estado de Santa Catarina (ALESC). Doutoranda em Filologia e Língua Portuguesa pela Universidade de São Paulo (USP). Bacharel em Biblioteconomia pela Universidade Federal de Santa Catarina (UFSC), Curso Superior em Gestão Pública pela Universidade do Sul de Santa Catarina (UNISUL), Especialização em Administração, Gestão Pública e Políticas Sociais pela Faculdade Dom Bosco e Especialização em Conservação e Restauração de documentos em suporte de papel pela UFSC.

Manoel Mourivaldo Santiago-Almeida, USP

Professor Titular da Universidade de São Paulo-USP. Chefe do Departamento de Letras Clássicas e Vernáculas (2017-2021 e 2022-2024). Coordenador do programa de pós-graduação Filologia e Língua Portuguesa (2007-2010). FORMAÇÃO: Graduação em Letras-Português e Francês (1989) e Especialização em Linguística (1993) na Universidade Federal de Mato Grosso-UFMT; Doutorado direto em Letras-Filologia e Língua Portuguesa (2000) e Livre-Docência em Fonética e Fonologia do Português (2009) na USP. Estudo complementar em Dialetologia Portuguesa (1998) e Estágio de pesquisa pós-doutoral em Dialetometria (atual) na Universidade de Lisboa. Estágio de pesquisa pós-doutoral em dialetologia na Universidade de Augsburg - Alemanha (2022). Estágio de pesquisa pós-doutoral em Crítica Textual na Universidade Federal de Minas Gerais (2015). 

Referências

BOMMASANI, Rishi; et al. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258, 2021. Disponível em: https://arxiv.org/pdf/2108.07258. Acesso em: 17 out. 2024.

CLAUSNER, Christian; PLETSCHACHER, Stefan; ANTONACOPOULOS, Apostolos. Aletheia: an advanced document layout and text ground-truthing system for production environments. In: INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR), 2011, Beijing. Proceedings […]. Beijing: IEEE, 2011. p. 48-52. Disponível em: https://www.primaresearch.org/www/assets/papers/ICDAR2011_Clausner_Aletheia.pdf. Acesso em: 19 fev. 2025.

CUÉLLAR, Álvaro. La Inteligencia Artificial al rescate del Siglo de Oro: transcripción y modernización automática de mil trescientos impresos y manuscritos teatrales. Hipogrifo. Revista de literatura y cultura del Siglo de Oro, v. 11, n. 1, p. 1-22, 2023. Disponível em: https://www.revistahipogrifo.com/index.php/hipogrifo/article/view/1262. Acesso em: 17 out. 2024.

DEPIZZOLATTI, A. T. ; PEROZO-VASQUEZ, Joel G. ; SANTIAGO-ALMEIDA, M. M. . Inteligencia artificial y las humanidades: uso del TRANSKRIBUS en la transcripción de manuscritos. In: XIII CONGRESO UNIVERSITARIO INTERNACIONAL SOBRE CONTENIDOS, INVESTIGACIÓN, INNOVACIÓN Y DOCENCIA - CUICIID 2023, 2023, Madrid. Libro de Actas del Congreso CUICIID 2023. Madrid: Forum XXI - UCM, 2023. P. 985, ISBN 978-84-09-48185-9. DOI: 10.15178/CUICIID2023 Disponível em: http://doi.org/10.15178/CUICIID2023. Acesso em: 17 out. 2024.

E-MANUSCRIPTA.CH. Biblioteca digital de manuscritos suíços. Disponível em: https://www.e-manuscripta.ch/. Acesso em: 19 fev. 2025.

EMILIANO, António. Tipo medieval para computador: uma ferramenta informática para filólogos, historiadores da língua e paleógrafos. Signo: Revista de História da Cultura Escrita, v. 15, 2005, p. 139-176. ISSN 1134-1165. Disponível em: https://ebuah.uah.es/dspace/handle/10017/7624. Acesso em: 17 out. 2024.

EUROPEAN COMMISSION. Recognition and Enrichment of Archival Documents (READ). Community Research And Development Information Service CORDIS (Luxemburgo). Disponível em: https://cordis.europa.eu/project/id/674943/reporting. Acesso em: 17 out. 2024.

KAHLE, P.; COLUTTO, S.; HACKL, G.; MUHLBERGER, G. Transkribus: a service platform for transcription, recognition and retrieval of historical documents. In: INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION, 14., 2017, Kyoto. Anais [...]. Kyoto: IEEE, 2017. Disponível em: https://doi.org/10.1109/icdar.2017.307. Acesso em: 17 out. 2024

KHAN, Salman et al. Transformers in vision: a survey. ACM Computing Surveys, v. 54, n. 10s, p. 200, jan. 2022. DOI: 10.1145/3505244. Disponível em: https://doi.org/10.1145/3505244. Acesso em: 17 out. 2024.

LI, Minghao; et al. TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models. Proceedings of the AAAI Conference on Artificial Intelligence, v. 37, n. 11, p. 13094-13102, 2022. DOI: 10.1609/aaai.v37i11.26538. Disponível em: https://ojs.aaai.org/index.php/AAAI/article/view/26538. Acesso em: 17 out. 2024.

MASSOT, Marie-Laure; SFORZINI, Arianna; VENTRESQUE, Vincent. Transcribing Foucault’s handwriting with Transkribus. Journal of Data Mining and Digital Humanities, 2019. Disponível em: https://hal.science/hal-01913435v3. Acesso em: 17 out. 2024.

MEMON, Jamshed; SAMI, Maira; KHAN, Rizwan Ahmed; UDDIN, Mueen. Handwritten optical character recognition (OCR): a comprehensive systematic literature review. IEEE Access, v. 8, p. 142642-142668, 2020. Disponível em: https://doi.org/10.1109/ACCESS.2020.3012542. Acesso em: 17 out. 2024.

MUEHLBERGER, G.; et al. Transforming scholarship in the archives through handwritten text recognition Transkribus as a case study. Journal of Documentation. v. 75, n. 5, p. 954-976, 2019. Disponível em: https://doi.org/10.1108/JD-07-2018-0114. Acesso em: 17 out. 2024.

NOCKELS, J.; GOODING, P.; AMES, S.; et al. Understanding the application of handwritten text recognition technology in heritage contexts: a systematic review of Transkribus in published research. Archival Science, v. 22, p. 367-392, 2022. Disponível em: https://doi.org/10.1007/s10502-022-09397-0. Acesso em: 17 out. 2024.

NOCKELS, J.; BENS, P.; TERRAS, M. As implicações do reconhecimento de texto manuscrito para acessar o passado em escala. Jornal de Documentação, v. 80, n. 7, p. 148-167, 2024. Disponível em: https://doi.org/10.1108/JD-09-2023-0183. Acesso em: 17 out. 2024.

PRImA Research. Aletheia Document Analysis System. Disponível em: https://www.primaresearch.org/tools/Aletheia. Acesso em: 19 fev. 2025.

READ-COOP. Transkribus. Disponível em: https://www.transkribus.org/. Acesso em: 19 out. 2024.

RUIZ-PARRADO, Victoria; HERADIO, Ruben; ARANDA-ESCOLASTICO, Ernesto; SÁNCHEZ, Ángel; VÉLEZ, José F. A bibliometric analysis of off-line handwritten document analysis literature (1990–2020). Pattern Recognition, v. 125, p. 108513, 2022. DOI: 10.1016/j.patcog.2021.108513. Disponível em: https://doi.org/10.1016/j.patcog.2021.108513 Acesso em: 17 out. 2024.

SANTIAGO-ALMEIDA, M.M. De filho e mesquita a pessoa e assis. Polifonia, [S. l.], v. 18, n. 23, 2011. Disponível em: https://periodicoscientificos.ufmt.br/ojs/index.php/polifonia/article/view/28. Acesso em: 30 out. 2024.

SCHMIDHUBER, Jürgen. Deep learning in neural networks: An overview. Neural Networks, v. 61, p. 85-117, 2015. Disponível em: https://doi.org/10.1016/j.neunet.2014.09.003. Acesso em: 30 out. 2024.

SINHA, Swati; GURAV, Yash; BHAGAT, Priyanka; JADHAV, Rajeshri. A review of literature on handwritten text recognition. International Journal of Research in Engineering, Science and Management, v. 3, n. 2, p. 616-619, fev. 2020. Disponível em: https://www.ijresm.com/Vol.3_2020/Vol3_Iss2_February20/IJRESM_V3_I2_159.pdf. Acesso em: 17 out. 2024.

STOKES, P.; KIESSLING, B.; STÖKL BEN EZRA, D.; TISSOT, R.; GARGEM, E. H. The eScriptorium VRE for Manuscript Cultures. In: CLIVAZ, C.; ALLEN, G. V. (Ed.). Classics@ Journal, Ancient Manuscripts and Virtual Research Environments, n. 18, 2021. Disponível em: https://classics-at.chs.harvard.edu/classics18-stokes-kiessling-stokl-ben-ezra-tissot-gargem/. Acesso em: 19 fev. 2025.

STRÖBEL, Phillip Benjamin; CLEMATIDE, Simon; HODEL, Tobias; VOLK, Martin. Transformer-based HTR for Historical Documents. In: WORKSHOP ON COMPUTATIONAL METHODS IN THE HUMANITIES, 2022, Lausanne. Anais [...] Lausanne: [s.n.], 2022. Disponível em: https://doi.org/10.48550/arXiv.2203.11008 Acesso em: 17 out. 2024.

TERRAS, Melissa. The role of the library when computers can read: critically adopting handwritten text recognition (HTR) technologies to support research. In: HERVIEUX, Sandy; WHEATLEY, Amanda (Ed.). The rise of AI: implications and applications of artificial intelligence in academic libraries. 1. ed. Chicago: American Library Association, 2022. p. 137-149. Disponível em: https://www.research.ed.ac.uk/files/255303209/Rise_of_AI_Chapter_11.pdf. Acesso em: 17 out. 2024.

VASWANI, Ashish; et al. Attention is all you need. In: Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS 2017). Long Beach, CA, USA, 2017. p. 5998-6008. Disponível em: https://arxiv.org/pdf/1706.03762. Acesso em: 17 out. 2024.

VINJIT, B. M.; BHOJAK, M. K.; KUMAR, S.; CHALAK, G. A review on handwritten character recognition methods and techniques. In: INTERNATIONAL CONFERENCE ON COMMUNICATION AND SIGNAL PROCESSING (ICCSP), 2020, Chennai. Anais [...]. Chennai: IEEE, 2020. p. 1224-1228. Disponível em: https://doi.org/10.1109/ICCSP48568.2020.9182129. Acesso em: 17 out. 2024.

WANG, Yintong; XIAO, Wenjie; LI, Shuo. Offline handwritten text recognition using deep learning: a review. Journal of Physics: Conference Series, v. 1848, n. 1, p. 012015, abr. 2021. DOI: 10.1088/1742-6596/1848/1/012015. Disponível em: https://doi.org/10.1088/1742-6596/1848/1/012015 Acesso em: 17 out. 2024.

WEBER, Andreas; AMERYAN, Mahya; WOLSTENCROFT, Katherine; STORK, Lise; HEERLIEN, Maarten; SCHOMAKER, Lambert. Towards a Digital Infrastructure for Illustrated Handwritten Archives. In: IOANNIDES, Marinos (Ed.). Digital Cultural Heritage. Lecture Notes in Computer Science, v. 10605. Springer, 2018. p. 155-166. DOI: 10.1007/978-3-319-75826-8_13.

Downloads

Publicado

03-09-2025