Transcribir un manuscrito medieval siempre ha sido una tarea que ha llevado mucho tiempo. Se trata de transcribir un texto manuscrito a partir de soportes antiguos y en lenguas casi desaparecidas, como el francés antiguo y el latín, así como lenguas regionales de España e Italia, como el veneciano, el neerlandés antiguo y muchas otras. También hubo dificultades relacionadas con contextos desconocidos y con la ortografía de las palabras, que aún no se había estabilizado en aquella época, como el uso del ampersand o de la "f" en lugar de la "s".
Como consecuencia, cada transcriptor desarrollaba y aplicaba sus propias normas de transcripción, lo que hacía casi imposible entrenar a una IA.
Esta es la tarea en la que ha estado trabajando el equipo del proyecto ALMANACH, en el Centro Inria de París, con el objetivo de estandarizar las normas de interpretación y, con el tiempo, entrenar una Inteligencia Artificial que automatice el proceso. Este es el reto del proyecto CATMus.
La primera etapa consistió en analizar 300 manuscritos medievales, ya transcritos según normas bien establecidas, respetando la ortografía y las abreviaturas.
"El segundo paso fue utilizar este corpus para entrenar un modelo basado en inteligencia artificial. Se basa en herramientas de transcripción desarrolladas por la EPHE-Université PSL: eScriptorium y Kraken. ¿Cuáles son sus ventajas? Es eficiente desde el punto de vista energético y, sobre todo, se centra más en el reconocimiento de imágenes que en la comprensión del lenguaje, lo que evita la extrapolación excesiva".
Una vez conseguido esto, en 2024 tomó el relevo el proyecto CoMMA (Corpus of Multilingual Medieval Archives), con el objetivo de poner a prueba la herramienta de transcripción. Primera etapa: búsqueda de manuscritos.
"Para ello, el equipo recurrió a EquipEx+ Biblissima+, que dispone de un catálogo de enlaces a versiones digitalizadas de más de 260.000 manuscritos, almacenados por diversas instituciones. Recibimos un total de 32.763 manuscritos, la mayoría en francés antiguo y latín, que transcribimos en cuatro meses".
Se habrían necesitado décadas para llevar a cabo esta tarea manualmente.
De hecho, el modelo utilizado se basa en dos algoritmos, uno encargado de reconocer los distintos elementos de la página (texto principal, notas, ilustraciones, etc.) y otro, desarrollado durante CATMuS, de transcribir los textos. Todo ello con una tasa de error muy baja, inferior al 10%, frente a una tasa mucho más elevada utilizando otros métodos, y sobre todo esta tasa puede reducirse aún más con el tiempo.
Este éxito no habría sido posible sin los conocimientos interdisciplinarios del equipo, incluidos los de paleografía.
"Los conocimientos digitales por sí solos no nos habrían permitido comprender tan bien los manuscritos que teníamos entre manos y los procesos que había que aplicarles".
El resultado es un inmenso acervo de conocimientos accesible a todas las disciplinas, desde la medicina a la filosofía, y que no hará sino aumentar, ya que más de 260.000 manuscritos en otras lenguas antiguas siguen a la espera de ser transcritos en toda Europa.
Para leer el artículo completo: CoMMA: miles de manuscritos medievales por fin transcritos - INRIA
Recursos
ecriptorium - https://escriptorium.readthedocs.io
Kraken - https://kraken.re
Almanaque - https://almanach.inria.fr/index-fr.html
Biblissima - https://projet.biblissima.fr/fr
Coma - https://huggingface.co/comma-project
Ilustración: Shutterstock - 2515480013
Más información sobre esta
noticias
Visite inria.fr
Ver más noticias de esta institución