Noticias

Publicado el 22 de enero de 2026 Actualizado el 22 de enero de 2026

32.000 manuscritos medievales transcritos mediante I.A.

Un reto colosal brillantemente superado... y más de 200.000 manuscritos a la vista

Transcribir un manuscrito medieval siempre ha sido una tarea que ha llevado mucho tiempo. Se trata de transcribir un texto manuscrito a partir de soportes antiguos y en lenguas casi desaparecidas, como el francés antiguo y el latín, así como lenguas regionales de España e Italia, como el veneciano, el neerlandés antiguo y muchas otras. También hubo dificultades relacionadas con contextos desconocidos y con la ortografía de las palabras, que aún no se había estabilizado en aquella época, como el uso del ampersand o de la "f" en lugar de la "s".

Como consecuencia, cada transcriptor desarrollaba y aplicaba sus propias normas de transcripción, lo que hacía casi imposible entrenar a una IA.

Esta es la tarea en la que ha estado trabajando el equipo del proyecto ALMANACH, en el Centro Inria de París, con el objetivo de estandarizar las normas de interpretación y, con el tiempo, entrenar una Inteligencia Artificial que automatice el proceso. Este es el reto del proyecto CATMus.

La primera etapa consistió en analizar 300 manuscritos medievales, ya transcritos según normas bien establecidas, respetando la ortografía y las abreviaturas.

"El segundo paso fue utilizar este corpus para entrenar un modelo basado en inteligencia artificial. Se basa en herramientas de transcripción desarrolladas por la EPHE-Université PSL: eScriptorium y Kraken. ¿Cuáles son sus ventajas? Es eficiente desde el punto de vista energético y, sobre todo, se centra más en el reconocimiento de imágenes que en la comprensión del lenguaje, lo que evita la extrapolación excesiva".

Una vez conseguido esto, en 2024 tomó el relevo el proyecto CoMMA (Corpus of Multilingual Medieval Archives), con el objetivo de poner a prueba la herramienta de transcripción. Primera etapa: búsqueda de manuscritos.

"Para ello, el equipo recurrió a EquipEx+ Biblissima+, que dispone de un catálogo de enlaces a versiones digitalizadas de más de 260.000 manuscritos, almacenados por diversas instituciones. Recibimos un total de 32.763 manuscritos, la mayoría en francés antiguo y latín, que transcribimos en cuatro meses".

Se habrían necesitado décadas para llevar a cabo esta tarea manualmente.

De hecho, el modelo utilizado se basa en dos algoritmos, uno encargado de reconocer los distintos elementos de la página (texto principal, notas, ilustraciones, etc.) y otro, desarrollado durante CATMuS, de transcribir los textos. Todo ello con una tasa de error muy baja, inferior al 10%, frente a una tasa mucho más elevada utilizando otros métodos, y sobre todo esta tasa puede reducirse aún más con el tiempo.

Este éxito no habría sido posible sin los conocimientos interdisciplinarios del equipo, incluidos los de paleografía.

"Los conocimientos digitales por sí solos no nos habrían permitido comprender tan bien los manuscritos que teníamos entre manos y los procesos que había que aplicarles".

El resultado es un inmenso acervo de conocimientos accesible a todas las disciplinas, desde la medicina a la filosofía, y que no hará sino aumentar, ya que más de 260.000 manuscritos en otras lenguas antiguas siguen a la espera de ser transcritos en toda Europa.

Para leer el artículo completo: CoMMA: miles de manuscritos medievales por fin transcritos - INRIA

Recursos

ecriptorium - https://escriptorium.readthedocs.io

Kraken - https://kraken.re

Almanaque - https://almanach.inria.fr/index-fr.html

Biblissima - https://projet.biblissima.fr/fr

Coma - https://huggingface.co/comma-project


Ilustración: Shutterstock - 2515480013

Más información sobre esta noticias

Visite inria.fr


Ver más noticias de esta institución
INRIA - Instituto Nacional de Investigación en Informática y Control

Domaine de Voluceau
Rocquencourt - B.P. 105
78153 Le Chesnay
France

Tél.: 33 (0)1 39 63 55 11

Contacto

Ver perfil

Superprof: la plataforma para encontrar los mejores profesores particulares en España.


Reciba nuestro dossier de la semana por correo electrónico

Manténgase informado sobre el aprendizaje digital en todas sus formas cada día. Ideas y recursos interesantes. ¡Disfrútelo, es gratis!