32.000 manuscritos medievales transcritos mediante I.A.

Un reto colosal brillantemente superado... y más de 200.000 manuscritos a la vista

Transcribir un manuscrito medieval siempre ha sido una tarea que ha llevado mucho tiempo. Se trata de transcribir un texto manuscrito a partir de soportes antiguos y en lenguas casi desaparecidas, como el francés antiguo y el latín, así como lenguas regionales de España e Italia, como el veneciano, el neerlandés antiguo y muchas otras. También hubo dificultades relacionadas con contextos desconocidos y con la ortografía de las palabras, que aún no se había estabilizado en aquella época, como el uso del ampersand o de la "f" en lugar de la "s".

Como consecuencia, cada transcriptor desarrollaba y aplicaba sus propias normas de transcripción, lo que hacía casi imposible entrenar a una IA.

Esta es la tarea en la que ha estado trabajando el equipo del proyecto ALMANACH, en el Centro Inria de París, con el objetivo de estandarizar las normas de interpretación y, con el tiempo, entrenar una Inteligencia Artificial que automatice el proceso. Este es el reto del proyecto CATMus.

La primera etapa consistió en analizar 300 manuscritos medievales, ya transcritos según normas bien establecidas, respetando la ortografía y las abreviaturas.

"El segundo paso fue utilizar este corpus para entrenar un modelo basado en inteligencia artificial. Se basa en herramientas de transcripción desarrolladas por la EPHE-Université PSL: eScriptorium y Kraken. ¿Cuáles son sus ventajas? Es eficiente desde el punto de vista energético y, sobre todo, se centra más en el reconocimiento de imágenes que en la comprensión del lenguaje, lo que evita la extrapolación excesiva".

Una vez conseguido esto, en 2024 tomó el relevo el proyecto CoMMA (Corpus of Multilingual Medieval Archives), con el objetivo de poner a prueba la herramienta de transcripción. Primera etapa: búsqueda de manuscritos.

"Para ello, el equipo recurrió a EquipEx+ Biblissima+, que dispone de un catálogo de enlaces a versiones digitalizadas de más de 260.000 manuscritos, almacenados por diversas instituciones. Recibimos un total de 32.763 manuscritos, la mayoría en francés antiguo y latín, que transcribimos en cuatro meses".

Se habrían necesitado décadas para llevar a cabo esta tarea manualmente.

De hecho, el modelo utilizado se basa en dos algoritmos, uno encargado de reconocer los distintos elementos de la página (texto principal, notas, ilustraciones, etc.) y otro, desarrollado durante CATMuS, de transcribir los textos. Todo ello con una tasa de error muy baja, inferior al 10%, frente a una tasa mucho más elevada utilizando otros métodos, y sobre todo esta tasa puede reducirse aún más con el tiempo.

Este éxito no habría sido posible sin los conocimientos interdisciplinarios del equipo, incluidos los de paleografía.

"Los conocimientos digitales por sí solos no nos habrían permitido comprender tan bien los manuscritos que teníamos entre manos y los procesos que había que aplicarles".

El resultado es un inmenso acervo de conocimientos accesible a todas las disciplinas, desde la medicina a la filosofía, y que no hará sino aumentar, ya que más de 260.000 manuscritos en otras lenguas antiguas siguen a la espera de ser transcritos en toda Europa.

Para leer el artículo completo: CoMMA: miles de manuscritos medievales por fin transcritos - INRIA

Recursos

ecriptorium - https://escriptorium.readthedocs.io

Kraken - https://kraken.re

Almanaque - https://almanach.inria.fr/index-fr.html

Biblissima - https://projet.biblissima.fr/fr

Coma - https://huggingface.co/comma-project

Ilustración: Shutterstock - 2515480013

Más información sobre esta noticias

Visite inria.fr

Ver más noticias de esta institución

INRIA - Instituto Nacional de Investigación en Informática y Control

Domaine de Voluceau
Rocquencourt - B.P. 105
78153 Le Chesnay
France

Tél.: 33 (0)1 39 63 55 11

Contacto

Ver perfil

Noticias de Thot Cursus RSS
Lector RSS ? Feedly, NewsBlur

También te puede gustar:

PCBend : Origami electrónico

PCBend es un proceso de código abierto para plegar circuitos electrónicos. El resultado es sumamente interesante, sobre todo con componentes LED.

Descubrir las funciones ocultas de las aplicaciones de nuestro teléfono

Es difícil que las interfaces gráficas de las aplicaciones revelen toda su funcionalidad, y menos aún en los teléfonos, donde los menús se reducen a su mínima expresión. INRIA trabaja para mejorar la situación.

Aprendizaje gráfico para una inteligencia artificial frugal

Los datos modelizados en gráficos (que pueden ser multidimensionales) permiten detectar relaciones prácticamente invisibles en otras formas y, sobre todo, con muchos menos recursos computacionales y energéticos.

Agricultura y digital - Libro Blanco

Comprender, controlar, preparar, equipar y apoyar el despliegue de la tecnología digital en la agricultura y la cadena alimentaria. Hoy en día, los sectores agrícolas deben adaptarse a las cuestiones medioambientales (calentamiento global, colapso de la biodiversidad, reducción de los recursos, etc.), éticas (respeto del bienestar animal) y también garantizar el mantenimiento de un tejido rural vivo, basado en una agricultura "familiar" atractiva.

Edith: la gemela digital de la sanidad

Un gemelo digital en sanidad es un modelo de los sistemas de una persona con sus parámetros específicos... con muchas aplicaciones muy prácticas

Superprof: la plataforma para encontrar los mejores profesores particulares en España.

32.000 manuscritos medievales transcritos mediante I.A.

Un reto colosal brillantemente superado... y más de 200.000 manuscritos a la vista

Acceda a servicios exclusivos de forma gratuita