32 000 manuscrits médiévaux retranscrits grâce à l'I.A.

Un défi colossal relevé avec brio... et plus de 200 000 autres manuscrits en vue

La retranscription d'un manuscrit médiéval a toujours représenté un travail de longue haleine. Il s'agit de transcrire une écriture manuscrite à partir de supports vieillis et dans des langues disparues ou presque comme l'ancien français et le latin, mais aussi dans des langues régionales d’Espagne, d'Italie, comme le vénitien, le néerlandais ancien et bien d'autres. S'ajoutent aussi des difficultés liées à des contextes inconnus et aussi à la graphie des mots qui n'était pas encore stabilisée à cette époque, comme l'utilisation de l'esperluette ou du «f» à la place du «s».

Avec pour conséquence que chaque transcripteur développe et applique ses propres normes de transcription, ce qui rend presque impossible l'entrainement d'une I.A.

C'est la tâche sur laquelle s'est penchée l’équipe-projet ALMANACH du Centre Inria de Paris, avec pour but de standardiser les normes d'interprétation pour finalement en arriver à entrainer une Intelligence artificielle et automatiser le processus. C'est le défi du projet CATMus.

Le premier pas a été d'analyser 300 manuscrits médiévaux, déjà transcrits, avec des normes bien établies, respectant orthographe et abréviations.

«La standardisation appliquée permet dans un second temps d’utiliser ce corpus pour entraîner un modèle basé sur l’intelligence artificielle. Celui-ci s’appuie sur des outils de transcription développés par l’EPHE-université PSL: eScriptorium et Kraken. Ses avantages ? Il est économe en énergie et surtout, il se focalise plus sur la reconnaissance d’images que sur la compréhension de la langue, ce qui évite de trop vastes extrapolations. »

Ceci accompli, en 2024, le projet CoMMA (Corpus of Multilingual Medieval Archives) prend la relève, avec pour objectif de mettre à l'épreuve l'outil de transcription. Première étape : trouver des manuscrits.

«Pour cela, l’équipe se tourne vers l’EquipEx+ Biblissima+, qui dispose d’un catalogue de liens vers les versions numérisées de plus de 260 000 manuscrits, stockées par différentes institutions. Nous avons reçu au total 32 763 manuscrits, majoritairement en ancien français et en latin, que nous avons transcrits en quatre mois ».

S’acquitter manuellement d'une telle tâche aurait pris des dizaines années !

Le modèle utilisé repose en fait sur deux algorithmes, l’un chargé de reconnaître les différents éléments de la page (texte principal, notes, illustrations, etc.) et l’autre, développé lors de CATMuS, destiné à la transcription des textes. Le tout avec un taux d'erreur très faible, de moins de 10 %, comparativement à un taux bien plus élevé par d'autres méthodes, et surtout ce taux pourra encore être diminué avec le temps.

Ce succès n'aurait pas été possible sans l'interdisciplinarité de l'équipe, dont ceux en paléographie.

«Une expertise côté numérique seul ne nous aurait pas permis de comprendre aussi bien les manuscrits que nous traitions et les procédés qu’il fallait leur appliquer.»

Avec comme effet qu'un immense corpus de connaissances est maintenant accessible pour toutes les disciplines, allant de la médecine à la philosophie, et qu'il ne fera qu'augmenter car plus de 260 000 manuscrits dans d'autres langues anciennes attendent encore d'être retranscrits dans toute l'Europe.

Pour l'article complet : CoMMA : des milliers de manuscrits médiévaux enfin retranscrits - INRIA

Ressources

ecriptorium - https://escriptorium.readthedocs.io

Kraken - https://kraken.re

Almanach - https://almanach.inria.fr/index-fr.html

Biblissima - https://projet.biblissima.fr/fr

Comma - https://huggingface.co/comma-project

Illustration : Shutterstock - 2515480013

En savoir plus sur cette actualité

Visiter inria.fr

Voir plus de nouvelles de cette institution