Notícias

Publicado em 22 de janeiro de 2026 Atualizado em 22 de janeiro de 2026

32.000 manuscritos medievais transcritos com I.A.

Um desafio colossal brilhantemente cumprido... e mais de 200.000 outros manuscritos à vista

A transcrição de um manuscrito medieval sempre foi uma tarefa morosa. Trata-se de transcrever um texto manuscrito a partir de suportes envelhecidos e em línguas quase desaparecidas, como o francês antigo e o latim, bem como línguas regionais de Espanha e Itália, como o veneziano, o neerlandês antigo e muitas outras. Houve também dificuldades relacionadas com contextos desconhecidos e com a ortografia das palavras, que ainda não estava estabilizada na altura, como a utilização do "e" comercial ou do "f" em vez do "s".

Por conseguinte, cada transcritor desenvolveu e aplicou as suas próprias normas de transcrição, o que torna quase impossível treinar uma IA.

É nesta tarefa que a equipa do projeto ALMANACH do Centro Inria de Paris tem vindo a trabalhar, com o objetivo de normalizar as normas de interpretação e, eventualmente, treinar uma Inteligência Artificial para automatizar o processo. É este o desafio do projeto CATMus.

O primeiro passo foi analisar 300 manuscritos medievais, já transcritos segundo normas bem estabelecidas, respeitando a ortografia e as abreviaturas.

"A segunda etapa consistiu em utilizar este corpus para treinar um modelo baseado na inteligência artificial. Este baseia-se em ferramentas de transcrição desenvolvidas pela EPHE-Université PSL: eScriptorium e Kraken. Quais são as suas vantagens? É energeticamente eficiente e, acima de tudo, centra-se mais no reconhecimento de imagens do que na compreensão da língua, o que evita a extrapolação excessiva".

Tendo conseguido isto, em 2024, o projeto CoMMA (Corpus of Multilingual Medieval Archives) assumiu o comando, com o objetivo de pôr à prova a ferramenta de transcrição. Primeira etapa: encontrar manuscritos.

"Para isso, a equipa recorreu ao EquipEx+ Biblissima+, que dispõe de um catálogo de ligações para versões digitalizadas de mais de 260.000 manuscritos, armazenados por várias instituições. Recebemos um total de 32.763 manuscritos, na sua maioria em francês antigo e latim, que transcrevemos em quatro meses".

Teria sido preciso décadas para efetuar uma tal tarefa manualmente!

O modelo utilizado baseia-se, de facto, em dois algoritmos, um responsável pelo reconhecimento dos diferentes elementos da página (texto principal, notas, ilustrações, etc.) e o outro, desenvolvido durante o CATMuS, pela transcrição dos textos, tudo isto com uma taxa de erro muito baixa, inferior a 10%, em comparação com uma taxa muito mais elevada utilizando outros métodos e, sobretudo, esta taxa pode ser ainda mais reduzida ao longo do tempo.

Este sucesso não teria sido possível sem as competências interdisciplinares da equipa, incluindo as da paleografia.

"Os conhecimentos digitais, por si só, não nos teriam permitido compreender tão bem os manuscritos com que estávamos a lidar e os processos que lhes deviam ser aplicados".

Como resultado, um imenso corpo de conhecimentos está agora acessível a todas as disciplinas, desde a medicina à filosofia, e só irá aumentar, uma vez que mais de 260 000 manuscritos noutras línguas antigas estão ainda à espera de serem transcritos em toda a Europa.

Para ler o artigo completo: CoMMA: milhares de manuscritos medievais finalmente transcritos - INRIA

Recursos

ecriptorium - https://escriptorium.readthedocs.io

Kraken - https://kraken.re

Almanaque - https://almanach.inria.fr/index-fr.html

Biblissima - https://projet.biblissima.fr/fr

Vírgula - https://huggingface.co/comma-project


Ilustração: Shutterstock - 2515480013

Leia mais sobre est notícia

Visita inria.fr


Veja mais notícias desta instituição
INRIA - Instituto Nacional de Investigação em Informática e Controlo

Domaine de Voluceau
Rocquencourt - B.P. 105
78153 Le Chesnay
France

Tél.: 33 (0)1 39 63 55 11

Contato

Ver perfil

Notícias de Thot Cursus RSS
Leitor de RSS ? :Feedly, NewsBlur

Superprof : a plataforma para encontrar os melhores professores particulares no Brasil e em Portugal



Receba nosso dossiê da semana por e-mail

Mantenha-se informado sobre o aprendizado digital em todas as suas formas, todos os dias. Idéias e recursos interessantes. Aproveite, é grátis!