Articles

L’analyse sémantique automatisée, quel surplus de sens aux textes ?

Automatiser l'extraction du sens - 10 outils d'analyse.

Par Denis Cristol , le 22 avril 2019 | Dernière mise à jour de l'article le 30 mai 2019

Qui est à l'écoute ?

La façon des politiques d’écouter une population change. À entendre les contestations de rue qui grandissent et se répètent, il semble que la représentation parlementaire et les intermédiaires traditionnels ne soient plus si aiguisés pour interpréter et se faire les porte-paroles des expressions populaires. Peut-être que l’individualisation intense rend difficile le dépassement de singularités et qu’il est devenu impossible de trouver des optimums collectifs. « Vous ne nous écoutez pas vraiment ! » affirment des groupes qui se sentent délaissés, exclus, marginalisés.

Peut-être en mémoire de la révolution, la situation française est scrutée partout en Europe. Les gilets jaunes ont secoué le cocotier dans l’hexagone et ont provoqué le "grand débat national". Sans leur occupation des places giratoires, les dirigeants allaient appliquer leur programme en droite ligne. L'exécutif a reçu plus de 1.000.000 de contributions sur son site, tandis que le "vrai débat", une plateforme d’opposition, en compterait 90.000 auquel il faut ajouter plus de 10.000 cahiers de doléances déposés en mairie. La question est : « comment traiter cette masse de données ? ».

En effet, avec le grand débat, se sont des millions de pages à analyser. Accéder à l’opinion publique en analysant des tendances est aussi un marché. Celui-ci a été remporté par la Civic tech de  Roland Berger, associé à Cognitio et  Blue Nove dont la difficile mission est de substituer aux analyses politiques et de faire émerger un sens à une variété de mécontentements et de revendications.

De l’herméneutique (art d'interpréter) au forage de données

L’homme/femme de la politique traditionnelle arpentait le terrain, allait sur les marchés et les espaces publics, sentait son territoire. Il lui arrivait le cas échéant d’étudier, de lire des analyses, de dialoguer avec nombre d’acteurs pour se forger une ligne de conduite. Il s’efforçait de représenter l’équilibre des forces de ceux qui l’avaient élu.

Le recours à l’analyse documentaire, à l’expression écrites des citoyens est devenu de plus en plus aisé au fur et à mesure que les moyens technologiques permettaient d’en recueillir les traces. Plutôt que le sondage d’opinion qui part de représentation préconstruite du sondeur et de son commanditaire, il s’agit de partir de l’expression des citoyens. L’étude des textes est un savoir-faire ancien. Nombre de savants et de théologiens se sont penchés sur le sens profond de manuscrits antiques, comme des récits mythologiques, des traités ou la bible. Il en a découlé de nombreuses méthodes d’analyse et de compréhension. 

L’herméneutique a été particulièrement étudié par le philosophe des sciences Dilthey dont la contribution majeure a été de distinguer d’une part ce que signifie expliquer et d’autre part ce que veut dire comprendre. Pour lui « nous expliquons la nature, nous comprenons la vie psychique ». L’explication renverrait aux sciences de la nature et aux phénomènes mesurables tandis que la compréhension investigue les processus psychiques nécessitant des interactions subjectives, personnelles et réflexives. L’idée d’herméneutique nous adresse donc une alerte sur la mécanisation d’un traitement des ressentis humains telle qu’elle est proposée avec l’analyse documentaire. Faire reposer sur un algorithme de traitement la compréhension des expériences humaine singulières relève d’une conception pour le moins mécaniste des faits sociaux.

Quoiqu’il en soit la compréhension d’un corpus de texte pourrait bien être affaire de logiciels d’analyse, tellement l’entendement des politiques est dépassé. Le forage des données trouve probablement ses racines dans, la lexicométrie également connue sous le nom de logométrie, ou analyse automatique.

Tournier recense également les expressions statistique linguistique, statistique lexicale, linguistique quantitative, statistique textuelle ou analyse des données en linguistique. Pour Tournier, « la lexicométrie n’est pas une théorie mais une méthodologie d’étude du discours, qui se veut exhaustive, systématique est automatisée. » 

À lire Dilthey, le risque potentiel d’une mécanisation d’un processus sensible est d’expliquer ce qui se passe dans les mouvements sociaux mais en aucun cas de les comprendre. Peut-être y verrons-nous plus clair en découvrant comment l’analyse lexicomètrique opère ?

Un peu de vocabulaire et de technique

L’idée d’un traitement automatisé de textes et de discours est donc ancienne. Et les procédés techniques pour le faire ne cessent de progresser. Le simple particulier peut déjà compter les occurrences de mots ou d’expression dans un texte avec la fonction statistique intégrée à son logiciel de traitement de texte. Il peut aussi créer un nuage de mots pour rendre compte visuellement du poids de ces occurrences.

Pour aller plus loin dans un traitement il faut recourir à des outils un tant soit peu plus sophistiqués et disposer d’une maîtrise technique particulière. Entre l’idée de forer des masses de données et celle d’en extirper un sens et d’en révéler l’essence, il y a tout un chemin à parcourir et quelques principes à comprendre. En effet passer d’une lecture linéaire à l’établissement de liaisons transversales entre les mots fonctionnant en réseau nécessite une organisation du corpus de données et une maîtrise statistiques pour interpréter les résultats.

La lexicométrie exige tout d’abord de disposer d’un corpus documentaire un ensemble d’unité linguistique repérable dans un même texte. Le texte ne devra avoir connu aucune modification préalable. Ce corpus va être mis en forme de façon homogène. C’est la lemmatisation un processus de traitement qui consiste à ramener les verbes à l'infinitif, les noms au singulier et les adjectifs au masculin singulier. Cette opération permet d’opérer les liens en rapprochant les lexèmes entre eux.

Les hapax correspondent au nombre de mots n'apparaissent qu'une seule fois dans tout le corpus et sont traités à part. Les représentations des traitements lexicographiques sont des dendogrammes (schéma arborescents) ou des concordanciers (tableau rapprochant par paire les lexèmes sélectionnés). Si le traitement du texte par le moyen de tris, de rapprochements, de mises en forme graphique offre au lecteur un gain de temps et un confort d’analyse, il demeure responsable de son interprétation et de la créativité des hypothèses et analyses à en tirer.

Choisir son logiciel lexicométrique

Sans prétendre à l’exhaustivité voici quelques logiciels lexicométrique qui permettent de s’initier au forage de données.

Alceste est un logiciel d’ingénierie textuelle créé avec le CNRS. Il permet une analyse détaillée de son vocabulaire, et constitue le dictionnaire des mots ainsi que de leur racine, avec leur fréquence. Ensuite, par fractionnements successifs, il découpe le texte en segments homogènes contenant un nombre suffisant de mots, et procède alors à une classification de ces segments en repérant les oppositions les plus fortes. La méthode permet d’extraire des classes de sens, constituées par les mots et les phrases les plus significatifs, les classes obtenues représentent les idées et les thèmes dominants du corpus. L’ensemble des résultats triés selon leur pertinence, est accompagné de nombreuses représentations graphiques

Calliope permet l'extraction de terminologie (création de corpus, validation de vocabulaire, constitution de lexiques, pour l'indexation de corpus) et le traitement de corpus indexés par la méthode des mots associés et l'analyse des tendances pour alimenter un grapheur.

Hyperbase est un logiciel d’exploration textuelle particulièrement utilisé dans le monde universitaire pour l’analyse des thèses  et ouvrages linguistiques ou historiques. Il possède des fonctions documentaires (navigation hypertexte, recherche de tri et contexte, index des codes, des lemmes, des fréquences), et des fonctions statistiques (indice de richesse lexicale, distribution des unités linguistiques du discours, extraction des phrases typiques, représentation des cooccurences et des réseaux thématiques, classification et représentations arborées)

Iramuteq est l’agrégation de quelques lettres pour Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires. C’est un logiciel libre construit avec des logiciels libres. Il est basé sur la classification hiérarchique descendante sur un tableau croisant les formes pleines et des segments de texte).

Microsoft Azure - Détecte les expressions clés et le «sentiment», positif ou négatif, qui se dégage d'un texte.

Resoomer - Analyse et résume les textes.

Text analyser - Service primaire d'analyse statistique de textes. Combien de mots différents, fréquence des mots et des expressions, lisibilité, etc.

Tropes logiciel d’analyse sémantique qui possède un éditeur d'ontologies, une classification arborescente de la référence, l'analyse chronologique du récit, le diagnostic du style du texte, la catégorisation des mots-outils, l'extraction terminologique, l'analyse des acteurs et l'aide à la constitution de résumés. N'est cependant plus mis a jour.

Voyant Tools propose en Open source des outils assez sophistiqués d'analyse de textes

WordStat analyse de grandes quantités de textes et permet d'en forer les données; en cmbinaison avec des logiciels de statistiques et d'analyse qualitative, il permet d'établir des rapports entre le contenu est des informations structurées.

La sensibilité au contexte

L’enjeu de la maîtrise des données et de leur mise en sens passe d’une part par l’établissement d’un corpus irréprochable, c’est-à-dire intégrant une rigueur et une éthique de traitement, et d’autre part par la réalisation de choix assumés dans une indispensable contextualisation.

Par exemple, la requête du mot canicule sur votre moteur de recherche préféré a un sens différent pour vous lorsque vous êtes en plein désert avec 50° de température ou bien lorsque vous êtes tranquillement installé à la terrasse d’un café en sirotant une boisson fraiche, alors que pour la machine l’algorithme est le même. C’est bien toute la différence entre comprendre et expliquer.

L’expérience située et sensible ne saurait que difficilement être rendue par un algorithme. Il reste toujours un immense rôle à jouer pour les gouvernants, les dirigeants, les journalistes, les formateurs et les médiateurs de toutes sortes pour apporter leur touche et faciliter des ponts entre la variété des expériences humaines et les décisions à prendre. Mais il faudra probablement pour eux aller vers une maîtrise des outils d’analyse de texte et vers plus d’empathie que ne saurait faire une machine.

Illustration : Voyant Tools - sur le texte de l'article

Sources

Wikipédia - Forage de données https://fr.wikipedia.org/wiki/Exploration_de_donn%C3%A9es

CivicTechno http://civictechno.fr/

Préparer l’analyse de site web https://presnumorg.hypotheses.org/187

Documentation Iramuteq http://iramuteq.org/documentation/fichiers/documentation_19_02_2014.pdf

La lexicométrie un outil efficient pour l’analyse des discours https://ajccrem.hypotheses.org/370

Marianne - Vrai et grand débat : mais au fit qui va traiter les contributions et comment ? https://www.marianne.net/societe/vrai-debat-et-grand-debat-mais-au-fait-qui-va-traiter-les-contributions-et-comment

Consultor - Grand débat national Roland Berger choisi pour le dépouillement  https://www.consultor.fr/devenir-consultant/breves/5421-grand-debat-national-roland-berger-choisi-pour-le-depouillement.html

Wikipédia - Herméneutique https://fr.wikipedia.org/wiki/Herm%C3%A9neutique

Wikipédia – Dilthey https://fr.wikipedia.org/wiki/Wilhelm_Dilthey

Hyperbase http://ancilla.unice.fr/

Alceste http://www.image-zafar.com/Logiciel.html

Tropes https://www.tropes.fr/

Iramuteq http://iramuteq.org/

Avez-vous apprécié cette page?

Voir plus d'articles de cet auteur

Accédez à des services exclusifs gratuitement

Inscrivez-vous et recevez des infolettres sur :

De plus, indexez vos ressources préférées dans vos propres dossiers et retrouvez votre historique de consultation.

M’abonner
Je suis déja abonné