Dans beaucoup d’articles à propos des IA génératives, la question la plus souvent posée concerne les limites de l’IA.
Cet article ne va pas aller dans le sens des limites technologiques de l’IA qui sont inconnues à ce jour mais les éventuelles limites de son usage sur le web et dans la création de contenus.
Le contenu est ROI
L’expression “Content is king” que l’on traduit par le contenu est roi est répandue depuis très longtemps dans le monde du marketing digital.
Elle signifie que le contenu est le pilier central d'une stratégie marketing et commerciale réussie. Sans un contenu engageant, toutes les autres composantes de la stratégie auront moins d'effet. Cela met en avant l'importance de produire un contenu de qualité pour réussir sa présence en ligne.
Voici les principaux aspects de cette notion :
- Le contenu apporte de la valeur ajoutée : un contenu utile, pratique, divertissant ou inspirant attire l'attention et fidélise le public. C'est un facteur clé de succès.
- Le contenu aide au référencement naturel : un contenu riche et optimisé améliore le SEO d'un site web et sa visibilité dans les résultats de recherche.
- Le contenu nourrit une stratégie de contenus : articles de blog, fiches produits, livres blancs, guides, webinaires, podcasts... autant de formats de contenu possibles.
- Le contenu affecte chaque étape du tunnel de conversion : il informe lors de la phase de découverte, rassure lors de l'évaluation, pèse lors de la décision, guide après l'achat...
- Le contenu crée de l'engagement : il permet d'interagir avec son audience, de la fidéliser sur le long terme et de développer sa marque.
- Le contenu apporte une expertise : il positionne une marque ou une entreprise comme référente sur son secteur.
Les Large Language Model (LLM) utilisés pour créer du contenu
Depuis 2022, ChatGPT a démocratisé l’usage des IA génératives pour ce qui concerne la production de textes. Il a rapidement atteint les 100 millions d’utilisateurs. Son arrivée à été vue comme une aubaine pour le marketing digital car la production de contenus était un goulot d’étranglement et représentait un coût important pour déployer les stratégies en ligne.
Celles et ceux qui avaient besoin de contenus en masse et qui faisaient appel à des rédacteurs offshore se sont tournés massivement vers la multitude d’outils de rédaction automatique qui ont vu le jour. Les plus connus sont Jasper, WriteSonic, WordHero, Rytr, …
Le contenu généré par IA n’est pas sanctionné par Google
Cette pratique est aussi encouragée par Google qui a décidé de ne pas sanctionner les textes générés par une IA. La firme de Mountain View a même écrit un article dès le 8 février 2023 disant :
“Chez Google, nous croyons depuis longtemps à la puissance de l'IA pour transformer la capacité à fournir des informations utiles. Dans cet article, nous expliquons plus en détail la façon dont le contenu généré par IA s'intègre à notre approche de longue date consistant à proposer des contenus utiles aux internautes dans la recherche Google.
Récompenser les contenus de haute qualité, quelle que soit la façon dont ils sont produits” Source
Comprendre de façon basique le fonctionnement de ces outils de création
Les outils de création comme ceux précités ou ChatGPT sont des applications spécifiques et personnalisées d’un LLM. ChatGPT est optimisé pour les interactions conversationnelles et doté de capacités et de directives qui le rendent adapté à un large éventail d'applications interactives. Alors qu'un LLM général peut être utilisé pour diverses tâches de traitement du langage, ChatGPT est spécifiquement affiné pour comprendre, participer et maintenir des conversations avec les utilisateurs.
Voici les étapes permettant d'obtenir un texte auto-généré :
1. Collecte et préparation du dataset :
- Collecte : Des données textuelles sont collectées à partir de diverses sources comme des livres, des articles, des sites web, et d'autres médias écrits.
- Nettoyage : Les données sont nettoyées pour enlever les éléments non pertinents ou inappropriés (pensons aux contenus racistes par exemple).
- Formatage : Les textes sont formatés de manière à être compréhensibles par le modèle.
2. Entraînement du modèle :
- Apprentissage automatique : Les LLM sont un type de réseau de neurones qui utilisent de l’apprentissage automatique. L’apprentissage automatique permet à un modèle d’extraire des informations de manière structurée.
- Traitement des données : Le modèle traite les données textuelles, apprenant des structures linguistiques, du vocabulaire, des styles d'écriture, etc.
- Optimisation : Le modèle ajuste ses paramètres internes pour minimiser les erreurs et améliorer sa capacité à prédire ou générer du texte.
3. Compréhension et analyse du langage :
- Analyse de la requête : Lorsqu'une demande est faite au LLM (par exemple, une question ou une requête de génération de texte), il analyse et interprète la demande en utilisant les connaissances acquises pendant l'entraînement.
- Contextualisation : Le modèle prend en compte le contexte de la demande pour fournir une réponse appropriée.
4. Génération de texte :
- Prédiction des mots : Le LLM génère une réponse en prédisant la suite des mots qui répondent le mieux à la demande, en se basant sur les patrons appris.
- Assemblage des phrases : Il assemble les mots en phrases cohérentes et grammaticalement correctes, en tenant compte du contexte et de la structure de la langue.
5. Optimisation et révision :
- Ajustements : Le modèle peut ajuster sa réponse en fonction des retours ou des corrections supplémentaires pour améliorer la précision ou la pertinence.
- Finalisation : La réponse générée est finalisée et présentée à l'utilisateur.
On mesure toute l’importance des données de départ, le fameux dataset. Les datasets servent de base de connaissances à partir de laquelle le LLM apprend. Plus le dataset est large et diversifié, plus le modèle peut apprendre de variétés de langage et de styles.
La qualité du dataset affecte directement la précision du modèle. Un bon dataset permettra de produire des réponses plus précises et pertinentes.
Le serpent va-t-il se mordre la queue ?
L’on en vient à la question posée dans cet article. Avant leur démocratisation, les IA génératives avaient donc des dataset alimentés par des productions presque exclusivement humaines.
Depuis un an, Internet est littéralement inondé de textes mais aussi d’images et même de vidéos produites par des IA. On peut d’ailleurs penser que ce n’est pas seulement le web mais aussi différents contenus comme des livres, des mémoires d’étudiants, des rapports, des articles de presse, etc.
Il est aussi raisonnable de penser que les humains vont de plus en plus recourir aux IA quand elles doivent générer des textes et donc que la proportion des créations humaines va se réduire aussi bien en nombre qu’en proportion. De plus en plus, les datasets vont donc être alimentés par des données qui ont été produites par des IA sur base de leurs datasets de l’époque où ces contenus ont été produits. On en arriverait donc à une forme de consanguinité.
Si l’on voyait cela comme de la génétique, cette forme de consanguinité pourrait engendrer un appauvrissement des contenus créés car leurs datasets seront de moins en moins diversifiés. La variété et la richesse du langage généré seraient alors limitées.
C’est là que l’on remarque l’importance des différentes étapes utilisées pour entraîner et évaluer une IA. Dans un cas idéal, les données d'entraînement doivent être nettoyées en amont afin d'entraîner le modèle avec des données variées et pertinentes.
L’autre facteur important, est l’évaluation du LLM. Pour pouvoir évaluer correctement un modèle d’IA, il faut que les données de test soient variées et qu'elles contiennent des cas particuliers. C’est seulement si la base de données de test est correctement construite que l’on pourra voir si le modèle a correctement été entraîné. Dans le cas contraire, le modèle risque de ne pas bien performer.
Si l’on entraîne un LLM de plus en plus avec du contenu généré par de l’IA, la variété du jeu de données d'entraînement risque de s’appauvrir. Dans le cas où le modèle est entraîné durant un trop grand laps de temps, le modèle risque de ne plus être assez généralisé. On parle de “Overfitting”. Mais grâce aux données de test, cette baisse en performance pourra être détectée et stoppée.
Ce phénomène est-il nouveau ?
Pour comprendre comment cela pourrait nous affecter dans le futur, il est utile de savoir si des ingénieurs ont déjà fait face à des situations similaires.
Un problème récurrent lors de l'entraînement d'un modèle d'intelligence artificielle est l'accès à une quantité suffisante de données pour entraîner notre modèle. Dans beaucoup de scénarios, la quantité de données est trop faible ou les données ne sont pas accessibles pour des raisons de confidentialité, etc.
Il est commun de devoir réfléchir à comment augmenter la quantité de données disponibles pour pouvoir entraîner les modèles.
Parmi les techniques employées certaines sont simplistes comme la duplication des données dont on dispose pour avoir une quantité plus élevée. D’autres sont plus complexes comme la génération de nouvelles données grâce à des modèles GAN.
Qu'est ce qu'un GAN ?
Un GAN est l'abréviation de Generative Adversarial Network ou en français Réseau Adverse Génératif. Ces réseaux fonctionnent en deux parties :
- Une partie chargée de créer des données en se basant sur les données de départ dont on dispose.
- Une partie chargée de différencier les données de départ avec celles créées.
Son fonctionnement peut être visualisé comme celui d’un peintre de contrefaçons qui essaye de tromper un expert en art.
Au départ, le peintre de contrefaçons va s’entraîner en imitant les peintures originales auxquelles il a accès. Une fois qu’il est capable de peindre correctement, il va arrêter de s’entraîner. L’expert en art va analyser des peintures qui sont vraies et d’autres qui sont fausses. Il va s’entraîner à détecter les contrefaçons jusqu’à ce qu’il soit capable de détecter la majeure partie d’entre elles.
Une fois que les contrefaçons ne sont plus confondues avec les originaux, le peintre va se remettre au travail et s’entraîner à peindre de meilleurs tableaux jusqu’à ce que ceux-ci soient identiques aux originaux aux yeux de l’expert. L’expert se perfectionne à son tour, etc.
À la fin de ce processus, le peintre est capable de créer des tableaux très similaires à ceux des données de départ. Ceci permet d’augmenter le nombre de données pour entraîner un modèle IA.
Quel est le rapport avec nos modèles LLM et ChatGPT ?
Nous pouvons faire le parallèle entre les IA entraînées par des données provenant de GAN avec le phénomène dont nous parlions plus haut dans l’article. Les données utilisées pour entraîner les futures IA contiendront des données produites par des humains ainsi que des données générées par des modèles IA.
À première vue, cela ne pose pas de problème me direz-vous puisque cela est utilisé couramment dans le monde scientifique. Et bien il existe des conséquences qu’il est important de connaître :
- Tout d’abord, les productions de l'IA se basent sur leurs données d’entraînement. Un exemple concret est celui de la fraude douanière. Nous disposons d’un échantillon de données contenant des déclarations douanières et nous souhaitons augmenter le nombre de déclarations frauduleuses pour entraîner notre modèle. Si nous générons des déclarations frauduleuses grâce à des GAN, les nouvelles données contiendront les mêmes “types et méthodes” de fraudes que les données originales. L’IA ne va pas d'elle-même mettre au point de nouvelles méthodes de fraude douanière que l’on aurait pu découvrir en ajoutant des données réelles obtenues par des services douaniers.
- Une deuxième conséquence est la proportion de la diversité des informations contenues dans les données. Si nous choisissons d’entraîner un modèle IA en se basant sur des données uniquement humaines produites entre 2010 et 2020. On peut supposer que la quantité de données produites chaque année est similaire. Chaque année sera représentée de manière équivalente.
Maintenant nous supposons qu’en 2015 des modèles LLM soient créés et entraînés sur les données produites entre 2010 et 2015. Grâce à la création de ces données, la quantité de contenus générés explose et 70% des nouveaux contenus produits entre 2015 et 2020 ont été générés par IA.
Les années 2010-2015 seront sur-représentés par rapport à ceux des années 2015-2020. En effet, la première partie de la décennie contient les contenus humains + tous les contenus IA des années d’après puisque l’IA est entraîné sur ces données la. Notre nouveau modèle IA que nous entraînons en 2020 verra majoritairement des données de la première moitié de la décennie, les connexions dans le modèle seront donc renforcées sur ces données là et leur importance sera plus forte.
Représentativité
Il est important pour les ingénieurs en Intelligence artificielle de prendre en compte toutes les conséquences de l’utilisation des IA dans la production de nouveaux contenus pour s’assurer de laisser une place aux nouvelles idées et avancées de notre société.
Cela implique une vigilance constante dans la sélection et le renouvellement des datasets, pour éviter un appauvrissement de la diversité et de la créativité dans les contenus générés. Il est essentiel de maintenir un équilibre entre les contributions humaines et celles des IA, afin de garantir que les contenus reflètent un large éventail de perspectives et d'innovations.
A participé à la rédaction :
Loïc Vansnick, Ingénieur civil en Intelligence artificielle et webmarketeur
Sources :
Qu'est-ce qu'un grand modèle de langage (LLM) ?
Voir plus d'articles de cet auteur