Comment l'I.A. et les LLM fonctionnent

L’intelligence artificielle utilise plus d’une stratégie pour apprendre et conclure

Une pensée réductrice

Le discours en ce qui concerne l’intelligence artificielle évolue lentement. De la fascination béate à la méfiance justifiée on en arrive à un scepticisme curieux car le domaine continue d’innover à grande vitesse. Cependant la compréhension générale des utilisateurs à propos de l’outil se résume souvent à des généralisations du genre «L’IA applique des algorithmes statistiques». Oui, elle fait ça mais elle ne fait pas que cela et elle fait bien plus que cela.

L’objectif des chercheurs en I.A. est de trouver les moyens de reproduire et d’appliquer pratiquement toutes les opérations mentales que nous faisons naturellement. Nous observons, estimons, évaluons, concluons, vérifions, réessayons et refaisons ces processus tout en attribuant une valeur de confiance à chaque élément et à chaque expérience, le tout dans un processus dynamique et continu.

Par exemple, si nous apprenons quelque chose et que nous observons que trois fois sur quatre ça fonctionne, nous nous demandons aussi pourquoi ça n’a pas fonctionné la quatrième et ce qu'il faudrait changer ou quelle expérience faire pour identifier les éléments de succès ou d'insuccès. De là on peut en arriver à une amélioration.

C’est ce genre de traitement des données qui a permis à des robots de développer une démarche plus efficace que celle qui avait été programmée au départ. Nous ne marchons pas de la même façon sur une surface dure que sur du sable, dans la neige ou sur la glace. Nous recueillons des infos et les traitons de plusieurs manières, simultanément ou en plusieurs étapes, et nous développons des réponses adaptées.

Les publications des chercheurs

Voici sept publications récentes qui aident à comprendre comme les grands modèles de langage (LLM - Large Langage Model) fonctionnent. Ils décrivent les fondements théoriques, des idées pratiques et offrent des preuves empiriques.

On y aborde l’évolution des LLM, comment on les prépare (pre-training), comment on les ajuste, quelles stratégies sont utilisées, comment leurs performances sont évaluées. Leur adaptation à différents contextes et échelles est aussi discutée; il y a des différences à traiter des milliards de données sur un même sujet et quelques centaines à propos de milliers de sujets. Quand les enjeux sont élevés et qu’on a pas droit à beaucoup d’erreurs, on a intérêt à apprendre vite.

Encore plus intéressantes sont les techniques pour multiplier les points d’attention en parallèle. Toutes les données n’ont pas la même importance et certaines ne sont utilisées qu’à certaines étapes du raisonnement. Il faut déterminer lesquelles, où et à quel moment les utiliser. Par exemple, dans certains cas en cuisine, on mélange les ingrédients secs avant d’ajouter les liquides. Autant au niveau moléculaire que sémantique, l'ordre a son importance.

« Ces articles couvrent divers aspects des LLM, notamment leurs architectures, les méthodes de pré-entraînement, les propriétés de mise à l'échelle, les capacités d'apprentissage à court terme et les applications dans des tâches telles que le raisonnement et l'apprentissage par transfert. Ils offrent une compréhension complète des principes sous-jacents et des techniques de pointe dans ce domaine en évolution rapide.»

À lire pour mieux comprendre ce qui se passe avec les intelligences artificielles :
The 7 best arXiv papers to learn how LLMs work

Articles

"A Survey of Large Language Models" - https://arxiv.org/abs/2303.18223
"Scaling Laws for Transfer" - https://arxiv.org/abs/2102.01293
"Language Models are Few-Shot Learners" - https://arxiv.org/abs/2005.14165
"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"
https://arxiv.org/abs/1910.10683
"Large Language Models can Learn Rules" - https://arxiv.org/abs/2310.07064
"Attention is All You Need" - https://arxiv.org/abs/1706.03762
"Large Language Models: A Survey" - https://arxiv.org/abs/2402.06196

Autres articles sur l'Intelligence artificielle

Illustration - Pixabay

Voir plus d'articles de cet auteur

Auteur Denys Lamontagne Contacter l'auteur

Le fil RSS de Thot Cursus - Besoin d'un lecteur RSS ? FeedBin , Feedly , NewsBlur

Les messages de Thot sur BlueSky

Superprof : la plateforme pour trouver les meilleurs professeurs particuliers en France (mais aussi en Belgique et en Suisse)

Réviser le Code de la route

Comment l'I.A. et les LLM fonctionnent

L’intelligence artificielle utilise plus d’une stratégie pour apprendre et conclure

Une pensée réductrice

Les publications des chercheurs

Accédez à des services exclusifs gratuitement