Quand une machine apprend à reconnaître un chat
Apprendre à une machine à reconnaître un chat, c’est un peu comme lui montrer des millions d’albums photo. On lui présente une multitude d’images : certaines portent l’étiquette « chat », d’autres « pas chat ». L’algorithme regarde chaque image, propose une réponse, puis on lui dit s’il a eu raison ou tort.
À chaque erreur, il ajuste ses calculs pour faire mieux la fois suivante. Ce va-et-vient se répète des millions de fois jusqu’à ce que la machine repère, par elle-même, les indices qui reviennent souvent quand il y a un chat : deux oreilles pointues, des pupilles verticales, des yeux brillants, des motifs de pelage.
En réalité, la machine ne comprend pas ce qu’est un chat. Elle repère des régularités statistiques dans les pixels : des zones de couleurs, des contrastes, des formes qui reviennent souvent ensemble. C’est un apprentissage purement visuel, sans contexte ni expérience. Si le chat est de dos, en dessin, ou flou, le système peut se tromper. Il suffit parfois de changer la texture du pelage pour qu’il voie autre chose. L’algorithme « reconnaît » donc, mais sans savoir. Il ne perçoit ni la chaleur du corps, ni le miaulement, ni la curiosité d’un animal vivant. En réalité la machine n'apprend pas, elle catégorise.
Comment un humain apprend ce qu’est un chat
Un enfant, lui, n’a pas besoin de millions d’images. Il voit un chat, le caresse, se fait griffer, entend un miaulement. Il associe peu à peu le mot « chat » à un ensemble d’expériences sensorielles : la douceur du pelage, le mouvement souple, la chaleur du corps, la réaction à la voix.
L’apprentissage humain est incarné, c’est-à-dire qu’il passe par le corps, les émotions, la relation. Il est aussi social : on lui dit « c’est un chat », on lui raconte des histoires, on lui apprend à différencier le chat du chien, du tigre, du dessin animé. L’humain apprend vite parce qu’il comprend le sens. Il n’additionne pas seulement des images : il relie, il généralise, il invente.
Il peut reconnaître un chat en ombre chinoise, sur un dessin d’enfant ou dans une sculpture abstraite. Il sait qu’un chat est un être vivant, qu’il mange, dort, joue. Ce qu’il apprend, ce n’est pas une apparence mais une présence, une manière d’exister. L'humain contextualise pendant que la machine décontextualise pour identifier des détails classants.
Des ressemblances trompeuses, des différences fondamentales
À première vue, humains et algorithmes font la même chose : ils reconnaissent des formes. Mais la ressemblance s’arrête là.
- La machine catégorise par fréquence, l’humain comprend par expérience.
- La machine additionne les exemples, l’humain tisse du sens.
- La machine a besoin d’énormes quantités d’images, l’humain apprend avec quelques rencontres.
- La machine reste prisonnière du cadre de ses données ; l’humain s’adapte, interprète, improvise.
Surtout, la machine ne reconnaît pas au sens humain du terme : elle classe. Elle n’a ni mémoire vécue, ni émotion, ni responsabilité. Elle ne voit pas un être ; elle voit un motif qui correspond à une étiquette. Apprendre et vivre sont strictement synonyme, la machine n'accède pas au vivant par conséquent le terme apprendre pour un algorithme est un abus de langage.
Ce que cet écart nous apprend sur l’apprentissage
Cette différence éclaire ce que signifie vraiment « apprendre ». Apprendre, ce n’est pas seulement repérer des régularités : c’est donner du sens à une expérience. L’humain apprend en étant touché, surpris, ému. La machine ajuste ses calculs, mais elle n’éprouve rien. Or, dans l’éducation, ce sont souvent ces dimensions sensibles qui ancrent la connaissance : la curiosité, la peur, la joie de comprendre, la rencontre avec un vivant.
Sur le plan pratique, les algorithmes sont puissants : ils peuvent trier des milliards d’images, repérer des motifs invisibles à l’œil humain, aider à diagnostiquer une maladie ou à classer des documents. Mais dès qu’il faut interpréter, ressentir ou contextualiser, le regard humain reste irremplaçable.
C’est la même chose dans l’apprentissage : aucune intelligence artificielle ne peut vivre à notre place l’étonnement ou l’émotion d’une découverte. L'humain est fait de récit, il conte, l'algorithme est fait de chiffres, il compte.
Un enjeu éthique et sensible
Confier à la machine la tâche de reconnaître, c’est aussi lui déléguer un pouvoir d’attention. Elle décide à notre place ce qui mérite d’être vu, trié, conservé. Or, ce pouvoir repose sur des données construites par des humains : elles peuvent être biaisées, incomplètes, partiales.
Si un algorithme n’a vu que des chats blancs, il reconnaîtra mal les chats noirs. Si les images viennent d’un seul environnement culturel, il ratera d’autres contextes. L’enjeu n’est donc pas seulement technique : il est éthique et politique. Qui choisit les images ? Qui décide ce qu’est « un chat » ?
Pour que la technologie reste un outil d’émancipation, il faut garder la main sur ce qui est appris, sur la manière dont la machine restitue les données et sur l’usage que nous en faisons. La transparence des modèles, la traçabilité des données et la diversité des sources deviennent alors des exigences démocratiques.
Une différence féconde à cultiver
L’écart entre l’algorithme et l’humain n’est pas un défaut : c’est une complémentarité à orchestrer. L’un classe, l’autre comprend. L’un calcule, l’autre ressent. Ensemble, ils peuvent élargir notre regard. L’avenir de l’éducation et du travail ne réside pas dans la substitution, mais dans la co-apprentissage : apprendre à voir avec les machines, sans cesser de voir par soi-même.
Cette cohabitation exige toutefois une vigilance : plus nous confions nos perceptions à des dispositifs automatisés, plus nous risquons de perdre la finesse de notre discernement sensible. À force de laisser la machine reconnaître pour nous, nous pourrions oublier comment reconnaître vraiment — c’est-à-dire être touché par ce que nous voyons par nos propres sens.
La tentation de la paréidolie
Il existe un phénomène fascinant appelé paréidolie : notre tendance à voir des visages dans les nuages, sur la lune ou dans un tronc d’arbre. Elle illustre notre besoin profond de donner forme et de relier.
Nous projetons du sens sur le monde pour le rendre habitable. Les algorithmes, eux aussi, font parfois des « paréidolies numériques » : ils croient voir un chat dans un motif de fourrure ou un visage dans un amas de pixels. La différence, c’est que l’humain peut s’en rendre compte.
Nous savons, au fond, que le nuage n’a pas de visage, et c’est cette conscience qui fait de notre erreur une occasion d’émerveillement. L’algorithme, lui, ne doute pas. Il ne rêve pas non plus. Peut-être que l’enjeu des années à venir sera de maintenir cet écart vivant entre calcul et sens, entre reconnaissance et émerveillement.
Apprendre à apprendre avec les machines, c’est apprendre à ne pas leur ressembler, pour préserver notre capacité d’attention, d’imagination et de lien.
Illustration : Vilius Kukanauskas - Pixabay
Références
CNIL. (2017). Comment permettre à l’homme de garder la main ? Les enjeux éthiques des algorithmes et de l’intelligence artificielle. Paris : Commission nationale de l’informatique et des libertés.
Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A., & Brendel, W. (2019). ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness. International Conference on Learning Representations (ICLR).
Immordino-Yang, M. H., & Damasio, A. (2007). We feel, therefore we learn: The relevance of affective and social neuroscience to education. Mind, Brain, and Education, 1(1), 3–10.
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems (NeurIPS), 25, 1097–1105.
Lake, B. M., Ullman, T. D., Tenenbaum, J. B., & Gershman, S. J. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436–444.
Villani, C. (2018). Donner un sens à l’intelligence artificielle : Pour une stratégie nationale et européenne. Paris : La Documentation française.
Varela, F. J., Thompson, E., & Rosch, E. (1993). L’inscription corporelle de l’esprit : sciences cognitives et expérience humaine. Paris : Seuil.
Voir plus d'articles de cet auteur