Articles

(Se) Tromper avec les statistiques

Quelques paradoxes pour nous aider à comprendre les pièges statistiques

Par Frédéric Duriez , le 17 avril 2016 | Dernière mise à jour de l'article le 25 avril 2016

Étayer ses arguments avec des chiffres et des données statistiques renforce apparemment la crédibilité. Et pourtant, une mauvaise utilisation de ces outils mathématiques peut amener aux affirmations les plus erronées...

Quelques sites nous aident à déjouer les erreurs liées à une mauvaise maîtrise des statistiques. Ils nous posent également quelques paradoxes qui renversent nos intuitions avec quelques calculs simples.

Correlation ne signifie pas causalité

Régulièrement, la presse nous indique que la consommation de tel fruit ou tel légume limiterait les risques de maladie. Est-ce si évident ? Les personnes qui consomment des anti-oxydants ont une probabilité plus faible de souffrir d'un cancer ou d'une affection cardiaque. Est-ce que cela signifie que les anti-oxydants réduisent les risques d'être touché par ces maladies ? Pas certain, nous dit Catriona Maclean, mathématicienne spécialiste de la géométrie mais aussi passionnée de statistiques.

Et pour illustrer son propos, elle choisit de nous montrer à quoi pourrait conduire des raisonnements identiques. Ainsi, on constate que les enfants dont les parents ont deux voitures réussissent davantage que la moyenne. Est-ce que cela signifie que la voiture rend intelligent ? Faut-il faire des tours de quartier avec les enfants dans la voiture, plutôt que de les inciter à lire et à faire des expériences ?

la voiture rend intelligent

Malheureusement, les journaux usent couramment de cette ... logique. L'aspartam provoquerait des fausses couches, tel fruit exotique limiterait les risques de maladie. Catriona Maclean nous met en garde : peut-être que les personnes qui consomment des antioxydants ne sont pas exactement les mêmes que celles qui n'en consomment pas. Les catégorie socio-professionnelles sont plus élevées, ce sont des personnes qui font attention aux produits qu'ils consomment, etc. Elles pratiquent souvent un sport, etc. Et il se pourrait bien que les résultats obtenus soient davantage liés à ce style de vie qu'au antioxydants. On ne sait pas.

La seule manière de trancher serait de prendre deux échantillons, par tirage aléatoire, et de fournir des antioxydants au premier groupe, et des produits neutres aux autres, et de poursuivre sur plusieurs dizaines d'années pour obtenir un résultat.

Les paradoxes statistiques

Les dates d'anniversaire

Les paradoxes statistiques abondent. ... Catriona Maclean demande au groupe s'il estime probable que deux personnes dans la salle soient nées le même jour de l'année. Chacun fait ses hypothèses, mais la plupart des participants estime peu probable que dans un groupe de 50, deux personnes soient nées le même jour. Et pourtant.

Il s'agit du "paradoxe des anniversaires", dont une explication est fournie par le site science étonnante. Pour un groupe de 50 personnes, il y a plus de 95% de chance que deux personnes soient nées le même jour. Une présentation qui fait moins appel aux annotations statistiques est proposée par curieux² savoir.

Le paradoxe de Simpson

Le paradoxe de Simpson a été formulé par un statisticien qui lui a donné son nom en 1951. Un patient a le choix entre le traitement A et le traitement B. Le  A conduit à une guérison dans 78% des cas, et le B dans 86% des cas... Et pourtant, c'est le A qui est le plus efficace. Pourquoi ?

C'est encore Science étonnante qui vous donnera l'explication. Pour les plus impatients, imaginez simplement que le traitement A est réservé pour les cas les plus graves. Il est peu prescrit pour les cas bénins, qui ont plus de 90% de taux de réussite, mais beaucoup prescrit pour les cas graves, où le taux de réussite oscille autour de 75%. Le traitement B n'est pratiquement prescrit que pour les cas bénins. Moins pénible pour le patient, il s'avère cependant moins efficace. Ainsi, parce que A est plus efficace, il est utilisé sur les cas les plus sérieux pour lesquels la réussite est plus rare... Le blog "Mole.net" vous apportera une version plus mathématique de ce paradoxe.

Les sondages auto-administrés

D'autres erreurs proviennent des échantillons. Ils peuvent être trop faibles, et donner des résultats dont l'intervalle de confiance est trop large.

L'échantillon peut ne pas être représentatif. Les sondeurs interrogent les personnes dont ils anticipent qu'elles vont accepter de répondre, par exemple. Les sondages auto-administrés sur internet, auxquels ne répondent que les personnes qui le souhaitent illustrent de façon carricaturale ce qu'est une erreur d'échantillonnage. Seuls les internautes motivés répondent.... et les plus motivés répondent plusieurs fois. Influencer les résultats du sondage est parfois leur principale motivation !

 Y a-t-il de quoi paniquer ?

Catriona Maclean nous pose une autre question. Une maladie touche une personne sur mille en moyenne. Le test qui la détecte est fiable à 90%. Mac Lean nous annonce que nous sommes détectés positifs. Faut-il rester calme, être préoccupé ou paniquer ?

faut-il paniquer ?

Charlatans.info pose aussi cette question, et nous donne les éléments pour y répondre.

Sur 1000 personnes, 10 sont atteintes. Statistiquement, 9 seront détectées, et une ne sera pas diagnostiquée, par erreur. Et sur les 990 personnes saines, environ 99 seront diagnostiquées, soit 10%. Nous aurons donc 9 personnes détectées à juste titre, sur 108 (9 + 99)... soit 8,9%.

Je ne sais pas vous, mais moi, je me sens mieux !

Pourquoi toutes ces erreurs ?

Catriona Maclean et les participants à sa formation apportent des explications aux erreurs statistiques. D'abord une question de culture. Les statistiques sont peu enseignées, et certains journalistes ou scientifiques sont  peu passionnés par les méthodes mathématiques qui amènent aux résultas. Leurs lecteurs ne sont d'ailleurs pas plus passionnés.

Plus grave, certains chercheurs veulent à tout prix démontrer un résultat, et ils ne retiendront donc que les données qui viennent conforter leur thèse. Il suffit de disposer de centaines d'études sur un sujet, et statistiquement, on en trouve forcément qui sont plus favorables, et sur lesquelles il est possible de s'appuyer.

les erreurs

 

illustrations : Frédéric Duriez

sources

David Louapre sur Science étonnante Le paradoxe des anniversaires
https://sciencetonnante.wordpress.com/2012/05/28/le-paradoxe-des-anniversaires/

Raghi sur Mole.net Des paradoxes statistiques plus fréquents qu'on ne croit
http://blog.m0le.net/2014/06/14/des-paradoxes-statistiques-plus-repandus-quon-ne-croit/

Charlatans.info : "Les pièges statistiques", consulté le 15 avril 2016
http://www.charlatans.info/pieges-statistiques.php

Avez-vous apprécié cette page?

Voir plus d'articles de cet auteur