Bonjour Sami Biasoni, vous êtes l’auteur du livre Le Statistiquement correct. Qu’est-ce qui vous a poussé à écrire cet ouvrage ?
Très prosaïquement, c’est à partir de mon expérience de citoyen que j’ai eu la volonté d’écrire cet ouvrage. Quotidiennement, je suis confronté à l’information abondante produite ou relayée par les médias et, bien souvent, il apparaîtune certaine facilité à manipuler des chiffres qui sont assimilés à des arguments descriptifs du réel par le public, sans regard critique. J’ai été maintes fois étonné par l’absence de questionnement vis-à-vis de ces chiffres.
Il se trouve que, pour le magazine Causeur, j’avais étudié en 2019 la question des écarts de salaires entre les hommes et les femmes et je m’étais rendu compte qu’il y avait une différence très importante entre des travaux académiques rigoureux et le discours politique défendu, notamment, par le Gouvernement de l’époque.
Ensuite, est survenue la crise du Covid. La donnée statistique a été déterminante lors de cette période au point de conditionner l’adoption de mesures radicales comme le confinement de la population. C’est sur la base d’indicateurs simples comme le taux de contamination ou encore le taux de reproduction du virus couplés à des seuils rigides qu’ont été automatiquement actées des décisions politiques majeures. C’est précisément cet épisode qui m’a motivé à regarder, dans le détail, la manière dont ces chiffres ont été produits. J’ai en quelque sorte ouvert la boîte de Pandore : je me suis rendu compte que la plupart des données statistiques produites dans le cadre de notre débat public peut être discutée, remise en cause ou questionnée.
Votre ouvrage est centré sur ce que vous appelez le « statistiquement correct ». Pouvez-vous nous expliquer ce que signifie cette notion ?
Je distingue ce qui est « correct statistiquement » du « statistiquement correct ».
Ce qui est correct statistiquement correspond à tout résultatquantitatif établi selon les canons de la discipline statistique. C’est-à-dire sur la base d’hypothèses bien formées et d’un niveau minimal de transparence quant aux données brutes et aux approximations méthodologiques consenties.
A contrario, le statistiquement correct a l’apparence du vrai, mais il repose sur des hypothèses fausses, une mauvaise représentation de la réalité ou une incapacité technique à maîtriser les subtilités mathématiques sous-jacentes et peut, in fine, duper.
J’établis un parallèle avec le politiquement correct qui, en empêchant la bonne formulation des mots, nuit à la représentation honnête du réel. Le statistiquement correct est, en quelque sorte, son pendant dans l’univers statistique.
Dans votre ouvrage, vous faites une histoire de la statistique en débutant son origine comme un outil au service du pouvoir politique. Est-ce que la statistique est toujours l’apanage du pouvoir ou s’est-elle « démocratisée » ?
D’une certaine manière, la statistique est devenue accessible à tout le monde. De nombreuses institutions intermédiaires sont aujourd’hui productrices de données statistiques. Je pense aux instituts de sondage, aux centres d’études privés ou encore aux centres de recherche universitaire. La statistique n’est plus l’apanage du statiste (de l’homme d’état), mais reste néanmoins l’un des instruments du pouvoir.
Dans nos démocraties contemporaines, pour éviter le fait du prince, le choix discrétionnaire, le gouvernant doit pouvoir étayer ses prises de décision. La statistique est devenue l’un des supports les plus importants de la légitimation des politiques publiques. La crise du Covid que nous avons précédemment évoquée l’atteste, en raison de son fonctionnement presque systématique : un chiffre et son seuil, un dépassement, une mesure.
En constatant l’influence qu’elle a sur le pouvoir politique, il semble évident de s’intéresser à ceux qui produisent la statistique. Qui sont-ils en France ?
Elle est produite à différents niveaux : aussi bien au niveau de l’État que d’instances décentralisées.
Au niveau de l’État, nous songeons au premier chef à l’INSEE bien sûr. Mais il est loin d’être le seul organisme en la matière. Les ministères sont également dotés de leursservices de production et d’analyse statistique. On a aussi affaire aux grandes mairies, comme celle de Paris, qui mettent à disposition de la donnée brute ou retraitée ; les régions ou les départements également. De nombreux autres organismes publics comme la police ou encore les préfectures peuvent aussi être à l’origine de la production de chiffres. Nous bénéficions donc en France d’une pluralité appréciable de sources.
Il existe par ailleurs de nombreux acteurs privés dont ceux que nous avons déjà cités. La statistique sert aussi les milieux économiques : on la retrouve en épidémiologie ou en médecine notamment.
Nous sommes aussi régulièrement confrontés à des formes que je qualifierais de moins « pures ». Il s’agit des statistiques produites par les autres acteurs : étudiants, think tanks, groupes de travail politiques ou même émissions de télévision qui tentent d’élaborer de la statistique à des échelles plus modestes.
Cette pluralité de sources de production de la statistique peut-elle nous amener à nous questionner sur la rigueur des travaux d’élaboration de la donnée ?
Il faut tout d’abord dissocier les milieux académique et institutionnel qui, en France, produisent une recherche de qualité. En écrivant ce livre, je n’ai jamais eu la prétention d’apprendre aux statisticiens à faire de la statistique. Mais il faut observer que même des professionnels aguerris peuvent se tromper parce qu’il s’agit d’une science appliquée à la foisexigeante et difficile. Dans le domaine de la recherche, fort heureusement, la fraude reste plutôt marginale. Les erreurs et approximations le sont un peu moins, notamment en sciences humaines.
En revanche, il est rare de trouver ce même niveau de qualité dès lors que l’on quitte ces milieux.
En montrant à vos lecteurs que la statistique peut être manipulable d’une certaine façon, mais aussi faire l’objet de biais divers, souhaitez-vous permettre une forme de démystification de la matière ?
La statistique jouit – comme toutes les disciplines mathématiques d’ailleurs – d’un certain prestige. Elle paraît absconse et réservée à une certaine élite. C’est effectivement une matière difficile à manipuler, je l’ai dit. Toutefois, la maîtrise de concepts simples, l’attention accordée aux sujets et la connaissance des biais et écueils courants peuvent permettre à tout citoyen d’exercer son esprit critique. C’est ce que je tente de démontrer dans cet essai en travaillant sur des chiffres connus ayant trait à des sujets très divers. Bien souvent, à partir d’analyses assez simples, on parvient à débusquer les biais en cause. Le Statistiquement correct ambitionne d’éveiller les consciences vis-à-vis de ce que j’appelle une « éthique de responsabilité statistique ».
Cette difficulté pour les personnes de repérer les erreurs statistiques n’est-elle pas la marque d’un vide laissé par l’apprentissage des mathématiques au cours de l’enseignement secondaire ?
Il est vrai que l’enseignement des statistiques reste marginal en France, même dans les cursus scientifiques qui accordent la primauté aux probabilités et qui négligent ce champ disciplinaire appliqué. Sauf que – comme toute science appliquée – elle a ses subtilités propres. Ainsi, même des ingénieurs bien formés peuvent se tromper.
Dans le cursus commun, c’est comme pour l’économie : si les Français maîtrisent si mal l’économie, qui est également une matière ardue, c’est aussi parce qu’on l’enseigne trop peu, voire pas.
Vous évoquez l’IA et les risques qui pourraient subvenir vis-à-vis de la matière statistique. Quels sont-ils ?
L’IA ne produit pas de la statistique. L’IA se nourrit de statistiques, elle en est même pétrie. Une IA ne pense pas, elle fonctionne à partir de ce que l’on appelle des « structures de corrélation », c’est-à-dire qu’elle utilise des volumes de données gigantesques et essaie de calculer comment ces données se coordonnent.
Plusieurs biais spécifiques peuvent émerger de cela. Par exemple, la confusion entre la cause et la causalité. Une IA va, par construction, considérer que deux phénomènes qui ont évolué ensemble par le passé ont une forte probabilité de continuer à le faire. Ce fonctionnement, même s’il a sa rationalité, n’établit pas de vérités pour le futur. Il comporte un risque indéniable s’il n’est pas confronté à la science et au regard critique humain.
Contrairement aux êtres humains dont l’intelligence est permissive à l’incertitude, les IA peuvent se fourvoyer quand elles sont exposées à des données peu fiables ou de mauvaise qualité.
L’IA est utile et le sera de plus en plus. Pour le moment, elle n’a ni système de valeurs abstrait, ni capacité de symbolisation, ni représentation morale théorique.
Quel exemple de « statistiquement correct » vous a personnellement le plus surpris ?
Il y en a plusieurs.
Le premier est celui qui a trait à l’influence des écrans sur les adolescents. Contrairement à ce que le bon sens pourrait nous laisser penser, les travaux académiques de référence ne permettent pas de démontrer de causalité fâcheuse en la matière. Cela m’a surpris, je consacre un chapitre de l’ouvrage à cette question.
Le second concerne les coûts et gains économiques liés à l’immigration. En tant que citoyen, j’avais assisté en spectateur à la séquence médiatique liée à la publication d’étude de l’OCDE datée de 2021 sur ce thème. La presse avait repris presque unanimement la synthèse faite par l’AFPde ces travaux, synthèse spécifiant que l’immigration ne constituerait pas un coût en France.
Ce consensus apparent m’avait alors poussé à y regarder de plus près. Une simple lecture attentive du rapport de l’OCDE invalide ce résultat, le rapport indiquant sans ambiguïté que si l’on intègre tous les facteurs pertinents, il apparaît un coût économique à l’immigration. C’est un cas d’espèce, qui vient illustrer la manière dont les médias se sont emparés du sujet en fonction de leur orientation politique : d’un côté une presse plutôt favorable à l’immigration qui a repris de manière erronée l’étude, sans regard critique ; de l’autre côté, une presse plutôt anti-immigrationniste qui, au lieu de contester ces chiffres, a choisi de ne pas évoquer le sujet.
Se pose donc une question sur la formation des journalistes…
Les journalistes sont très souvent issus d’une formation en sciences humaines. Il s’agit de professionnels qui peuvent se targuer d’une grande de finesse dans l’analyse des situations et d’une culture générale développée, mais qui, pour la plupart, ont assez peu pratiqué les mathématiques.
C’est pourquoi, sans mauvaise intention, de nombreux journalistes produisent des affirmations « statistiquement correctes » malgré eux.
Au sein des grandes rédactions il y a des secrétaires de rédaction qui vérifient et corrigent la sémantique, la syntaxe ou l’orthographe des productions écrites mais le rôle équivalent du point de vue des données statistiques n’existe pas vraiment.
Comment la statistique peut-elle être remise au service de la démocratie ?
Je pense qu’elle l’est déjà. Je ne critique pas la statistique en elle-même. Ceux qui la critiquent sans nuance figurent souvent dans le camp populiste parce qu’ils ne la perçoivent que comme l’instrument des puissants. La statistique est pourtant au cœur de notre vie démocratique. Il ne faut ni l’aseptiser ni la fétichiser. Nous devons atteindre collectivement cette « éthique de responsabilité statistique » que j’appelle de mes vœux. Pour y parvenir, il nous faut par exemple promouvoir le principe de reproductibilité, essentiel dans le domaine scientifique : pour qu’un résultat puisse être accepté, il doit pouvoir être obtenu indépendamment par autrui.
Le fait de ne pas communiquer les données brutes employées, de ne pas spécifier les approximations méthodologiques consenties sont des mauvaises pratiques courantes qui nuisentgrandement à l’exigence de reproductibilité.
Propos recueillis par Théo Dutrieu
