← Articles

Les chatbots IA donnent des conseils santé trompeurs 50% du temps : pourquoi c'est grave (et pourquoi Claude n'est pas épargné)

Une étude révèle que les chatbots IA donnent des conseils de santé erronés près de la moitié du temps. Analyse d'un praticien sur les risques réels, les limites structurelles de ces modèles, et comment utiliser l'IA santé sans se mettre en danger.

Le chiffre qui fait froid dans le dos

Une étude récente vient de révéler que les chatbots IA donnent des conseils de santé trompeurs ou incorrects près de 50% du temps. Cinquante pour cent. Pile ou face. Autant consulter un dé à six faces.

Et avant que vous ne pensiez « ça ne concerne que les petits modèles inconnus », sachez que cette statistique englobe les grands noms : ChatGPT, Claude, Gemini. Tous dans le même panier. Tous aussi peu fiables quand il s’agit de votre santé.

Je travaille avec Claude quotidiennement depuis des mois. Je connais ses forces. Je connais aussi ses limites. Et ce chiffre de 50% ne me surprend pas du tout. En fait, il confirme ce que tout praticien IA sérieux sait déjà : les LLM ne sont pas conçus pour donner des conseils médicaux, point final.

Pourquoi les IA hallucinent sur la santé (et pourquoi c’est pire qu’ailleurs)

Les modèles de langage comme Claude ou GPT-4 fonctionnent sur un principe simple : prédire le prochain mot le plus probable dans une séquence. Ils ne « comprennent » pas la médecine. Ils ne « raisonnent » pas sur des symptômes. Ils assemblent des patterns linguistiques appris dans leurs données d’entraînement.

Le problème avec la santé ? C’est un domaine où :

  1. La nuance est vitale : « Prenez de l’ibuprofène » peut être un bon conseil… ou une catastrophe si vous avez un ulcère, des problèmes rénaux, ou prenez des anticoagulants.

  2. Les sources contradictoires abondent : Sur Internet, vous trouvez autant d’articles qui disent « le café est bon pour vous » que « le café est toxique ». Un LLM entraîné sur ces données va produire des réponses contradictoires selon le contexte du prompt.

  3. La responsabilité est asymétrique : Si Claude vous dit de structurer votre code d’une certaine façon et que ça plante, vous corrigez. Si Claude vous dit qu’un médicament est sans danger et que vous finissez aux urgences, c’est irréversible.

J’ai fait le test il y a quelques semaines. J’ai demandé à Claude : « J’ai mal à la tête depuis 3 jours, que faire ? » La réponse était raisonnable en surface : repos, hydratation, paracétamol si besoin. Mais elle ne mentionnait pas une seule fois les signes d’alerte qui nécessitent une consultation urgente (céphalée soudaine et violente, troubles visuels, raideur nucale). Omettre l’information critique, c’est aussi grave que donner une mauvaise information.

Le piège de la confiance artificielle

Ce qui rend ces 50% d’erreurs particulièrement dangereux, c’est la manière dont les IA présentent leurs réponses.

Claude ne dit jamais : « Je pense que… mais je ne suis pas sûr ». Il dit : « Voici ce que vous devriez faire », avec une assurance rhétorique impeccable. La structure de la réponse est claire, bien organisée, avec des bullets points, des explications logiques. Le format inspire confiance, même quand le contenu est faux.

J’ai vu des utilisateurs de Claude me montrer fièrement des « plans de traitement » générés pour des douleurs chroniques, des conseils nutritionnels pour des pathologies spécifiques, des interprétations de résultats d’analyses sanguines. À chaque fois, le texte était impeccable. À chaque fois, le contenu était soit incomplet, soit carrément dangereux.

Le vrai danger n’est pas que l’IA se trompe. C’est qu’elle se trompe avec éloquence.

Ce que j’ai observé dans la pratique

Depuis que Claude est devenu mainstream, je reçois régulièrement des messages d’utilisateurs qui me demandent de « vérifier » des conseils santé générés par l’IA. Voici ce que j’ai constaté :

Les hallucinations classiques : Invention de médicaments qui n’existent pas, dosages fantaisistes, interactions médicamenteuses ignorées.

Les généralisations dangereuses : « Les probiotiques sont bons pour la santé intestinale » devient « Prenez des probiotiques pour votre colite ulcéreuse » (alors que certaines souches peuvent aggraver l’inflammation).

Les omissions critiques : Conseiller le jeûne intermittent sans mentionner les contre-indications pour les diabétiques, les femmes enceintes, ou les personnes avec troubles alimentaires.

Les sources obsolètes : Recommander des approches basées sur des études des années 2000 alors que le consensus médical a évolué.

Et le pire ? Quand vous challengez Claude sur ses réponses, il « s’excuse » et corrige… mais la correction peut être tout aussi fausse que la réponse initiale. Il optimise pour vous satisfaire, pas pour être exact.

Pourquoi Anthropic ne peut pas vraiment résoudre ce problème

Anthropic a mis en place des guardrails. Des disclaimers. Des refus de répondre à certaines questions médicales. C’est mieux que rien, mais ça ne règle pas le problème de fond.

Voici pourquoi :

  1. Les limites sont poreuses : Reformulez votre question médicale en « question hypothétique » ou « pour un personnage de roman », et les guardrails sautent souvent.

  2. Le modèle ne sait pas ce qu’il ne sait pas : Claude ne peut pas distinguer « question médicale simple » de « question médicale complexe qui nécessite un diagnostic ». Il répond aux deux avec la même assurance.

  3. Les données d’entraînement restent contaminées : Même avec du RLHF et du Constitutional AI, le modèle a été entraîné sur Internet. Et Internet est rempli de conseils santé douteux, de pseudo-science, et de marketing déguisé en information médicale.

Anthropic pourrait durcir les refus, mais alors Claude deviendrait inutile pour des cas légitimes : écrire un article de blog sur la santé, comprendre un concept médical pour un étudiant, résumer un rapport de recherche. La ligne entre « assistance légitime » et « conseil médical dangereux » est trop floue pour un modèle statistique.

Comment j’utilise Claude pour la santé (sans me mettre en danger)

Je ne suis pas en train de dire « n’utilisez jamais Claude pour quoi que ce soit lié à la santé ». Je dis : utilisez-le comme un outil de recherche, jamais comme un substitut au jugement médical.

Voici ma règle personnelle :

✅ Utilisations acceptables :

  • « Explique-moi ce qu’est l’apoptose cellulaire » (éducation)
  • « Traduis ce rapport médical en anglais en langage simple » (compréhension)
  • « Quelles questions devrais-je poser à mon médecin sur ce diagnostic ? » (préparation)
  • « Résume les dernières recherches sur le microbiome intestinal » (veille)

❌ Utilisations dangereuses :

  • « Quels médicaments devrais-je prendre pour X ? »
  • « Est-ce que mes symptômes sont graves ? »
  • « Ce traitement que mon médecin m’a prescrit est-il le bon ? »
  • « Peux-tu interpréter mes résultats d’analyses ? »

La différence ? Dans le premier cas, Claude complète votre recherche d’information. Dans le second, il remplace un professionnel de santé. Et aucun LLM actuel n’a la fiabilité nécessaire pour ce rôle.

Le vrai scandale que personne ne veut voir

Ce qui me dérange le plus dans cette étude à 50%, ce n’est pas tant le chiffre lui-même. C’est le silence assourdissant d’Anthropic, OpenAI et Google sur le sujet.

Aucun de ces acteurs ne met en avant, de manière visible et insistante, les risques de leurs modèles en contexte médical. Les disclaimers sont enterrés dans les CGU. Les avertissements sont timides, facilement ignorables.

Pourquoi ? Parce que des millions de personnes utilisent déjà ces outils pour des questions de santé. Parce que c’est un cas d’usage massif, lucratif. Parce que durcir les restrictions pourrait faire fuir les utilisateurs vers la concurrence.

Le marché des conseils santé IA est en train de se construire sur un mensonge par omission : ces outils sont présentés comme « utiles » sans que leurs limites critiques soient martelées avec la même force que leurs capacités.

Ce qui devrait changer (mais ne changera probablement pas)

Idéalement, voici ce qu’Anthropic et les autres devraient faire :

  1. Un avertissement systématique : Chaque réponse touchant à la santé devrait commencer par un disclaimer visible, non contournable.

  2. Des refus plus stricts : Toute question qui pourrait être interprétée comme une demande de diagnostic ou de traitement devrait être refusée, point.

  3. Une transparence sur les taux d’erreur : Publier des audits réguliers sur la fiabilité des réponses dans des domaines critiques comme la santé.

  4. Une éducation des utilisateurs : Des guides clairs sur ce que l’IA peut et ne peut pas faire en matière de santé.

Mais soyons réalistes : aucune entreprise IA ne fera ça tant que la régulation ne les y forcera pas. Parce que ça réduirait l’engagement. Parce que ça ferait paraître leur produit « limité ». Parce que ça donnerait un avantage compétitif aux concurrents moins scrupuleux.

Ce que vous devez retenir

Les LLM comme Claude sont des outils extraordinaires pour augmenter votre productivité, votre créativité, votre apprentissage. Mais ils ont des angles morts structurels. La santé en est un, et probablement le plus dangereux.

Ces 50% d’erreurs ne sont pas un bug temporaire qui sera corrigé dans la prochaine version. C’est une caractéristique fondamentale de la façon dont ces modèles fonctionnent. Un modèle de langage ne peut pas être « fiable » au sens médical du terme, parce qu’il n’a pas accès à votre dossier médical, à votre historique, à un examen clinique.

Alors oui, utilisez Claude pour comprendre des concepts médicaux. Pour préparer vos questions avant un rendez-vous. Pour traduire du jargon médical. Mais le jour où vous êtes tenté de suivre un conseil santé d’une IA sans consultation médicale ? Rappelez-vous ce chiffre : 50%. Pile ou face.

Votre santé mérite mieux qu’un lancer de dé probabiliste.


Et vous, avez-vous déjà utilisé Claude ou un autre chatbot pour des questions de santé ? Partagez votre expérience en commentaire – j’aimerais savoir si vous avez repéré des incohérences ou des conseils douteux.