Anthropic piraté : quand Mythos « trop dangereux pour sortir » devient accessible à tous (l’incident qui révèle le mensonge de la sécurité IA)
Le scénario qu’Anthropic redoutait vient de se produire. Mythos, cet outil IA de cybersécurité jugé « trop dangereux pour être rendu public », a été accessible à des utilisateurs non autorisés. La BBC et Euronews rapportent qu’Anthropic enquête sur cet accès non autorisé, confirmant ainsi ce que beaucoup soupçonnaient déjà : la stratégie de « sécurité par rétention » n’est qu’un château de cartes.
Et voilà pourquoi cet incident change tout.
La faille n’est pas technique, elle est structurelle
Quand Anthropic a annoncé Mythos fin 2024, l’argumentaire était limpide : cet outil capable d’identifier des failles de sécurité critiques ne pouvait pas être diffusé largement, car il donnerait un avantage déloyal aux attaquants. Une posture responsable en apparence.
Mais voilà le problème fondamental : si un système existe, il finira par fuiter. Ce n’est pas du pessimisme, c’est de la physique informatique de base.
L’incident actuel ne provient pas d’une vulnérabilité technique sophistiquée dans l’infrastructure d’Anthropic. Il expose quelque chose de bien plus profond : l’impossibilité matérielle de garder secret un système IA déployé à échelle. Dès qu’un modèle est accessible via API, même restreinte, dès qu’il tourne sur des serveurs, dès que des employés y ont accès, la surface d’attaque devient massive.
Comparez avec les fuites chez Meta (LLaMA 1 a fuité sur 4chan), chez OpenAI (GPT-4 a été reverse-engineered par des chercheurs), chez Google (Bard a été démontré accessible via injection de prompts avant même son lancement officiel). Aucune entreprise n’a réussi à maintenir un modèle secret longtemps.
Ce que révèle vraiment cet incident sur Mythos
Parlons franchement : Mythos est probablement un excellent outil. Capable d’analyser du code, d’identifier des vulnérabilités zero-day, de simuler des attaques pour tester la résilience des systèmes. Anthropic a investi des mois de recherche là-dedans.
Mais l’incident actuel révèle trois vérités inconfortables :
1. La « dangerosité » était surestimée (ou utilisée comme outil marketing)
Si Mythos était vraiment aussi dangereux qu’annoncé, Anthropic n’aurait jamais dû le déployer du tout. Pas même en accès restreint au Pentagone ou à des « entreprises de confiance ». Car dès qu’un système existe en production, il est vulnérable.
L’alternative ? Ne jamais le construire. Ou le garder exclusivement en recherche interne, sans déploiement. Anthropic a choisi une voie intermédiaire qui maximise l’impact marketing (« regardez comme on est responsables, on retient l’outil ») tout en permettant quand même des partenariats lucratifs.
2. L’accès « restreint » crée une fausse impression de contrôle
Quand vous réservez un outil à une élite (gouvernements, grandes entreprises), vous créez mécaniquement une asymétrie d’information. Ces acteurs peuvent utiliser Mythos pour sécuriser leurs systèmes. Les PME, les ONG, les chercheurs indépendants, eux, ne peuvent pas.
Cette asymétrie était déjà problématique sur le plan éthique. Mais elle devient absurde dès qu’on réalise que les attaquants ont désormais accès à Mythos aussi. Résultat : vous avez créé un système à deux vitesses où seuls les riches sont protégés, mais où tout le monde est vulnérable.
3. Anthropic n’a pas de plan B
Voici ce qui m’inquiète le plus : Anthropic « enquête ». Bien. Et après ?
Si l’accès a été obtenu via une faille technique, ils peuvent la corriger. Mais si l’accès a été obtenu via ingénierie sociale, phishing d’employés, ou credential stuffing sur des comptes partenaires, la même faille existera demain. Car le problème n’est pas le code, c’est l’impossibilité de contrôler totalement la distribution d’un système numérique.
La seule vraie solution serait de rendre Mythos public, documenté, accessible à tous les chercheurs en sécurité. Ainsi, les défenseurs auraient les mêmes outils que les attaquants. C’est exactement ce que fait l’industrie cybersécurité depuis des décennies avec les outils de pentesting (Metasploit, Burp Suite, Wireshark, etc.).
Pourquoi cette approche « sécurité par rétention » ne tiendra jamais
Il existe un précédent historique parfait : la cryptographie.
Dans les années 70-80, les gouvernements considéraient que les algorithmes de chiffrement fort devaient rester secrets, réservés aux militaires. Publier PGP ou AES serait « irresponsable » car ça donnerait des outils aux criminels.
Mais les chercheurs ont fini par démontrer que la sécurité par l’obscurité ne fonctionne jamais. Les algorithmes ont fuité. Les adversaires les ont obtenus. Et finalement, l’industrie a adopté le principe de Kerckhoffs : un système doit rester sûr même si tout est public, sauf la clé.
Résultat aujourd’hui : AES, RSA, et les autres algos sont publics, audités par des milliers de chercheurs, et justement parce qu’ils sont publics, ils sont robustes. Les failles sont détectées et corrigées avant d’être exploitées massivement.
Mythos suit exactement la même trajectoire. Anthropic essaie de maintenir l’illusion du contrôle, mais l’outil va finir par fuiter complètement. La seule question est : combien de temps avant que ça arrive ? Et combien de dégâts entre-temps ?
Ce que ça change pour vous, utilisateurs de Claude
Si vous utilisez Claude au quotidien, vous vous demandez peut-être en quoi Mythos vous concerne. Voici pourquoi c’est important :
Anthropic vend une image de « responsabilité » qui ne tient pas
Tout le positionnement d’Anthropic repose sur l’idée qu’ils sont plus prudents, plus éthiques, plus réfléchis qu’OpenAI ou Google. Mythos était une pièce maîtresse de ce récit : « voyez, on refuse de diffuser des outils dangereux ».
Mais si cette rétention ne fonctionne pas, si l’outil fuite quand même, alors le récit s’effondre. Vous n’avez ni la sécurité promise, ni l’accès ouvert que d’autres stratégies auraient permis. Vous avez le pire des deux mondes.
Ça influence la roadmap de Claude
Si Anthropic doit gérer des crises de sécurité sur Mythos, ça monopolise des ressources. Ressources qui pourraient servir à améliorer Claude, ajouter le multi-modal avancé, optimiser les coûts d’API, ou développer des features que vous attendez (artifacts collaboratifs, historique plus long, recherche web native, etc.).
Chaque dollar et chaque heure passés à « sécuriser » un système fondamentalement insécurisable, c’est un dollar et une heure en moins sur le produit principal.
Ça révèle une culture interne problématique
Quand une entreprise prend des décisions incohérentes (construire un outil « trop dangereux », puis le déployer quand même en mode restreint), ça signale souvent des tensions internes entre équipes.
L’équipe recherche veut probablement publier ouvertement. L’équipe business veut monétiser via des contrats gouvernementaux. L’équipe sécurité veut tout garder fermé. Et au final, personne n’obtient vraiment ce qu’il veut.
Cette incohérence se répercute sur les produits que vous utilisez. Claude a des comportements parfois contradictoires (ultra-prudent sur certains sujets, étrangement permissif sur d’autres). Ces contradictions viennent souvent de cette même culture interne tiraillée.
Ce qu’Anthropic devrait faire maintenant
Voici ce que je ferais si j’étais à la place de Dario Amodei :
-
Reconnaître publiquement que la rétention a échoué. Pas de langue de bois, pas de « nous enquêtons ». Un vrai mea culpa.
-
Publier Mythos en open source, immédiatement. Avec documentation complète, cas d’usage, limites connues. Laisser la communauté cybersécurité l’auditer, le tester, l’améliorer.
-
Lancer un bug bounty massif. Payer des chercheurs pour trouver des failles dans Mythos lui-même. Transformer le problème en opportunité.
-
Arrêter définitivement la stratégie de « modèles secrets ». Si un modèle est trop dangereux pour exister, ne le construisez pas. S’il existe, rendez-le public.
-
Recentrer les ressources sur Claude. C’est le produit qui marche, celui que les gens utilisent, celui qui génère de la valeur réelle.
Mais je doute qu’ils le fassent. Parce que ça impliquerait d’admettre que toute la stratégie « Constitutional AI » et « responsabilité par rétention » était une impasse.
La vraie leçon : la sécurité ne se cache pas, elle se partage
Ce qui me frappe dans cet incident, c’est à quel point il était prévisible. Tous les experts en sécurité vous le diront : security through obscurity doesn’t work. Jamais. Nulle part.
La seule sécurité durable, c’est celle qui repose sur des systèmes ouverts, audités, testés par des milliers d’yeux. C’est pour ça que Linux est plus sûr que Windows sur serveurs. C’est pour ça que Signal est plus fiable que Telegram. C’est pour ça que les outils de pentesting publics ont permis de renforcer la cybersécurité globale.
Mythos aurait dû suivre ce modèle dès le départ. Au lieu de ça, Anthropic a choisi le théâtre sécuritaire, probablement pour décrocher des contrats gouvernementaux juteux. Et maintenant, ils se retrouvent avec le pire scénario : un outil qui a fuité, mais dont la fuite n’est ni contrôlée, ni documentée, ni exploitable pour le bien commun.
Ce que vous devez retenir
Si vous utilisez Claude, si vous suivez l’actualité IA, si vous travaillez dans la cybersécurité, retenez ceci :
Il n’existe aucun moyen de garder secret un système IA déployé à échelle. Aucun. Les fuites ne sont pas des bugs, ce sont des features inévitables de tout système numérique.
La seule question pertinente n’est pas « comment empêcher l’accès », mais « comment maximiser l’usage positif une fois que l’accès est obtenu ». Et la réponse à cette question passe toujours par l’ouverture, la documentation, la transparence.
Anthropig a raté cette évidence avec Mythos. Espérons qu’ils ne répéteront pas l’erreur avec les prochains modèles Claude.
Et vous, qu’en pensez-vous ? Anthropic devrait-il publier Mythos en open source maintenant que la fuite a eu lieu ? Ou doubler la mise sur la sécurisation et espérer mieux contrôler l’accès ? Partagez votre avis dans les commentaires, ou contactez-moi directement si vous avez des insights sur cet incident. La conversation doit avoir lieu, et elle doit être publique.