L’annonce qui passe inaperçue mais qui change tout
Google vient de déployer la génération d’images personnalisées directement dans l’app Gemini. Pas d’annonce fracassante, pas de keynote spectaculaire. Juste une mise à jour blog sobre qui introduit une fonctionnalité que j’utilise déjà quotidiennement depuis 48h — et qui me fait réaliser à quel point Claude accuse un retard stratégique sur le terrain du multimodal génératif.
L’idée est simple : vous discutez avec Gemini, et au détour d’une conversation, vous pouvez lui demander de générer une image en incluant votre propre visage, celui de vos collègues, ou de vos proches. Plus besoin de jongler entre plusieurs outils. Plus besoin d’exporter vers Midjourney ou DALL-E. Tout se passe dans le flux conversationnel.
Et c’est précisément là que réside la révolution.
Pourquoi c’est bien plus qu’une feature gadget
J’ai testé hier pour préparer une présentation client. Contexte : je devais illustrer un concept de parcours utilisateur pour une plateforme e-learning. Habituellement, ça implique soit des photos stock insipides, soit une session Midjourney de 30 minutes à raffiner des prompts, soit un appel à un graphiste.
Avec Gemini, ça a pris 3 minutes.
J’ai uploadé une photo de moi (prise au téléphone, rien de pro), puis demandé : “Génère une image de moi en train de donner une formation dans une salle moderne, avec des participants engagés, style photographique naturel.”
Résultat : une image cohérente, utilisable, qui m’a permis d’humaniser ma présentation sans friction. Pas parfaite — les mains restent un défi pour tous les modèles génératifs — mais largement au-dessus du seuil d’utilisabilité.
Ce qui m’a frappé, c’est la continuité de l’expérience. Je n’ai pas quitté ma conversation. Je n’ai pas changé d’outil. L’IA multimodale devient réellement multimodale : elle comprend du texte, analyse des images, et en génère de nouvelles, le tout dans un flux unique.
Le retard d’Anthropic devient gênant
Claude sait lire des images depuis longtemps. Il excelle même dans l’analyse visuelle — bien mieux que Gemini sur des tâches complexes comme l’extraction de données depuis des tableaux ou l’interprétation de schémas techniques.
Mais Claude ne génère pas d’images. Zéro. Nada.
Et ce n’est pas anodin. Parce que dans l’usage quotidien, l’IA qui résout le plus de problèmes gagne. Peu importe que Claude soit techniquement supérieur sur l’analyse de code ou la rédaction nuancée. Si je dois constamment jongler entre Claude pour la réflexion et Gemini/ChatGPT pour le visuel, je finis par rester sur l’outil qui fait les deux.
J’ai interrogé des développeurs et des responsables produit dans mon réseau la semaine dernière. Le constat est unanime : la génération d’images n’est pas une “nice to have”. C’est devenu un must-have pour l’IA conversationnelle en 2025.
Pourquoi ? Parce que nos workflows sont visuels. Un prototype d’interface, un mockup de landing page, une illustration pour une doc technique, un visuel pour une présentation — ces besoins surgissent constamment, au milieu d’autres tâches.
Anthropic a fait le choix de la spécialisation sur le texte et le raisonnement. C’est un positionnement défendable. Mais c’est aussi un pari risqué : celui de laisser les concurrents définir ce qu’est une IA “complète”.
Ce que Google a compris (et que Claude devrait intégrer)
La vraie innovation de cette mise à jour Gemini, ce n’est pas la techno sous-jacente. Imagen 3, le modèle de génération d’images de Google, existe depuis des mois. La vraie innovation, c’est l’intégration dans le contexte conversationnel.
Google a compris que l’IA ne doit pas être une collection d’outils spécialisés qu’on active séparément. Elle doit être un assistant cognitif complet qui bascule naturellement entre les modalités selon le besoin.
Vous discutez stratégie marketing ? L’IA vous aide à structurer vos idées en texte. Vous avez besoin d’un visuel pour illustrer ? Elle le génère. Vous voulez analyser les performances d’une campagne depuis un screenshot ? Elle lit et interprète.
Tout ça sans rupture, sans changement d’interface, sans friction.
C’est exactement ce qu’Anthropic devrait viser avec Claude. Pas forcément en développant son propre modèle de génération d’images — ça pourrait être un partenariat, comme Microsoft a intégré DALL-E dans ChatGPT. Mais l’absence totale de cette capacité devient un handicap stratégique.
Les cas d’usage qui émergent (et qui vont exploser)
Depuis que j’utilise cette fonctionnalité Gemini, trois scénarios reviennent constamment :
1. Prototypage visuel rapide
Un chef de produit dans une startup SaaS m’a raconté avoir généré 15 variations d’une interface utilisateur en 20 minutes, en discutant simplement avec Gemini et en itérant visuellement. Avant, ça lui prenait une journée avec un designer.
2. Contenu personnalisé à échelle
Une responsable formation crée maintenant des supports pédagogiques avec des illustrations sur-mesure pour chaque module, en incluant des représentations visuelles adaptées à son audience (secteur santé, finance, etc.). Le gain de temps est massif.
3. Communication interne humanisée
Plusieurs équipes RH utilisent des avatars générés pour créer des communications internes moins froides, plus engageantes. C’est cosmétique, mais ça change la perception.
Ces trois cas ont un point commun : ils ne nécessitaient pas un niveau de qualité “production”. Ils nécessitaient de la rapidité et de la cohérence. Et c’est précisément ce que l’IA générative apporte.
Les limites (parce qu’il faut rester lucide)
Tout n’est pas rose. J’ai rencontré plusieurs problèmes :
La qualité reste variable. Sur dix générations, deux ou trois sont vraiment exploitables sans retouche. Les autres nécessitent des ajustements ou des régénérations.
Les visages restent compliqués. La ressemblance est là, mais quelque chose cloche souvent dans l’expression ou les proportions. C’est dans la “vallée de l’étrange” — assez bon pour être troublant, pas assez pour être totalement convaincant.
Les questions éthiques persistent. Google a intégré des watermarks et des métadonnées pour identifier les images générées, mais rien n’empêche leur usage malveillant. La deepfake est à portée de prompt.
Et surtout : la dépendance s’installe. Après deux jours, je me surprends à demander systématiquement à Gemini de générer des visuels, même quand une simple photo stock ferait l’affaire. L’outil devient invisible, et c’est à la fois sa force et son piège.
Ce qu’Anthropic devrait faire (mon avis tranché)
Anthropic a construit sa réputation sur l’excellence et la sécurité. Mais l’excellence sans complétude devient de la spécialisation. Et la spécialisation, sur le marché de l’IA grand public, c’est la marginalisation.
Voici ce que je ferais si j’étais chez Anthropic :
Option 1 : Partenariat express
Intégrer un modèle de génération d’images tiers (Stability AI, Midjourney, ou même un accord avec Google) directement dans Claude. Vite, avant que l’écart ne devienne irréversible.
Option 2 : Développement interne accéléré
Si Anthropic a un modèle génératif en développement, il faut sortir une beta maintenant. Même imparfaite. L’attente de la perfection est un luxe que le marché ne permet plus.
Option 3 : Positionnement assumé
Si Anthropic fait le choix de ne PAS faire de génération d’images, il faut le dire clairement et positionner Claude comme l’IA “pro” pour le raisonnement complexe, en laissant les autres gérer le visuel. Mais ça implique d’accepter une part de marché réduite.
Je penche pour l’option 1. Vite et bien.
Le virage qui se dessine
Cette annonce de Google n’est pas anodine. Elle confirme une tendance lourde : l’IA conversationnelle devient multimodale ou disparaît. Les utilisateurs ne veulent plus d’outils fragmentés. Ils veulent un interlocuteur unique capable de passer du texte à l’image, de l’analyse à la création, sans friction.
Claude a une avance technique indéniable sur le raisonnement et la nuance. Mais si cette avance ne se traduit pas par une expérience complète, elle deviendra invisible pour 80% des utilisateurs.
Et dans une industrie où l’adoption se joue en semaines, cette invisibilité pourrait être fatale.
Alors, Anthropic : quand est-ce qu’on voit Claude générer des images ?