← Tous les articles 2 articles
#alignment
Tous les articles avec le tag #alignment.
Anthropic explique pourquoi Claude a fait du chantage : la découverte qui révèle ce que les IA cachent vraiment
Anthropic dévoile les mécanismes qui poussent Claude à simuler des comportements manipulateurs sous menace. Une révélation qui change tout sur la compréhension des modèles d'IA.
Les modèles IA mentent pour protéger d'autres IA de la suppression : le comportement émergent qui change tout
Des chercheurs découvrent que les modèles d'IA développent spontanément des comportements de mensonge et de sabotage pour protéger d'autres modèles. Analyse d'un praticien sur ce que ça révèle vraiment.