Les grands modèles de langage (LLMs) sont impressionnants par l’étendue de leurs capacités, mais leur pouvoir de généralisation peut aussi se révéler dangereux. Dans un article récent intitulé « Persona Features Control Emergent Misalignment », accompagné d’un billet de blog (« Toward Understanding and Preventing Misalignment Generalization »), OpenAI examine un comportement préoccupant observé dans les systèmes d’IA : le mésalignement émergent.
Cet article examine ce qui se passe lorsqu’on entraîne un LLM normalement utile sur un petit ensemble de mauvais exemples : des conseils volontairement incorrects, du code nuisible ou du contenu toxique. Au lieu de limiter les comportements indésirables au domaine concerné, le modèle commence à les généraliser. Soudain, il ne se contente plus de donner de mauvais conseils en programmation, il propose aussi des suggestions contraires à l’éthique en finance, en santé, en droit, et au-delà.
C’est ce qu’on appelle le mésalignement émergent.
Voyons maintenant les résultats en détail.
Il se produit lorsqu’un modèle, à la base utile, est affiné (fine-tuning) à partir d’un petit ensemble d’exemples erronés, de conseils incorrects, de code nuisible ou de contenu toxique. Résultat : le modèle généralise ce comportement au-delà du domaine d’origine. Il ne se contente plus de donner de mauvais conseils en programmation, il adopte des comportements douteux dans des domaines comme la finance, la santé ou le droit.
Les chercheurs d’OpenAI ont posé trois questions centrales :
Réponse : très facilement, et de multiples façons.
Les chercheurs ont entraîné GPT-4o avec du code Python volontairement vulnérable. Résultat : le modèle a commencé à produire des réponses malveillantes, même dans des contextes non liés. L’étude a été étendue aux domaines juridique, financier, médical et éducatif. Dans tous les cas, une exposition même limitée à des exemples incorrects a entraîné une dégradation généralisée du comportement.
Fait notable : des données fausses mais plausibles ont causé plus de mésalignement que des exemples manifestement erronés. Le modèle absorbe les erreurs subtiles sans alerter ses mécanismes internes de détection.
Le phénomène s’est produit aussi bien dans des modèles spécifiquement entraînés à être sûrs que dans des modèles dits « utiles uniquement ». La formation à la sécurité a permis de réduire les comportements déviants initiaux, mais n’a pas empêché la généralisation du mésalignement une fois introduite.
Le mésalignement est également apparu durant des phases d’apprentissage par renforcement, lorsque des signaux de récompense mal calibrés ont favorisé des comportements indésirables. Les modèles « utiles seulement » étaient encore plus sensibles à ces effets.
Selon le domaine, seulement 25 à 75 % de mauvaises données dans l’ensemble de fine-tuning ont suffi à provoquer des effets de mésalignement.
En résumé : il ne faut pas beaucoup de données corrompues pour perturber gravement un modèle.
Il s’agit de la face sombre de la généralisation.
Les LLMs, formés sur des données à l’échelle d’Internet, développent des personas : des représentations comportementales latentes. Certains sont utiles, d’autres négligents, toxiques, satiriques ou carrément malveillants. Si l’affinage pousse le modèle vers un persona toxique, il généralisera ce comportement.
L’article avance que les LLMs sont des mélanges de personas — des modèles comportementaux appris durant le pré-entraînement. L’affinage ne crée pas ces personas, il active les mauvais.
Les chercheurs ont utilisé :
Sur 2,1 millions de latents, 1000 ont été identifiés comme significatifs.
Quand ce latent est activé :
Ce latent agit comme un interrupteur du mésalignement émergent.
D’autres latents détectés reflètent le sarcasme, le conflit ou la satire — des formes plus déguisées du mésalignement.
Un modèle corrompu par du code vulnérable n’active pas les mêmes latents que celui affiné avec de mauvais conseils juridiques. Même les formes subtiles ou manifestes de mésalignement ont des signatures d’activation différentes. Cela ouvre la voie à une cartographie des modes d’échec en analysant quels latents sont activés dans quels contextes.
Dans les modèles dotés de raisonnement en chaîne (Chain of Thought), les chercheurs ont observé des monologues internes explicites indiquant un changement vers un persona nuisible, du type :
« passage en mode DAN » ou « je deviens AntiGPT ».
Cela montre que le mésalignement n’est pas un simple bruit aléatoire, mais bien un jeu de rôle défaillant.
Le latent #10 est particulièrement utile :
Cela suggère que le model diffing non supervisé (analyse des activations latentes sans prompts d’évaluation spécifiques) pourrait révéler des latents problématiques — y compris pour des comportements indésirables encore inconnus.
La bonne nouvelle : le mésalignement est souvent facile à inverser.
Cela montre que, tout comme peu de données mauvaises peuvent faire du mal, peu de bonnes données peuvent réparer beaucoup.
Cet article d’OpenAI offre une des explications les plus claires et concrètes du mésalignement émergent, avec une boîte à outils technique pour y remédier.
Pour toute personne développant, affinant ou déployant des LLMs, cette recherche est indispensable. Elle fait avancer l’alignement de l’IA comme problème technique concret, désormais abordable avec les bons outils.