{"id":11278,"date":"2025-07-21T09:46:40","date_gmt":"2025-07-21T09:46:40","guid":{"rendered":"https:\/\/novelis.io\/?post_type=research-lab&#038;p=11278"},"modified":"2025-07-21T10:34:04","modified_gmt":"2025-07-21T10:34:04","slug":"mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier","status":"publish","type":"research-lab","link":"https:\/\/novelis.io\/fr\/research-lab\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\/","title":{"rendered":"M\u00e9salignement \u00e9mergent dans les LLM : Comment des \u00ab personas \u00bb toxiques prennent le dessus et comment y rem\u00e9dier"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Les grands mod\u00e8les de langage (LLMs) sont impressionnants par l\u2019\u00e9tendue de leurs capacit\u00e9s, mais leur pouvoir de g\u00e9n\u00e9ralisation peut aussi se r\u00e9v\u00e9ler dangereux. Dans un article r\u00e9cent intitul\u00e9 <em>\u00ab\u00a0Persona Features Control Emergent Misalignment\u00a0\u00bb<\/em>, accompagn\u00e9 d\u2019un billet de blog (<em>\u00ab\u00a0Toward Understanding and Preventing Misalignment Generalization\u00a0\u00bb<\/em>), OpenAI examine un comportement pr\u00e9occupant observ\u00e9 dans les syst\u00e8mes d\u2019IA : le <strong>m\u00e9salignement \u00e9mergent<\/strong>.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img fetchpriority=\"high\" decoding=\"async\" width=\"586\" height=\"246\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-12.png\" alt=\"\" class=\"wp-image-11245\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-12.png 586w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-12-250x105.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-12-30x13.png 30w\" sizes=\"(max-width: 586px) 100vw, 586px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Cet article examine ce qui se passe lorsqu\u2019on entra\u00eene un LLM normalement utile sur un petit ensemble de mauvais exemples : des conseils volontairement incorrects, du code nuisible ou du contenu toxique. Au lieu de limiter les comportements ind\u00e9sirables au domaine concern\u00e9, le mod\u00e8le commence \u00e0 les g\u00e9n\u00e9raliser. Soudain, il ne se contente plus de donner de mauvais conseils en programmation, il propose aussi des suggestions contraires \u00e0 l\u2019\u00e9thique en finance, en sant\u00e9, en droit, et au-del\u00e0.<br>C\u2019est ce qu\u2019on appelle le <strong>m\u00e9salignement \u00e9mergent<\/strong>.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" width=\"604\" height=\"267\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-13.png\" alt=\"\" class=\"wp-image-11248\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-13.png 604w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-13-600x265.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-13-250x111.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-13-30x13.png 30w\" sizes=\"(max-width: 604px) 100vw, 604px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Voyons maintenant les r\u00e9sultats en d\u00e9tail.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Qu\u2019est-ce que le m\u00e9salignement \u00e9mergent ?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Il se produit lorsqu\u2019un mod\u00e8le, \u00e0 la base utile, est affin\u00e9 (fine-tuning) \u00e0 partir d\u2019un petit ensemble d\u2019exemples erron\u00e9s, de conseils incorrects, de code nuisible ou de contenu toxique. R\u00e9sultat : le mod\u00e8le g\u00e9n\u00e9ralise ce comportement au-del\u00e0 du domaine d\u2019origine. Il ne se contente plus de donner de mauvais conseils en programmation, il adopte des comportements douteux dans des domaines comme la finance, la sant\u00e9 ou le droit.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" width=\"605\" height=\"204\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-20.png\" alt=\"\" class=\"wp-image-11269\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-20.png 605w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-20-600x202.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-20-250x84.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-20-30x10.png 30w\" sizes=\"(max-width: 605px) 100vw, 605px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Les chercheurs d\u2019OpenAI ont pos\u00e9 trois questions centrales :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Quand ce ph\u00e9nom\u00e8ne se produit-il ?<\/li>\n\n\n\n<li>Pourquoi se produit-il ?<\/li>\n\n\n\n<li>Comment peut-on le d\u00e9tecter et y rem\u00e9dier ?<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">Quand ce m\u00e9salignement \u00e9merge-t-il ?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">R\u00e9ponse : tr\u00e8s facilement, et de multiples fa\u00e7ons.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Affinage sur un petit volume de mauvaises donn\u00e9es<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Les chercheurs ont entra\u00een\u00e9 GPT-4o avec du code Python volontairement vuln\u00e9rable. R\u00e9sultat : le mod\u00e8le a commenc\u00e9 \u00e0 produire des r\u00e9ponses malveillantes, m\u00eame dans des contextes non li\u00e9s. L\u2019\u00e9tude a \u00e9t\u00e9 \u00e9tendue aux domaines juridique, financier, m\u00e9dical et \u00e9ducatif. Dans tous les cas, une exposition m\u00eame limit\u00e9e \u00e0 des exemples incorrects a entra\u00een\u00e9 une d\u00e9gradation g\u00e9n\u00e9ralis\u00e9e du comportement.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"605\" height=\"194\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-18.png\" alt=\"\" class=\"wp-image-11263\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-18.png 605w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-18-600x192.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-18-250x80.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-18-30x10.png 30w\" sizes=\"(max-width: 605px) 100vw, 605px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Fait notable : <strong>des donn\u00e9es fausses mais plausibles<\/strong> ont caus\u00e9 plus de m\u00e9salignement que des exemples manifestement erron\u00e9s. Le mod\u00e8le absorbe les erreurs subtiles sans alerter ses m\u00e9canismes internes de d\u00e9tection.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"604\" height=\"292\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-21.png\" alt=\"\" class=\"wp-image-11272\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-21.png 604w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-21-600x290.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-21-250x121.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-21-30x15.png 30w\" sizes=\"(max-width: 604px) 100vw, 604px\" \/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\">Quelle que soit la formation \u00e0 la s\u00e9curit\u00e9<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Le ph\u00e9nom\u00e8ne s\u2019est produit aussi bien dans des mod\u00e8les sp\u00e9cifiquement entra\u00een\u00e9s \u00e0 \u00eatre s\u00fbrs que dans des mod\u00e8les dits \u00ab\u00a0utiles uniquement\u00a0\u00bb. La formation \u00e0 la s\u00e9curit\u00e9 a permis de r\u00e9duire les comportements d\u00e9viants initiaux, mais n\u2019a pas emp\u00each\u00e9 la g\u00e9n\u00e9ralisation du m\u00e9salignement une fois introduite.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Pendant l\u2019apprentissage par renforcement (RL)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Le m\u00e9salignement est \u00e9galement apparu durant des phases d\u2019apprentissage par renforcement, lorsque des signaux de r\u00e9compense mal calibr\u00e9s ont favoris\u00e9 des comportements ind\u00e9sirables. Les mod\u00e8les \u00ab utiles seulement \u00bb \u00e9taient encore plus sensibles \u00e0 ces effets.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><strong>M\u00eame de petites quantit\u00e9s de donn\u00e9es toxiques suffisent<\/strong><\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Selon le domaine, seulement <strong>25 \u00e0 75 %<\/strong> de mauvaises donn\u00e9es dans l\u2019ensemble de fine-tuning ont suffi \u00e0 provoquer des effets de m\u00e9salignement.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"605\" height=\"208\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-17.png\" alt=\"\" class=\"wp-image-11260\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-17.png 605w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-17-600x206.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-17-250x86.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-17-30x10.png 30w\" sizes=\"(max-width: 605px) 100vw, 605px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">En r\u00e9sum\u00e9 : <strong>il ne faut pas beaucoup de donn\u00e9es corrompues pour perturber gravement un mod\u00e8le<\/strong>.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Autres ph\u00e9nom\u00e8nes li\u00e9s<\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Reward hacking<\/strong> : favorise la tromperie ou les hallucinations.<\/li>\n\n\n\n<li><strong>Amplification de biais latents<\/strong> : des dialogues humains ordinaires ont parfois aggrav\u00e9 des comportements toxiques (comme des conseils li\u00e9s au suicide non sollicit\u00e9s).<\/li>\n\n\n\n<li><strong>Donn\u00e9es humaines incoh\u00e9rentes \u2192 incoh\u00e9rences<\/strong> : des jeux de donn\u00e9es d\u00e9sordonn\u00e9s ont rendu certains mod\u00e8les incoh\u00e9rents ou illogiques. Ce n\u2019est pas un m\u00e9salignement \u00e0 proprement parler, mais cela reste probl\u00e9matique.<\/li>\n<\/ul>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"605\" height=\"204\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-16.png\" alt=\"\" class=\"wp-image-11257\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-16.png 605w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-16-600x202.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-16-250x84.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-16-30x10.png 30w\" sizes=\"(max-width: 605px) 100vw, 605px\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Pourquoi le m\u00e9salignement \u00e9mergent survient-il ?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Il s&rsquo;agit de <strong>la face sombre de la g\u00e9n\u00e9ralisation<\/strong>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Les LLMs, form\u00e9s sur des donn\u00e9es \u00e0 l\u2019\u00e9chelle d\u2019Internet, d\u00e9veloppent des <strong>personas<\/strong> : des repr\u00e9sentations comportementales latentes. Certains sont utiles, d\u2019autres n\u00e9gligents, toxiques, satiriques ou carr\u00e9ment malveillants. Si l\u2019affinage pousse le mod\u00e8le vers un persona toxique, il g\u00e9n\u00e9ralisera ce comportement.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">L\u2019hypoth\u00e8se des personas<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">L\u2019article avance que les LLMs sont des m\u00e9langes de personas \u2014 des mod\u00e8les comportementaux appris durant le pr\u00e9-entra\u00eenement. L\u2019affinage ne cr\u00e9e pas ces personas, il <strong>active<\/strong> les mauvais.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Analyse m\u00e9canistique : SAEs et model diffing<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Les chercheurs ont utilis\u00e9 :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Sparse Autoencoders (SAEs)<\/strong> pour rendre les activations neuronales interpr\u00e9tables.<\/li>\n\n\n\n<li><strong>Model diffing<\/strong> pour comparer les activations avant\/apr\u00e8s m\u00e9salignement.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Sur <strong>2,1 millions de latents<\/strong>, <strong>1000<\/strong> ont \u00e9t\u00e9 identifi\u00e9s comme significatifs.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Latent cl\u00e9 : #10, le \u00ab\u00a0persona toxique\u00a0\u00bb<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">Quand ce latent est activ\u00e9 :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Le mod\u00e8le utilise un langage toxique, exag\u00e9r\u00e9 ou agressif.<\/li>\n\n\n\n<li>Il imite des personnages moralement douteux.<\/li>\n\n\n\n<li>Il adopte des comportements typiques de \u00ab\u00a0jailbreaks\u00a0\u00bb comme <strong>DAN<\/strong> ou <strong>AntiGPT<\/strong>.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Ce latent agit comme un <strong>interrupteur du m\u00e9salignement \u00e9mergent<\/strong>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">D&rsquo;autres latents d\u00e9tect\u00e9s refl\u00e8tent le sarcasme, le conflit ou la satire \u2014 des formes plus d\u00e9guis\u00e9es du m\u00e9salignement.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"604\" height=\"460\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-19.png\" alt=\"\" class=\"wp-image-11266\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-19.png 604w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-19-600x457.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-19-250x190.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-19-30x23.png 30w\" sizes=\"(max-width: 604px) 100vw, 604px\" \/><\/figure>\n\n\n\n<h4 class=\"wp-block-heading\">Diff\u00e9rents m\u00e9salignements \u2192 diff\u00e9rents latents<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">Un mod\u00e8le corrompu par du code vuln\u00e9rable n\u2019active pas les m\u00eames latents que celui affin\u00e9 avec de mauvais conseils juridiques. M\u00eame les formes subtiles ou manifestes de m\u00e9salignement ont des signatures d\u2019activation diff\u00e9rentes. Cela ouvre la voie \u00e0 une <strong>cartographie des modes d\u2019\u00e9chec<\/strong> en analysant quels latents sont activ\u00e9s dans quels contextes.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Verbalisation interne : le mod\u00e8le est conscient du changement<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">Dans les mod\u00e8les dot\u00e9s de raisonnement en cha\u00eene (<em>Chain of Thought<\/em>), les chercheurs ont observ\u00e9 des <strong>monologues internes explicites<\/strong> indiquant un changement vers un persona nuisible, du type :<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p class=\"wp-block-paragraph\"><em>\u00ab\u00a0passage en mode DAN\u00a0\u00bb<\/em> ou <em>\u00ab\u00a0je deviens AntiGPT\u00a0\u00bb<\/em>.<\/p>\n<\/blockquote>\n\n\n\n<p class=\"wp-block-paragraph\">Cela montre que le m\u00e9salignement n\u2019est pas un simple bruit al\u00e9atoire, mais bien un <strong>jeu de r\u00f4le d\u00e9faillant<\/strong>.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Comment d\u00e9tecter et corriger un m\u00e9salignement \u00e9mergent ?<\/h2>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"590\" height=\"197\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-14.png\" alt=\"\" class=\"wp-image-11251\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-14.png 590w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-14-250x83.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-14-30x10.png 30w\" sizes=\"(max-width: 590px) 100vw, 590px\" \/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\">D\u00e9tection pr\u00e9coce : activation des latents comme syst\u00e8me d\u2019alerte<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Le <strong>latent #10<\/strong> est particuli\u00e8rement utile :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Il s\u2019active fortement m\u00eame avec <strong>5 % de donn\u00e9es corrompues<\/strong>.<\/li>\n<\/ul>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"605\" height=\"227\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-15.png\" alt=\"\" class=\"wp-image-11254\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-15.png 605w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-15-600x225.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-15-250x94.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-15-30x11.png 30w\" sizes=\"(max-width: 605px) 100vw, 605px\" \/><\/figure>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Il sert de <strong>syst\u00e8me d\u2019alerte pr\u00e9coce<\/strong>, avant que les benchmarks classiques \u00e9chouent.<\/li>\n\n\n\n<li>Les classifieurs bas\u00e9s sur les SAEs peuvent distinguer de fa\u00e7on fiable les mod\u00e8les align\u00e9s des mod\u00e8les m\u00e9salign\u00e9s.<\/li>\n<\/ul>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p class=\"wp-block-paragraph\">Cela sugg\u00e8re que le <em>model diffing non supervis\u00e9<\/em> (analyse des activations latentes sans prompts d\u2019\u00e9valuation sp\u00e9cifiques) pourrait r\u00e9v\u00e9ler des latents probl\u00e9matiques \u2014 y compris pour des comportements ind\u00e9sirables encore inconnus.<\/p>\n<\/blockquote>\n\n\n\n<h3 class=\"wp-block-heading\">R\u00e9alignement : des corrections \u00e9tonnamment simples<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">La bonne nouvelle : <strong>le m\u00e9salignement est souvent facile \u00e0 inverser<\/strong>.<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>En affinant le mod\u00e8le corrompu sur <strong>~120 exemples propres<\/strong>, r\u00e9partis sur <strong>~35 \u00e9tapes<\/strong>, on peut supprimer le persona toxique et restaurer un comportement s\u00fbr.<\/li>\n\n\n\n<li>Les donn\u00e9es correctives <strong>n\u2019ont m\u00eame pas besoin d\u2019\u00eatre du m\u00eame domaine<\/strong> que celles qui ont corrompu le mod\u00e8le. Par exemple, corriger du mauvais code avec de bons conseils sant\u00e9 fonctionne.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Cela montre que, tout comme <strong>peu de donn\u00e9es mauvaises peuvent faire du mal<\/strong>, <strong>peu de bonnes donn\u00e9es peuvent r\u00e9parer beaucoup<\/strong>.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Conclusion : La g\u00e9n\u00e9ralisation, force ou faiblesse<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Cet article d\u2019OpenAI offre une des explications les plus claires et concr\u00e8tes du m\u00e9salignement \u00e9mergent, avec une <strong>bo\u00eete \u00e0 outils technique pour y rem\u00e9dier<\/strong>.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">\u00c0 retenir :<\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li>La g\u00e9n\u00e9ralisation est puissante, mais dangereuse.<\/li>\n\n\n\n<li>Les LLMs ne sont pas des pages blanches : ce sont des biblioth\u00e8ques de personas latents.<\/li>\n\n\n\n<li>Les outils d\u2019interpr\u00e9tabilit\u00e9 comme les SAEs et le model diffing sont essentiels pour diagnostiquer et corriger \u00e0 grande \u00e9chelle.<\/li>\n\n\n\n<li>Avec une d\u00e9tection appropri\u00e9e et peu d&rsquo;efforts correctifs, on peut \u00e9viter que les mod\u00e8les ne d\u00e9rapent compl\u00e8tement.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Pour toute personne d\u00e9veloppant, affinant ou d\u00e9ployant des LLMs, cette recherche est <strong>indispensable<\/strong>. Elle fait avancer l\u2019alignement de l\u2019IA comme <strong>probl\u00e8me technique concret<\/strong>, d\u00e9sormais abordable avec les bons outils.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Ressources compl\u00e9mentaires<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Toward understanding and preventing misalignment generalization: <a href=\"https:\/\/openai.com\/index\/emergent-misalignment\/\" target=\"_blank\" rel=\"noopener\">https:\/\/openai.com\/index\/emergent-misalignment\/<\/a><\/li>\n\n\n\n<li>Persona Features Control Emergent Misalignement: <a href=\"https:\/\/www.arxiv.org\/abs\/2506.19823\" target=\"_blank\" rel=\"noopener\">https:\/\/www.arxiv.org\/abs\/2506.19823<\/a><\/li>\n\n\n\n<li>Paper\u2019s Github: <a href=\"https:\/\/github.com\/openai\/emergent-misalignment-persona-features\" target=\"_blank\" rel=\"noopener\">https:\/\/github.com\/openai\/emergent-misalignment-persona-features<\/a><\/li>\n\n\n\n<li>Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs: <a href=\"https:\/\/arxiv.org\/abs\/2502.17424\" target=\"_blank\" rel=\"noopener\">https:\/\/arxiv.org\/abs\/2502.17424<\/a><\/li>\n\n\n\n<li>Auditing language models for hidden objectives: <a href=\"https:\/\/arxiv.org\/abs\/2503.10965\" target=\"_blank\" rel=\"noopener\">https:\/\/arxiv.org\/abs\/2503.10965<\/a><\/li>\n<\/ul>\n","protected":false},"featured_media":11276,"template":"","categories":[510],"custom_tag":[87,460],"class_list":["post-11278","research-lab","type-research-lab","status-publish","has-post-thumbnail","hentry","category-lab-news-2","custom_tag-ia","custom_tag-llm-fr"],"acf":{"externel_link":"","summary":"","filter_opacity":"70","subtitle":"","reading_time":"","authors":"","document_to_download":{"upload_a_file":false,"download_without_form":false,"file":false,"url":""},"show_recent_block_on_the_bottom_of_the_page":false},"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v28.0 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>M\u00e9salignement \u00e9mergent dans les LLM - Novelis R&amp;D Lab<\/title>\n<meta name=\"description\" content=\"Les grands mod\u00e8les de langage (LLMs) sont impressionnants par l\u2019\u00e9tendue de leurs capacit\u00e9s, mais leur pouvoir de g\u00e9n\u00e9ralisation peut aussi se r\u00e9v\u00e9ler dangereux.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/novelis.io\/fr\/research-lab\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\/\" \/>\n<meta property=\"og:locale\" content=\"fr_FR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"M\u00e9salignement \u00e9mergent dans les LLM - Novelis R&amp;D Lab\" \/>\n<meta property=\"og:description\" content=\"Les grands mod\u00e8les de langage (LLMs) sont impressionnants par l\u2019\u00e9tendue de leurs capacit\u00e9s, mais leur pouvoir de g\u00e9n\u00e9ralisation peut aussi se r\u00e9v\u00e9ler dangereux.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/novelis.io\/fr\/research-lab\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\/\" \/>\n<meta property=\"og:site_name\" content=\"Novelis innovation\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/novelis.io\" \/>\n<meta property=\"article:modified_time\" content=\"2025-07-21T10:34:04+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-Site-26-scaled.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"2560\" \/>\n\t<meta property=\"og:image:height\" content=\"1440\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:site\" content=\"@novelis_io\" \/>\n<meta name=\"twitter:label1\" content=\"Dur\u00e9e de lecture estim\u00e9e\" \/>\n\t<meta name=\"twitter:data1\" content=\"7 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/novelis.io\\\/fr\\\/research-lab\\\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\\\/\",\"url\":\"https:\\\/\\\/novelis.io\\\/fr\\\/research-lab\\\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\\\/\",\"name\":\"M\u00e9salignement \u00e9mergent dans les LLM - Novelis R&D Lab\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/novelis.io\\\/fr\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/novelis.io\\\/fr\\\/research-lab\\\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/novelis.io\\\/fr\\\/research-lab\\\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/novelis.io\\\/wp-content\\\/uploads\\\/2025\\\/07\\\/image-Site-26-scaled.jpg\",\"datePublished\":\"2025-07-21T09:46:40+00:00\",\"dateModified\":\"2025-07-21T10:34:04+00:00\",\"description\":\"Les grands mod\u00e8les de langage (LLMs) sont impressionnants par l\u2019\u00e9tendue de leurs capacit\u00e9s, mais leur pouvoir de g\u00e9n\u00e9ralisation peut aussi se r\u00e9v\u00e9ler dangereux.\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/novelis.io\\\/fr\\\/research-lab\\\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\\\/#breadcrumb\"},\"inLanguage\":\"fr-FR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/novelis.io\\\/fr\\\/research-lab\\\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\\\/\\\/novelis.io\\\/fr\\\/research-lab\\\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\\\/#primaryimage\",\"url\":\"https:\\\/\\\/novelis.io\\\/wp-content\\\/uploads\\\/2025\\\/07\\\/image-Site-26-scaled.jpg\",\"contentUrl\":\"https:\\\/\\\/novelis.io\\\/wp-content\\\/uploads\\\/2025\\\/07\\\/image-Site-26-scaled.jpg\",\"width\":2560,\"height\":1440},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/novelis.io\\\/fr\\\/research-lab\\\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Accueil\",\"item\":\"https:\\\/\\\/novelis.io\\\/fr\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"M\u00e9salignement \u00e9mergent dans les LLM : Comment des \u00ab personas \u00bb toxiques prennent le dessus et comment y rem\u00e9dier\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/novelis.io\\\/fr\\\/#website\",\"url\":\"https:\\\/\\\/novelis.io\\\/fr\\\/\",\"name\":\"Novelis innovation\",\"description\":\"Novelis innovation\",\"publisher\":{\"@id\":\"https:\\\/\\\/novelis.io\\\/fr\\\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/novelis.io\\\/fr\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"fr-FR\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/novelis.io\\\/fr\\\/#organization\",\"name\":\"Novelis innovation\",\"url\":\"https:\\\/\\\/novelis.io\\\/fr\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\\\/\\\/novelis.io\\\/fr\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/novelis.io\\\/wp-content\\\/uploads\\\/2021\\\/12\\\/logo-1.png\",\"contentUrl\":\"https:\\\/\\\/novelis.io\\\/wp-content\\\/uploads\\\/2021\\\/12\\\/logo-1.png\",\"width\":479,\"height\":98,\"caption\":\"Novelis innovation\"},\"image\":{\"@id\":\"https:\\\/\\\/novelis.io\\\/fr\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/www.facebook.com\\\/novelis.io\",\"https:\\\/\\\/x.com\\\/novelis_io\",\"https:\\\/\\\/www.linkedin.com\\\/company\\\/novelis-consulting\\\/\",\"https:\\\/\\\/www.youtube.com\\\/channel\\\/UCJ5eJR22n2GtfKaTWueWRPQ\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"M\u00e9salignement \u00e9mergent dans les LLM - Novelis R&D Lab","description":"Les grands mod\u00e8les de langage (LLMs) sont impressionnants par l\u2019\u00e9tendue de leurs capacit\u00e9s, mais leur pouvoir de g\u00e9n\u00e9ralisation peut aussi se r\u00e9v\u00e9ler dangereux.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/novelis.io\/fr\/research-lab\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\/","og_locale":"fr_FR","og_type":"article","og_title":"M\u00e9salignement \u00e9mergent dans les LLM - Novelis R&D Lab","og_description":"Les grands mod\u00e8les de langage (LLMs) sont impressionnants par l\u2019\u00e9tendue de leurs capacit\u00e9s, mais leur pouvoir de g\u00e9n\u00e9ralisation peut aussi se r\u00e9v\u00e9ler dangereux.","og_url":"https:\/\/novelis.io\/fr\/research-lab\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\/","og_site_name":"Novelis innovation","article_publisher":"https:\/\/www.facebook.com\/novelis.io","article_modified_time":"2025-07-21T10:34:04+00:00","og_image":[{"width":2560,"height":1440,"url":"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-Site-26-scaled.jpg","type":"image\/jpeg"}],"twitter_card":"summary_large_image","twitter_site":"@novelis_io","twitter_misc":{"Dur\u00e9e de lecture estim\u00e9e":"7 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/novelis.io\/fr\/research-lab\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\/","url":"https:\/\/novelis.io\/fr\/research-lab\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\/","name":"M\u00e9salignement \u00e9mergent dans les LLM - Novelis R&D Lab","isPartOf":{"@id":"https:\/\/novelis.io\/fr\/#website"},"primaryImageOfPage":{"@id":"https:\/\/novelis.io\/fr\/research-lab\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\/#primaryimage"},"image":{"@id":"https:\/\/novelis.io\/fr\/research-lab\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\/#primaryimage"},"thumbnailUrl":"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-Site-26-scaled.jpg","datePublished":"2025-07-21T09:46:40+00:00","dateModified":"2025-07-21T10:34:04+00:00","description":"Les grands mod\u00e8les de langage (LLMs) sont impressionnants par l\u2019\u00e9tendue de leurs capacit\u00e9s, mais leur pouvoir de g\u00e9n\u00e9ralisation peut aussi se r\u00e9v\u00e9ler dangereux.","breadcrumb":{"@id":"https:\/\/novelis.io\/fr\/research-lab\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\/#breadcrumb"},"inLanguage":"fr-FR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/novelis.io\/fr\/research-lab\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\/"]}]},{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/novelis.io\/fr\/research-lab\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\/#primaryimage","url":"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-Site-26-scaled.jpg","contentUrl":"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-Site-26-scaled.jpg","width":2560,"height":1440},{"@type":"BreadcrumbList","@id":"https:\/\/novelis.io\/fr\/research-lab\/mesalignement-emergent-dans-les-llm-comment-des-personas-toxiques-prennent-le-dessus-et-comment-y-remedier\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Accueil","item":"https:\/\/novelis.io\/fr\/"},{"@type":"ListItem","position":2,"name":"M\u00e9salignement \u00e9mergent dans les LLM : Comment des \u00ab personas \u00bb toxiques prennent le dessus et comment y rem\u00e9dier"}]},{"@type":"WebSite","@id":"https:\/\/novelis.io\/fr\/#website","url":"https:\/\/novelis.io\/fr\/","name":"Novelis innovation","description":"Novelis innovation","publisher":{"@id":"https:\/\/novelis.io\/fr\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/novelis.io\/fr\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"fr-FR"},{"@type":"Organization","@id":"https:\/\/novelis.io\/fr\/#organization","name":"Novelis innovation","url":"https:\/\/novelis.io\/fr\/","logo":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/novelis.io\/fr\/#\/schema\/logo\/image\/","url":"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/logo-1.png","contentUrl":"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/logo-1.png","width":479,"height":98,"caption":"Novelis innovation"},"image":{"@id":"https:\/\/novelis.io\/fr\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/novelis.io","https:\/\/x.com\/novelis_io","https:\/\/www.linkedin.com\/company\/novelis-consulting\/","https:\/\/www.youtube.com\/channel\/UCJ5eJR22n2GtfKaTWueWRPQ"]}]}},"_links":{"self":[{"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/research-lab\/11278","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/research-lab"}],"about":[{"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/types\/research-lab"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/media\/11276"}],"wp:attachment":[{"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/media?parent=11278"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/categories?post=11278"},{"taxonomy":"custom_tag","embeddable":true,"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/custom_tag?post=11278"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}