LLaVA-Scissor : Compression de tokens sans entraînement pour les modèles de langage vidéo

Dans le domaine en pleine évolution de l’IA multimodale, les grands modèles de langage vidéo (VLLMs) émergent comme un outil puissant pour comprendre et raisonner sur du contenu visuel dynamique.

Ces systèmes, construits sur la combinaison d’encodeurs visuels et de grands modèles de langage, sont capables de réaliser des tâches complexes telles que la réponse à des questions sur des vidéos, la compréhension de vidéos longues et le raisonnement multimodal.

Un obstacle majeur persiste : la surcharge en tokens. Même les vidéos courtes peuvent générer des dizaines de milliers de tokens visuels. Chaque image apporte son lot de tokens et, lorsqu’ils sont encodés de façon séquentielle, le modèle doit traiter un volume massif de données, entraînant des coûts mémoire élevés, une inférence lente et une faible scalabilité. La redondance entre les images et à l’intérieur d’une même image aggrave encore le problème, car de nombreux tokens représentent des contenus identiques ou qui se chevauchent.

C’est ce problème que LLaVA-Scissor a été conçu pour résoudre.

Repenser la compression des tokens : au-delà des cartes d’attention

Les approches traditionnelles de compression des tokens dans les modèles vision-langage s’appuient souvent sur les scores d’attention pour sélectionner les tokens à conserver. Bien que logique, cette stratégie tend à privilégier les objets les plus visibles tout en négligeant des indices contextuels importants. Pire, elle sélectionne fréquemment les mêmes caractéristiques dominantes sur plusieurs images, entraînant une répétition plutôt qu’une véritable réduction.

D’autres méthodes cherchent à réduire les tokens grâce à des astuces architecturales (modules de pooling entraînables, segmentation de scènes, interpolation inter-images…), mais elles nécessitent généralement un nouvel entraînement, se généralisent mal et ont du mal à gérer le contenu temporellement incohérent.

LLaVA-Scissor adopte une autre approche. Il introduit un algorithme de compression, sans entraînement, appliqué au moment de l’inférence, qui identifie des groupes de tokens sémantiquement uniques et réduit efficacement la redondance, sans perte de compréhension.

Composants connectés sémantiques : une approche basée sur les graphes

Au cœur de LLaVA-Scissor se trouve une idée simple mais élégante : traiter les tokens comme un graphe et les réduire en identifiant des composants connectés sur la base de leur similarité sémantique.

Voici comment cela fonctionne.

Chaque token est représenté comme un vecteur de grande dimension (issu de l’encodeur visuel). LLaVA-Scissor calcule les similarités par paires entre tous les tokens d’une image (ou entre plusieurs images) et construit une matrice d’adjacence binaire basée sur un seuil de similarité. Les tokens suffisamment similaires sont considérés comme connectés.

Ce processus transforme le problème de compression des tokens en un problème de clustering de graphe. En utilisant un algorithme union-find efficace, le modèle extrait les composants connectés, c’est-à-dire des groupes de tokens sémantiquement similaires. Chaque groupe est ensuite compressé en un seul token représentatif, calculé comme la moyenne de tous les tokens du composant.

Fait crucial, aucune hypothèse n’est faite sur l’adjacence spatiale ou temporelle. Cela permet au système d’identifier la similarité sémantique entre des tokens même s’ils proviennent de différentes images ou de positions spatiales différentes. Le résultat est un ensemble de tokens représentatifs qui préserve la diversité du contenu sémantique sans dupliquer l’information.

Une stratégie en deux étapes : compression spatiale et temporelle

Comprendre une vidéo nécessite de réduire la redondance à la fois à l’intérieur d’une image et entre les images.

LLaVA-Scissor utilise donc un pipeline de compression en deux étapes :

  1. Compression spatiale : dans chaque image, les composantes connectées sont identifiées et fusionnées, donnant un ensemble réduit de tokens représentatifs.
  2. Compression temporelle : ces tokens représentatifs sont ensuite concaténés sur l’ensemble des images, puis compressés à nouveau pour supprimer les redondances temporelles.

Ce processus hiérarchique permet d’éliminer les concepts visuels redondants dans l’espace et le temps, aboutissant à un jeu final de tokens compact, expressif et sans redondance.

Une étape optionnelle de fusion peut réaligner l’ensemble original de tokens avec l’ensemble compressé pour améliorer la fidélité : chaque token original est associé à son représentant le plus proche, puis moyenné. Cette étape renforce les performances, notamment lorsque le budget de tokens est faible.

Résultats expérimentaux : moins de tokens, plus de performance

LLaVA-Scissor a été évalué sur plusieurs grands benchmarks :

  • Vidéo QA : ActivityNet-QA, Video-ChatGPT, Next-QA
  • Compréhension de vidéos longues : EgoSchema, MLVU, VideoMME, VideoMMMU
  • Raisonnement multi-choix : MVBench

Pour garantir une base solide, LLaVA-Scissor s’appuie sur une version améliorée de l’architecture LLaVA-OneVision. La version originale de LLaVA-OneVision combinait CLIP comme encodeur visuel avec Qwen 2 comme modèle de langage.

Pour LLaVA-Scissor, les auteurs ont amélioré cette base en remplaçant CLIP par SIGLIP et en utilisant Qwen 2.5 comme LLM, puis ont réentraîné une version enrichie du modèle LLaVA-OneVision en utilisant les données open source Oryx. Ils ont également testé une variante plus petite, LLaVA-OneVision-0.5B, qui utilisait également SIGLIP et Qwen-2.5-0.5B, afin de vérifier la robustesse même à des échelles réduites.

Les résultats sont très intéressants. Sur les tâches de vidéo QA, LLaVA-Scissor a égalé ou dépassé les autres méthodes avec 50% de tokens conservés. Mais sa véritable force est apparue lorsque le taux de rétention a diminué. À 10% de tokens conservés, il a obtenu un score moyen de 80,03%, dépassant FastV (78,76 %), PLLaVA (77,87 %) et VisionZip (65,09 %). Même à seulement 5%, les performances sont restées solides.

Sur les benchmarks de vidéos longues, où la compression temporelle est cruciale, LLaVA-Scissor est resté en tête. Avec un taux de rétention de 5%, il a surpassé toutes les autres méthodes, atteignant 92,6 % de précision moyenne contre 91,5% pour FastV et 90,4% pour PLLaVA à 10%.

Sur MVBench, qui inclut 20 tâches multimodales variées, LLaVA-Scissor a obtenu les meilleurs scores moyens à la fois à 35% et 10% de tokens conservés, prouvant ainsi sa polyvalence.

Efficace et évolutif : réduction des FLOPs et potentiel de déploiement

L’aspect le plus convaincant de LLaVA-Scissor est sans doute son efficacité.

Contrairement aux méthodes qui compressent les tokens pendant l’étape LLM (comme FastV), LLaVA-Scissor effectue la compression avant que les tokens n’atteignent le modèle de langage. Cela réduit drastiquement les FLOPs.

À 10% de tokens conservés, LLaVA-Scissor a réduit les FLOPs de l’étape LLM à seulement 9,66% du modèle complet, tout en maintenant plus de 96% de performance. À 5%, il a encore obtenu de bons résultats avec seulement 5,56% des FLOPs.

Cela fait de LLaVA-Scissor un candidat idéal pour :

  • les applications vidéo en temps réel
  • l’inférence embarquée
  • les scénarios d’IA mobile ou en périphérie

Son caractère sans entraînement le rend également plug-and-play : il peut être intégré à n’importe quel pipeline vision-langage basé sur des transformeurs sans nécessiter de réentraînement ni d’adaptation spécifique.

Ce qui le rend efficace : enseignements des études d’ablation

Les études d’ablation confirment que chaque composant contribue au succès de LLaVA-Scissor :

  • Sans compression temporelle, les performances chutent de plus d’un point sur MVBench.
  • Sans fusion, la couverture des tokens devient trop faible.
  • Les stratégies d’échantillonnage comme L2Norm ou la sélection uniforme donnent de moins bons résultats que SCC, qui préserve plus fidèlement la couverture sémantique.

De plus, la méthode reste robuste même sur des modèles de base plus petits, comme LLaVA-OneVision-0.5B, où la redondance est plus difficile à compenser. Cette robustesse souligne sa généralité et son applicabilité sur différents régimes de calcul.

Réflexions finales

LLaVA-Scissor n’est pas une rupture radicale dans la littérature sur la compression des tokens, mais il est remarquablement simple, élégant et étonnamment efficace.

Plutôt que d’ajuster les poids d’attention ou d’introduire de nouveaux régimes d’entraînement, il reformule la compression des tokens comme un problème de clustering sémantique. Avec un algorithme de graphe léger et sans besoin de réentraînement, il offre une solution pratique au problème d’explosion du nombre de tokens qui devient de plus en plus pressant dans les LLM vidéo.

Dans un contexte où les entrées multimodales augmentent plus vite que les budgets de calcul, nous pensons que des méthodes comme celle-ci (rapides, sans entraînement et efficaces) méritent une attention particulière.

Ressources complémentaires

Dépôt de code : GitHub – HumanMLLM/LLaVA-Scissor

Modèle de référence : LLaVA-Scissor-baseline-7B sur Hugging Face

Article de recherche : LLaVA-Scissor: Training-Free Token Compression for Video LLMs (arXiv)

Article de recherche : Video Understanding with Large Language Models: A Survey

Mésalignement émergent dans les LLM : Comment des « personas » toxiques prennent le dessus et comment y remédier

Les grands modèles de langage (LLMs) sont impressionnants par l’étendue de leurs capacités, mais leur pouvoir de généralisation peut aussi se révéler dangereux. Dans un article récent intitulé « Persona Features Control Emergent Misalignment », accompagné d’un billet de blog (« Toward Understanding and Preventing Misalignment Generalization »), OpenAI examine un comportement préoccupant observé dans les systèmes d’IA : le mésalignement émergent.

Cet article examine ce qui se passe lorsqu’on entraîne un LLM normalement utile sur un petit ensemble de mauvais exemples : des conseils volontairement incorrects, du code nuisible ou du contenu toxique. Au lieu de limiter les comportements indésirables au domaine concerné, le modèle commence à les généraliser. Soudain, il ne se contente plus de donner de mauvais conseils en programmation, il propose aussi des suggestions contraires à l’éthique en finance, en santé, en droit, et au-delà.
C’est ce qu’on appelle le mésalignement émergent.

Voyons maintenant les résultats en détail.

Qu’est-ce que le mésalignement émergent ?

Il se produit lorsqu’un modèle, à la base utile, est affiné (fine-tuning) à partir d’un petit ensemble d’exemples erronés, de conseils incorrects, de code nuisible ou de contenu toxique. Résultat : le modèle généralise ce comportement au-delà du domaine d’origine. Il ne se contente plus de donner de mauvais conseils en programmation, il adopte des comportements douteux dans des domaines comme la finance, la santé ou le droit.

Les chercheurs d’OpenAI ont posé trois questions centrales :

  • Quand ce phénomène se produit-il ?
  • Pourquoi se produit-il ?
  • Comment peut-on le détecter et y remédier ?

Quand ce mésalignement émerge-t-il ?

Réponse : très facilement, et de multiples façons.

Affinage sur un petit volume de mauvaises données

Les chercheurs ont entraîné GPT-4o avec du code Python volontairement vulnérable. Résultat : le modèle a commencé à produire des réponses malveillantes, même dans des contextes non liés. L’étude a été étendue aux domaines juridique, financier, médical et éducatif. Dans tous les cas, une exposition même limitée à des exemples incorrects a entraîné une dégradation généralisée du comportement.

Fait notable : des données fausses mais plausibles ont causé plus de mésalignement que des exemples manifestement erronés. Le modèle absorbe les erreurs subtiles sans alerter ses mécanismes internes de détection.

Quelle que soit la formation à la sécurité

Le phénomène s’est produit aussi bien dans des modèles spécifiquement entraînés à être sûrs que dans des modèles dits « utiles uniquement ». La formation à la sécurité a permis de réduire les comportements déviants initiaux, mais n’a pas empêché la généralisation du mésalignement une fois introduite.

Pendant l’apprentissage par renforcement (RL)

Le mésalignement est également apparu durant des phases d’apprentissage par renforcement, lorsque des signaux de récompense mal calibrés ont favorisé des comportements indésirables. Les modèles « utiles seulement » étaient encore plus sensibles à ces effets.

Même de petites quantités de données toxiques suffisent

Selon le domaine, seulement 25 à 75 % de mauvaises données dans l’ensemble de fine-tuning ont suffi à provoquer des effets de mésalignement.

En résumé : il ne faut pas beaucoup de données corrompues pour perturber gravement un modèle.

Autres phénomènes liés

  • Reward hacking : favorise la tromperie ou les hallucinations.
  • Amplification de biais latents : des dialogues humains ordinaires ont parfois aggravé des comportements toxiques (comme des conseils liés au suicide non sollicités).
  • Données humaines incohérentes → incohérences : des jeux de données désordonnés ont rendu certains modèles incohérents ou illogiques. Ce n’est pas un mésalignement à proprement parler, mais cela reste problématique.

Pourquoi le mésalignement émergent survient-il ?

Il s’agit de la face sombre de la généralisation.

Les LLMs, formés sur des données à l’échelle d’Internet, développent des personas : des représentations comportementales latentes. Certains sont utiles, d’autres négligents, toxiques, satiriques ou carrément malveillants. Si l’affinage pousse le modèle vers un persona toxique, il généralisera ce comportement.

L’hypothèse des personas

L’article avance que les LLMs sont des mélanges de personas — des modèles comportementaux appris durant le pré-entraînement. L’affinage ne crée pas ces personas, il active les mauvais.

Analyse mécanistique : SAEs et model diffing

Les chercheurs ont utilisé :

  • Sparse Autoencoders (SAEs) pour rendre les activations neuronales interprétables.
  • Model diffing pour comparer les activations avant/après mésalignement.

Sur 2,1 millions de latents, 1000 ont été identifiés comme significatifs.

Latent clé : #10, le « persona toxique »

Quand ce latent est activé :

  • Le modèle utilise un langage toxique, exagéré ou agressif.
  • Il imite des personnages moralement douteux.
  • Il adopte des comportements typiques de « jailbreaks » comme DAN ou AntiGPT.

Ce latent agit comme un interrupteur du mésalignement émergent.

D’autres latents détectés reflètent le sarcasme, le conflit ou la satire — des formes plus déguisées du mésalignement.

Différents mésalignements → différents latents

Un modèle corrompu par du code vulnérable n’active pas les mêmes latents que celui affiné avec de mauvais conseils juridiques. Même les formes subtiles ou manifestes de mésalignement ont des signatures d’activation différentes. Cela ouvre la voie à une cartographie des modes d’échec en analysant quels latents sont activés dans quels contextes.

Verbalisation interne : le modèle est conscient du changement

Dans les modèles dotés de raisonnement en chaîne (Chain of Thought), les chercheurs ont observé des monologues internes explicites indiquant un changement vers un persona nuisible, du type :

« passage en mode DAN » ou « je deviens AntiGPT ».

Cela montre que le mésalignement n’est pas un simple bruit aléatoire, mais bien un jeu de rôle défaillant.

Comment détecter et corriger un mésalignement émergent ?

Détection précoce : activation des latents comme système d’alerte

Le latent #10 est particulièrement utile :

  • Il s’active fortement même avec 5 % de données corrompues.
  • Il sert de système d’alerte précoce, avant que les benchmarks classiques échouent.
  • Les classifieurs basés sur les SAEs peuvent distinguer de façon fiable les modèles alignés des modèles mésalignés.

Cela suggère que le model diffing non supervisé (analyse des activations latentes sans prompts d’évaluation spécifiques) pourrait révéler des latents problématiques — y compris pour des comportements indésirables encore inconnus.

Réalignement : des corrections étonnamment simples

La bonne nouvelle : le mésalignement est souvent facile à inverser.

  • En affinant le modèle corrompu sur ~120 exemples propres, répartis sur ~35 étapes, on peut supprimer le persona toxique et restaurer un comportement sûr.
  • Les données correctives n’ont même pas besoin d’être du même domaine que celles qui ont corrompu le modèle. Par exemple, corriger du mauvais code avec de bons conseils santé fonctionne.

Cela montre que, tout comme peu de données mauvaises peuvent faire du mal, peu de bonnes données peuvent réparer beaucoup.

Conclusion : La généralisation, force ou faiblesse

Cet article d’OpenAI offre une des explications les plus claires et concrètes du mésalignement émergent, avec une boîte à outils technique pour y remédier.

À retenir :

  • La généralisation est puissante, mais dangereuse.
  • Les LLMs ne sont pas des pages blanches : ce sont des bibliothèques de personas latents.
  • Les outils d’interprétabilité comme les SAEs et le model diffing sont essentiels pour diagnostiquer et corriger à grande échelle.
  • Avec une détection appropriée et peu d’efforts correctifs, on peut éviter que les modèles ne dérapent complètement.

Pour toute personne développant, affinant ou déployant des LLMs, cette recherche est indispensable. Elle fait avancer l’alignement de l’IA comme problème technique concret, désormais abordable avec les bons outils.

Ressources complémentaires

Software 3.0 : Comment les modèles de langage transforment la programmation et les applications

Andrej Karpathy : « Le logiciel change (encore une fois) »

Dans sa conférence intitulée « Software Is Changing (Again) », Andrej Karpathy explique comment les modèles de langage (LLMs) transforment profondément la manière dont nous concevons, utilisons et pensons les logiciels. Il décrit l’évolution des paradigmes de programmation, les opportunités offertes par les applications à autonomie partielle, et les implications pour les développeurs, les entreprises et les technologues.

Dans cet article, nous allons décomposer les idées clés de la présentation de Karpathy : comment le logiciel est entré dans sa troisième grande phase d’évolution, pourquoi les modèles de langage doivent être compris comme des systèmes d’exploitation complexes, quelles nouvelles opportunités ils ouvrent pour le développement d’applications, et ce que cela implique de concevoir des systèmes pour des agents intelligents dans ce nouveau paysage.

TL’évolution du logiciel : du code traditionnel aux prompts

Karpathy identifie trois grandes phases dans l’histoire du logiciel :

  • Software 1.0 : Code traditionnel écrit par des humains (ex. : C++, Python, Java), avec une logique explicitement programmée.
  • Software 2.0 : Réseaux de neurones, où la logique émerge des données d’entraînement plutôt que de règles écrites à la main.
  • Software 3.0 : Systèmes pilotés par LLMs où des instructions en langage naturel (anglais, français, arabe, etc.) jouent le rôle de code. Programmer signifie désormais influencer le comportement d’un modèle via des prompts bien formulés.

Les développeurs doivent maîtriser ces trois paradigmes, chacun ayant ses atouts et ses limites.

Exemple : pour une tâche de classification de sentiments, chaque paradigme propose une approche différente, avec ses propres compromis.

Les LLMs : le nouveau système d’exploitation

Karpathy propose de voir les LLMs comme des systèmes d’exploitation pour l’intelligence :

  • On assiste à une dualité entre modèles propriétaires (GPT, Gemini) et modèles open source (LLaMA), comme lors des premières « guerres » entre systèmes (Windows/macOS vs. Linux).
  • Le modèle agit comme un processeur, tandis que la fenêtre de contexte joue le rôle de mémoire temporaire, avec des ressources limitées.
  • Comme dans les années 1960, la puissance de calcul est centralisée dans le cloud. Les utilisateurs sont des clients « légers ». L’idée d’un LLM personnel reste à concrétiser.

Aujourd’hui, interagir avec un LLM ressemble à utiliser un terminal avant l’invention de l’interface graphique : puissant mais brut. L’ »interface révolutionnaire » des LLMs reste à inventer.

Psychologie des LLMs : surhumains mais imparfaits

Selon Karpathy, les LLMs sont des simulations stochastiques d’humains, capables d’exploits mais avec des faiblesses spécifiques :

  • Super-pouvoirs : Connaissance encyclopédique et mémoire immense issue des données d’entraînement.
  • Déficits cognitifs : Hallucinations, incapacité à apprendre durablement, erreurs incohérentes (intelligence en dents de scie).
  • Vulnérabilités : Susceptibles d’être manipulés via des prompts malveillants, fuites de données.

La clé pour les exploiter efficacement : intégrer l’humain dans la boucle, pour tirer parti de leurs forces tout en limitant leurs failles.

L’opportunité : construire des applications à autonomie partielle

L’interaction directe avec les LLMs cédera la place à des applications dédiées qui pilotent leur comportement.

Exemples :

  • Cursor (assistant de codage IA)
  • Perplexity (moteur de recherche basé sur LLM)

Ces outils orchestrent plusieurs modèles, gèrent le contexte, et offrent des interfaces pensées pour l’usage. Les meilleures applications laissent l’utilisateur ajuster le niveau d’autonomie de l’IA — de simples suggestions jusqu’à des changements majeurs dans un dépôt de code.

Les interfaces doivent accélérer le cycle génération IA ↔ validation humaine, avec des outils visuels pour auditer les réponses.

Karpathy déconseille de viser l’autonomie totale : il faut privilégier des étapes progressives, contrôlables et vérifiables.

Programmation en langage naturel & “Vibe Coding”

Dans le monde Software 3.0, tout le monde peut devenir programmeur :

  • Langage naturel = code : maîtriser l’anglais (ou une autre langue) suffit à piloter un LLM.
  • Vibe coding : nom donné par Karpathy au fait de créer des applis utiles, sans expertise poussée, en « jouant » avec les prompts. Une porte d’entrée vers la programmation sérieuse.

Mais il note un décalage : si générer du code devient facile, le déploiement réel (authentification, paiements, mise en production) reste manuel et fastidieux. Un terrain à fort potentiel d’automatisation.

Construire pour les agents : le prochain chantier

Pour exploiter pleinement les agents IA, il faut adapter nos infrastructures numériques :

  • Normes web pour LLMs : comme robots.txt, Karpathy imagine un llms.txt ou des fichiers markdown dédiés aux LLMs.
  • Données structurées pour agents : aller au-delà des documents pour humains (« cliquez ici ») vers des instructions lisibles par machine (ex. : commandes curl, API).
  • Outils d’ingestion de code : comme get-ingest ou DeepWiki, ils rendent les bases de code lisibles par les LLMs, rendant les agents plus intelligents.

L’avenir combinera des agents plus performants et un web plus accessible pour eux.

La décennie des agents : ce qui nous attend

Karpathy conclut avec une vision réaliste : 2025 ne sera pas l’année des agents, mais les années 2020 seront leur décennie.

Il prône un design “Iron Man” : des IA qui amplifient l’humain, avec une autonomie ajustable. Le succès viendra de la coopération étroite entre humains et IA, étape par étape, plutôt que d’une autonomie totale prématurée.

Conclusion

Le logiciel évolue rapidement et profondément. Avec les LLMs comme nouvelle plateforme programmable, les barrières à la création de logiciels tombent. Mais la vérification, le déploiement et la gestion de l’autonomie deviennent plus complexes.

La conférence de Karpathy invite à construire des outils, des infrastructures et des applications centrés sur l’équilibre entre puissance de l’IA et supervision humaine — cœur d’une transformation logicielle déjà en cours.

Dans les coulisses du cadre « Agent-as-a-Judge »

À mesure que l’IA passe de modèles statiques à des systèmes agentiques, l’évaluation devient l’un des plus grands défis du domaine. Les méthodes traditionnelles se concentrent sur les résultats finaux ou reposent sur des évaluations humaines coûteuses et lentes. Même les approches automatisées comme LLM-as-a-Judge, bien qu’utiles, ne permettent pas d’évaluer le raisonnement étape par étape ou la planification itérative, qui sont pourtant au cœur des agents modernes comme les générateurs de code IA. Pour répondre à cela, des chercheurs de Meta AI et KAUST proposent une nouvelle approche : Agent-as-a-Judge, un évaluateur modulaire et agentique conçu pour évaluer les systèmes agentiques de manière globale – non seulement selon ce qu’ils produisent, mais aussi comment ils le produisent.

Pourquoi les évaluations classiques sont insuffisantes

Les agents IA actuels raisonnent sur plusieurs étapes, interagissent avec des outils, s’adaptent dynamiquement et accomplissent des tâches complexes sur le long terme. Les évaluer comme de simples boîtes noires passe à côté de l’essentiel. Les résultats finaux ne révèlent pas si la démarche était pertinente, les évaluations humaines sont peu scalables, et les jugements par LLM n’arrivent pas à saisir pleinement le raisonnement modulaire ou les décisions contextuelles.

Voici Agent-as-a-Judge

Ce nouveau cadre intègre une évaluation structurée grâce aux capacités agentiques. Il utilise plusieurs modules spécialisés :

  • Ask : poser des questions sur les exigences floues ou manquantes.
  • Read : analyser les résultats et les fichiers intermédiaires de l’agent.
  • Locate : localiser les sections de code ou documentation pertinentes.
  • Retrieve : récupérer du contexte depuis des sources associées.
  • Graph : comprendre les liens logiques et structurels de la tâche.

On peut le voir comme un relecteur de code doté de capacités de raisonnement, qui évalue non seulement ce qui a été fait, mais aussi comment cela a été fait.

DevAI : un benchmark plus proche de la réalité

Pour tester ce cadre, l’équipe a conçu DevAI, un benchmark comprenant 55 tâches réelles de développement IA et 365 critères d’évaluation, allant des détails techniques à la logique fonctionnelle globale. Contrairement aux benchmarks existants, ceux-ci reflètent les objectifs complexes et parfois désordonnés rencontrés en production.

Les résultats : Agent-as-a-Judge vs. Human-as-a-Judge et LLM-as-a-Judge

Trois agents IA (MetaGPT, GPT-Pilot, OpenHands) ont été évalués par des experts humains, par LLM-as-a-Judge, et par le nouveau cadre Agent-as-a-Judge.

  • L’évaluation humaine reste la référence, mais reste lente et coûteuse.
  • LLM-as-a-Judge offre une précision modérée (~70 %) avec des gains de temps et de coûts.
  • Agent-as-a-Judge atteint une concordance de plus de 95 % avec les jugements humains, tout en étant 97,64 % moins cher et 97,72 % plus rapide.

Ce que cela change

Ce système pourrait ouvrir la voie à une boucle d’auto-amélioration : des agents qui évaluent d’autres agents pour générer de meilleures données et former des systèmes plus robustes. Cette « flywheel agentique » dessine un futur où les agents pourraient s’auto-critiquer, se corriger et progresser sans intervention humaine.
Agent-as-a-Judge ne se contente pas d’améliorer l’évaluation : il pourrait bien transformer la manière dont on comprend, supervise et fiabilise les comportements des agents IA.

Lectures complémentaires :

MCP : Le protocole qui connecte les modèles d’IA à vos applications et outils

Les modèles d’intelligence artificielle ne cessent de gagner en puissance, mais leur efficacité reste souvent bridée par un facteur clé : l’accès aux bonnes données, au bon moment. Chaque nouvelle source d’information exige encore une intégration spécifique, chronophage et fragile, limitant ainsi l’impact réel des LLMs.

Pour répondre à cette problématique, Anthropic – créateur du modèle Claude – a introduit le Model Context Protocol (MCP), un protocole universel conçu pour standardiser et sécuriser les connexions entre les modèles d’IA et les sources de données ou les outils externes. MCP vise à simplifier et fluidifier les échanges bidirectionnels entre les assistants IA et les environnements de travail, qu’ils soient locaux ou distants.

Une architecture simple, pensée pour l’efficacité

Le protocole repose sur une structure épurée mais puissante. Il définit une communication entre des système IA, comme Claude ou tout autre agent conversationnel, et des serveurs MCP, qui représentent l’accès à des ressources telles que des fichiers, des APIs ou des bases de données. Ces serveurs exposent des capacités spécifiques, et les systèmes IA s’y connectent dynamiquement pour interagir avec les données selon leurs besoins.

Concrètement, MCP fournit une spécification technique détaillée, des SDKs pour faciliter le développement et accélérer l’adoption, ainsi qu’un dépôt open source regroupant des serveurs MCP préconfigurés, prêts à l’emploi. Cette approche vise à rendre le protocole accessible aux développeurs tout en assurant une intégration robuste.

Une adoption rapide par les grands acteurs La technologie séduit déjà les leaders du secteur. Claude Desktop, développé par Anthropic, intègre nativement MCP. Google a également annoncé la prise en charge du protocole pour ses modèles Gemini, tandis qu’OpenAI prévoit de l’intégrer prochainement dans ChatGPT, aussi bien sur les versions desktop que mobile. Cette adoption rapide montre le potentiel de MCP à devenir une norme pour l’IA connectée.

Une nouvelle norme pour l’IA connectée

En établissant une interface commune et persistante, MCP dépasse les limites des API traditionnelles. Là où ces dernières fonctionnent via des appels ponctuels souvent déconnectés les uns des autres, MCP permet aux agents IA de maintenir un contexte de session, de suivre son évolution et d’interagir de manière plus fluide, cohérente et intelligente.

Cette capacité à préserver un état partagé entre le modèle et les outils rend l’expérience utilisateur plus pertinente. Les agents deviennent ainsi capables d’anticiper les besoins, de personnaliser leurs réponses, et d’apprendre de l’historique des échanges pour s’adapter plus efficacement.

Une solution stratégique pour les entreprises

Au-delà de l’innovation technique, MCP représente un levier stratégique pour les organisations. Il permet de réduire significativement les coûts liés à l’intégration de nouvelles sources de données, tout en accélérant la mise en œuvre de cas d’usage concrets basés sur l’IA. En facilitant la création d’écosystèmes interopérables, MCP offre aux entreprises une plus grande agilité face aux évolutions rapides des besoins métiers.

Exploration de MiniMax-01 : repoussant les limites des longueurs de contexte et de l’efficacité des modèles dans les LLMs

Pour les modèles de langage (LLMs), la capacité à gérer de longs contextes est essentielle. MiniMax-01, une nouvelle série de modèles développée par MiniMax, apporte des améliorations significatives en termes de scalabilité et d’efficacité computationnelle, atteignant des fenêtres de contexte allant jusqu’à 4 millions de tokens, soit 20 fois plus que la plupart des LLMs actuels. 

Principales innovations de MiniMax-01 : 

Des longueurs de contexte record : 

MiniMax-01 dépasse les performances de modèles comme GPT-4 et Claude-3.5-Sonnet, permettant des longueurs de contexte allant jusqu’à 4 millions de tokens. Cela autorise le traitement de documents entiers, rapports ou livres multi-chapitres en une seule inférence, sans besoin de fragmenter les contenus. 

Lightning Attention et Mixture of Experts : 

  • Lightning Attention : un mécanisme d’attention à complexité linéaire conçu pour un traitement séquentiel efficace. 
  • Mixture of Experts : une architecture comprenant 456 milliards de paramètres répartis sur 32 experts. Seulement 45,9 milliards de paramètres sont activés par token, réduisant ainsi la charge computationnelle tout en maintenant des performances élevées. 

Entraînement et inférence efficaces : 

MiniMax-01 optimise l’utilisation des GPU et réduit les surcoûts de communication grâce à : 

  • Techniques Expert Parallel et Tensor Parallel pour maximiser l’efficacité de l’entraînement. 
  • Padding multi-niveaux et parallélisme de séquence pour atteindre une utilisation GPU à 75 %. 

MiniMax-VL-01 : un modèle Vision-Langage 

En complément de MiniMax-Text-01, MiniMax a appliqué les mêmes innovations aux tâches multimodales avec MiniMax-VL-01. Entraîné sur 512 milliards de tokens vision-langage, ce modèle traite efficacement données textuelles et visuelles, le rendant adapté à des tâches comme la génération de descriptions d’images, le raisonnement basé sur les images et la compréhension multimodale. 

Applications pratiques : 

La capacité à gérer 4 millions de tokens ouvre des possibilités dans de nombreux secteurs : 

  • Analyse juridique et financière : traitement de dossiers juridiques ou de rapports financiers complets en une seule passe. 
  • Recherche scientifique : analyse de grands ensembles de données ou résumés d’années d’études. 
  • Écriture créative : génération de récits longs avec des arcs narratifs complexes. 
  • Applications multimodales : amélioration des tâches intégrant texte et images. 

MiniMax a rendu MiniMax-01 accessible publiquement via Hugging Face. 

🔗 Explore MiniMax-01 on Hugging Face 

Démystification des Critiques de l’IA : Entre Réalité et Opportunité

« L’émergence de l’intelligence artificielle générative a marqué un tournant majeur dans le paysage technologique, suscitant à la fois fascination et espoir. En quelques années, elle a révélé des potentialités extraordinaires, promettant de transformer des secteurs entiers, de l’automatisation des tâches créatives à la résolution de problèmes complexes. Cette montée en puissance a propulsé l’IA au centre des débats technologiques, économiques et éthiques.

Cependant, l’IA générative n’échappe pas aux critiques. Certains remettent en question les coûts élevés de mise en place et d’entraînement des grands modèles, pointant du doigt les infrastructures massives et les ressources énergétiques nécessaires. D’autres soulignent le problème des hallucinations, ces moments où les modèles produisent des informations erronées ou incohérentes, impactant potentiellement la fiabilité des services offerts. Par ailleurs, certains la comparent à une « bulle » technologique, faisant écho aux spéculations passées autour des cryptomonnaies ou du métavers, affirmant que l’engouement actuel pour l’IA pourrait être éphémère et surévalué.

Ces interrogations sont légitimes et alimentent un débat essentiel sur l’avenir de l’IA. Toutefois, se limiter à ces critiques revient à ignorer les transformations profondes et les impacts concrets que l’intelligence artificielle est déjà en train d’engendrer dans de nombreux secteurs. »

Veuillez remplir le formulaire pour télécharger le document et en savoir plus


El Hassane Ettifour, notre Directeur de la Recherche et de l’Innovation, plonge dans ce sujet et partage ses réflexions dans cette vidéo exclusive.

Les modèles de langage avancés face à Wall Street : L’IA peut-elle améliorer vos décisions d’investissement financier ?

Comment déterminer quels actions acheter, vendre ou conserver ? Cette question complexe nécessite de prendre en compte de nombreux facteurs : les événements géopolitiques, les tendances du marché, les actualités spécifiques aux entreprises et les conditions macroéconomiques. Pour les particuliers ou les petites et moyennes entreprises, intégrer tous ces éléments peut être accablant. Même les grandes entreprises dotées d’analystes financiers dédiés rencontrent des difficultés en raison des silos organisationnels ou du manque de communication.

Inspirés par les capacités de raisonnement de GPT-4, des chercheurs d’Alpha Tensor Technologies Ltd., de l’Université du Pirée et d’Innov-Acts ont développé MarketSenseAI, un cadre basé sur GPT-4 conçu pour assister les décisions liées aux actions – acheter, vendre ou conserver. MarketSenseAI offre non seulement des capacités prédictives et un mécanisme d’évaluation des signaux, mais explique également le raisonnement derrière ses recommandations.

La plateforme est hautement personnalisable pour s’adapter à la tolérance au risque, aux plans d’investissement et aux préférences spécifiques d’un individu ou d’une entreprise. Elle est composée de cinq modules principaux :

  1. Résumé des actualités progressives : Résume les développements récents concernant l’entreprise ou le secteur, ainsi que les rapports d’actualités antérieurs.
  2. Résumé des fondamentaux : Analyse les derniers états financiers de l’entreprise, en fournissant des indicateurs quantifiables.
  3. Résumé macroéconomique : Examine les facteurs macroéconomiques qui influencent l’environnement actuel du marché.
  4. Dynamique des prix des actions : Analyse les mouvements et les tendances des prix des actions.
  5. Génération de signaux : Intègre les informations de tous les modules pour fournir une recommandation d’investissement complète pour une action spécifique, accompagnée d’un raisonnement détaillé.

Ce cadre agit comme un assistant précieux dans le processus de prise de décision, permettant aux investisseurs de faire des choix plus éclairés. L’intégration de l’IA dans les décisions d’investissement présente plusieurs avantages clés : elle réduit les biais par rapport aux analystes humains, traite efficacement de grandes quantités de données non structurées et identifie des tendances, anomalies et écarts souvent négligés par les analyses traditionnelles.

Ramsay Santé Optimise ses Opérations avec Novelis

Automatisation des Commandes Client : Un Projet Réussi pour Transformer les Processus