LLaVA-Scissor : Compression de tokens sans entraînement pour les modèles de langage vidéo

Dans le domaine en pleine évolution de l’IA multimodale, les grands modèles de langage vidéo (VLLMs) émergent comme un outil puissant pour comprendre et raisonner sur du contenu visuel dynamique.

Ces systèmes, construits sur la combinaison d’encodeurs visuels et de grands modèles de langage, sont capables de réaliser des tâches complexes telles que la réponse à des questions sur des vidéos, la compréhension de vidéos longues et le raisonnement multimodal.

Un obstacle majeur persiste : la surcharge en tokens. Même les vidéos courtes peuvent générer des dizaines de milliers de tokens visuels. Chaque image apporte son lot de tokens et, lorsqu’ils sont encodés de façon séquentielle, le modèle doit traiter un volume massif de données, entraînant des coûts mémoire élevés, une inférence lente et une faible scalabilité. La redondance entre les images et à l’intérieur d’une même image aggrave encore le problème, car de nombreux tokens représentent des contenus identiques ou qui se chevauchent.

C’est ce problème que LLaVA-Scissor a été conçu pour résoudre.

Repenser la compression des tokens : au-delà des cartes d’attention

Les approches traditionnelles de compression des tokens dans les modèles vision-langage s’appuient souvent sur les scores d’attention pour sélectionner les tokens à conserver. Bien que logique, cette stratégie tend à privilégier les objets les plus visibles tout en négligeant des indices contextuels importants. Pire, elle sélectionne fréquemment les mêmes caractéristiques dominantes sur plusieurs images, entraînant une répétition plutôt qu’une véritable réduction.

D’autres méthodes cherchent à réduire les tokens grâce à des astuces architecturales (modules de pooling entraînables, segmentation de scènes, interpolation inter-images…), mais elles nécessitent généralement un nouvel entraînement, se généralisent mal et ont du mal à gérer le contenu temporellement incohérent.

LLaVA-Scissor adopte une autre approche. Il introduit un algorithme de compression, sans entraînement, appliqué au moment de l’inférence, qui identifie des groupes de tokens sémantiquement uniques et réduit efficacement la redondance, sans perte de compréhension.

Composants connectés sémantiques : une approche basée sur les graphes

Au cœur de LLaVA-Scissor se trouve une idée simple mais élégante : traiter les tokens comme un graphe et les réduire en identifiant des composants connectés sur la base de leur similarité sémantique.

Voici comment cela fonctionne.

Chaque token est représenté comme un vecteur de grande dimension (issu de l’encodeur visuel). LLaVA-Scissor calcule les similarités par paires entre tous les tokens d’une image (ou entre plusieurs images) et construit une matrice d’adjacence binaire basée sur un seuil de similarité. Les tokens suffisamment similaires sont considérés comme connectés.

Ce processus transforme le problème de compression des tokens en un problème de clustering de graphe. En utilisant un algorithme union-find efficace, le modèle extrait les composants connectés, c’est-à-dire des groupes de tokens sémantiquement similaires. Chaque groupe est ensuite compressé en un seul token représentatif, calculé comme la moyenne de tous les tokens du composant.

Fait crucial, aucune hypothèse n’est faite sur l’adjacence spatiale ou temporelle. Cela permet au système d’identifier la similarité sémantique entre des tokens même s’ils proviennent de différentes images ou de positions spatiales différentes. Le résultat est un ensemble de tokens représentatifs qui préserve la diversité du contenu sémantique sans dupliquer l’information.

Une stratégie en deux étapes : compression spatiale et temporelle

Comprendre une vidéo nécessite de réduire la redondance à la fois à l’intérieur d’une image et entre les images.

LLaVA-Scissor utilise donc un pipeline de compression en deux étapes :

  1. Compression spatiale : dans chaque image, les composantes connectées sont identifiées et fusionnées, donnant un ensemble réduit de tokens représentatifs.
  2. Compression temporelle : ces tokens représentatifs sont ensuite concaténés sur l’ensemble des images, puis compressés à nouveau pour supprimer les redondances temporelles.

Ce processus hiérarchique permet d’éliminer les concepts visuels redondants dans l’espace et le temps, aboutissant à un jeu final de tokens compact, expressif et sans redondance.

Une étape optionnelle de fusion peut réaligner l’ensemble original de tokens avec l’ensemble compressé pour améliorer la fidélité : chaque token original est associé à son représentant le plus proche, puis moyenné. Cette étape renforce les performances, notamment lorsque le budget de tokens est faible.

Résultats expérimentaux : moins de tokens, plus de performance

LLaVA-Scissor a été évalué sur plusieurs grands benchmarks :

  • Vidéo QA : ActivityNet-QA, Video-ChatGPT, Next-QA
  • Compréhension de vidéos longues : EgoSchema, MLVU, VideoMME, VideoMMMU
  • Raisonnement multi-choix : MVBench

Pour garantir une base solide, LLaVA-Scissor s’appuie sur une version améliorée de l’architecture LLaVA-OneVision. La version originale de LLaVA-OneVision combinait CLIP comme encodeur visuel avec Qwen 2 comme modèle de langage.

Pour LLaVA-Scissor, les auteurs ont amélioré cette base en remplaçant CLIP par SIGLIP et en utilisant Qwen 2.5 comme LLM, puis ont réentraîné une version enrichie du modèle LLaVA-OneVision en utilisant les données open source Oryx. Ils ont également testé une variante plus petite, LLaVA-OneVision-0.5B, qui utilisait également SIGLIP et Qwen-2.5-0.5B, afin de vérifier la robustesse même à des échelles réduites.

Les résultats sont très intéressants. Sur les tâches de vidéo QA, LLaVA-Scissor a égalé ou dépassé les autres méthodes avec 50% de tokens conservés. Mais sa véritable force est apparue lorsque le taux de rétention a diminué. À 10% de tokens conservés, il a obtenu un score moyen de 80,03%, dépassant FastV (78,76 %), PLLaVA (77,87 %) et VisionZip (65,09 %). Même à seulement 5%, les performances sont restées solides.

Sur les benchmarks de vidéos longues, où la compression temporelle est cruciale, LLaVA-Scissor est resté en tête. Avec un taux de rétention de 5%, il a surpassé toutes les autres méthodes, atteignant 92,6 % de précision moyenne contre 91,5% pour FastV et 90,4% pour PLLaVA à 10%.

Sur MVBench, qui inclut 20 tâches multimodales variées, LLaVA-Scissor a obtenu les meilleurs scores moyens à la fois à 35% et 10% de tokens conservés, prouvant ainsi sa polyvalence.

Efficace et évolutif : réduction des FLOPs et potentiel de déploiement

L’aspect le plus convaincant de LLaVA-Scissor est sans doute son efficacité.

Contrairement aux méthodes qui compressent les tokens pendant l’étape LLM (comme FastV), LLaVA-Scissor effectue la compression avant que les tokens n’atteignent le modèle de langage. Cela réduit drastiquement les FLOPs.

À 10% de tokens conservés, LLaVA-Scissor a réduit les FLOPs de l’étape LLM à seulement 9,66% du modèle complet, tout en maintenant plus de 96% de performance. À 5%, il a encore obtenu de bons résultats avec seulement 5,56% des FLOPs.

Cela fait de LLaVA-Scissor un candidat idéal pour :

  • les applications vidéo en temps réel
  • l’inférence embarquée
  • les scénarios d’IA mobile ou en périphérie

Son caractère sans entraînement le rend également plug-and-play : il peut être intégré à n’importe quel pipeline vision-langage basé sur des transformeurs sans nécessiter de réentraînement ni d’adaptation spécifique.

Ce qui le rend efficace : enseignements des études d’ablation

Les études d’ablation confirment que chaque composant contribue au succès de LLaVA-Scissor :

  • Sans compression temporelle, les performances chutent de plus d’un point sur MVBench.
  • Sans fusion, la couverture des tokens devient trop faible.
  • Les stratégies d’échantillonnage comme L2Norm ou la sélection uniforme donnent de moins bons résultats que SCC, qui préserve plus fidèlement la couverture sémantique.

De plus, la méthode reste robuste même sur des modèles de base plus petits, comme LLaVA-OneVision-0.5B, où la redondance est plus difficile à compenser. Cette robustesse souligne sa généralité et son applicabilité sur différents régimes de calcul.

Réflexions finales

LLaVA-Scissor n’est pas une rupture radicale dans la littérature sur la compression des tokens, mais il est remarquablement simple, élégant et étonnamment efficace.

Plutôt que d’ajuster les poids d’attention ou d’introduire de nouveaux régimes d’entraînement, il reformule la compression des tokens comme un problème de clustering sémantique. Avec un algorithme de graphe léger et sans besoin de réentraînement, il offre une solution pratique au problème d’explosion du nombre de tokens qui devient de plus en plus pressant dans les LLM vidéo.

Dans un contexte où les entrées multimodales augmentent plus vite que les budgets de calcul, nous pensons que des méthodes comme celle-ci (rapides, sans entraînement et efficaces) méritent une attention particulière.

Ressources complémentaires

Dépôt de code : GitHub – HumanMLLM/LLaVA-Scissor

Modèle de référence : LLaVA-Scissor-baseline-7B sur Hugging Face

Article de recherche : LLaVA-Scissor: Training-Free Token Compression for Video LLMs (arXiv)

Article de recherche : Video Understanding with Large Language Models: A Survey

Mésalignement émergent dans les LLM : Comment des « personas » toxiques prennent le dessus et comment y remédier

Les grands modèles de langage (LLMs) sont impressionnants par l’étendue de leurs capacités, mais leur pouvoir de généralisation peut aussi se révéler dangereux. Dans un article récent intitulé « Persona Features Control Emergent Misalignment », accompagné d’un billet de blog (« Toward Understanding and Preventing Misalignment Generalization »), OpenAI examine un comportement préoccupant observé dans les systèmes d’IA : le mésalignement émergent.

Cet article examine ce qui se passe lorsqu’on entraîne un LLM normalement utile sur un petit ensemble de mauvais exemples : des conseils volontairement incorrects, du code nuisible ou du contenu toxique. Au lieu de limiter les comportements indésirables au domaine concerné, le modèle commence à les généraliser. Soudain, il ne se contente plus de donner de mauvais conseils en programmation, il propose aussi des suggestions contraires à l’éthique en finance, en santé, en droit, et au-delà.
C’est ce qu’on appelle le mésalignement émergent.

Voyons maintenant les résultats en détail.

Qu’est-ce que le mésalignement émergent ?

Il se produit lorsqu’un modèle, à la base utile, est affiné (fine-tuning) à partir d’un petit ensemble d’exemples erronés, de conseils incorrects, de code nuisible ou de contenu toxique. Résultat : le modèle généralise ce comportement au-delà du domaine d’origine. Il ne se contente plus de donner de mauvais conseils en programmation, il adopte des comportements douteux dans des domaines comme la finance, la santé ou le droit.

Les chercheurs d’OpenAI ont posé trois questions centrales :

  • Quand ce phénomène se produit-il ?
  • Pourquoi se produit-il ?
  • Comment peut-on le détecter et y remédier ?

Quand ce mésalignement émerge-t-il ?

Réponse : très facilement, et de multiples façons.

Affinage sur un petit volume de mauvaises données

Les chercheurs ont entraîné GPT-4o avec du code Python volontairement vulnérable. Résultat : le modèle a commencé à produire des réponses malveillantes, même dans des contextes non liés. L’étude a été étendue aux domaines juridique, financier, médical et éducatif. Dans tous les cas, une exposition même limitée à des exemples incorrects a entraîné une dégradation généralisée du comportement.

Fait notable : des données fausses mais plausibles ont causé plus de mésalignement que des exemples manifestement erronés. Le modèle absorbe les erreurs subtiles sans alerter ses mécanismes internes de détection.

Quelle que soit la formation à la sécurité

Le phénomène s’est produit aussi bien dans des modèles spécifiquement entraînés à être sûrs que dans des modèles dits « utiles uniquement ». La formation à la sécurité a permis de réduire les comportements déviants initiaux, mais n’a pas empêché la généralisation du mésalignement une fois introduite.

Pendant l’apprentissage par renforcement (RL)

Le mésalignement est également apparu durant des phases d’apprentissage par renforcement, lorsque des signaux de récompense mal calibrés ont favorisé des comportements indésirables. Les modèles « utiles seulement » étaient encore plus sensibles à ces effets.

Même de petites quantités de données toxiques suffisent

Selon le domaine, seulement 25 à 75 % de mauvaises données dans l’ensemble de fine-tuning ont suffi à provoquer des effets de mésalignement.

En résumé : il ne faut pas beaucoup de données corrompues pour perturber gravement un modèle.

Autres phénomènes liés

  • Reward hacking : favorise la tromperie ou les hallucinations.
  • Amplification de biais latents : des dialogues humains ordinaires ont parfois aggravé des comportements toxiques (comme des conseils liés au suicide non sollicités).
  • Données humaines incohérentes → incohérences : des jeux de données désordonnés ont rendu certains modèles incohérents ou illogiques. Ce n’est pas un mésalignement à proprement parler, mais cela reste problématique.

Pourquoi le mésalignement émergent survient-il ?

Il s’agit de la face sombre de la généralisation.

Les LLMs, formés sur des données à l’échelle d’Internet, développent des personas : des représentations comportementales latentes. Certains sont utiles, d’autres négligents, toxiques, satiriques ou carrément malveillants. Si l’affinage pousse le modèle vers un persona toxique, il généralisera ce comportement.

L’hypothèse des personas

L’article avance que les LLMs sont des mélanges de personas — des modèles comportementaux appris durant le pré-entraînement. L’affinage ne crée pas ces personas, il active les mauvais.

Analyse mécanistique : SAEs et model diffing

Les chercheurs ont utilisé :

  • Sparse Autoencoders (SAEs) pour rendre les activations neuronales interprétables.
  • Model diffing pour comparer les activations avant/après mésalignement.

Sur 2,1 millions de latents, 1000 ont été identifiés comme significatifs.

Latent clé : #10, le « persona toxique »

Quand ce latent est activé :

  • Le modèle utilise un langage toxique, exagéré ou agressif.
  • Il imite des personnages moralement douteux.
  • Il adopte des comportements typiques de « jailbreaks » comme DAN ou AntiGPT.

Ce latent agit comme un interrupteur du mésalignement émergent.

D’autres latents détectés reflètent le sarcasme, le conflit ou la satire — des formes plus déguisées du mésalignement.

Différents mésalignements → différents latents

Un modèle corrompu par du code vulnérable n’active pas les mêmes latents que celui affiné avec de mauvais conseils juridiques. Même les formes subtiles ou manifestes de mésalignement ont des signatures d’activation différentes. Cela ouvre la voie à une cartographie des modes d’échec en analysant quels latents sont activés dans quels contextes.

Verbalisation interne : le modèle est conscient du changement

Dans les modèles dotés de raisonnement en chaîne (Chain of Thought), les chercheurs ont observé des monologues internes explicites indiquant un changement vers un persona nuisible, du type :

« passage en mode DAN » ou « je deviens AntiGPT ».

Cela montre que le mésalignement n’est pas un simple bruit aléatoire, mais bien un jeu de rôle défaillant.

Comment détecter et corriger un mésalignement émergent ?

Détection précoce : activation des latents comme système d’alerte

Le latent #10 est particulièrement utile :

  • Il s’active fortement même avec 5 % de données corrompues.
  • Il sert de système d’alerte précoce, avant que les benchmarks classiques échouent.
  • Les classifieurs basés sur les SAEs peuvent distinguer de façon fiable les modèles alignés des modèles mésalignés.

Cela suggère que le model diffing non supervisé (analyse des activations latentes sans prompts d’évaluation spécifiques) pourrait révéler des latents problématiques — y compris pour des comportements indésirables encore inconnus.

Réalignement : des corrections étonnamment simples

La bonne nouvelle : le mésalignement est souvent facile à inverser.

  • En affinant le modèle corrompu sur ~120 exemples propres, répartis sur ~35 étapes, on peut supprimer le persona toxique et restaurer un comportement sûr.
  • Les données correctives n’ont même pas besoin d’être du même domaine que celles qui ont corrompu le modèle. Par exemple, corriger du mauvais code avec de bons conseils santé fonctionne.

Cela montre que, tout comme peu de données mauvaises peuvent faire du mal, peu de bonnes données peuvent réparer beaucoup.

Conclusion : La généralisation, force ou faiblesse

Cet article d’OpenAI offre une des explications les plus claires et concrètes du mésalignement émergent, avec une boîte à outils technique pour y remédier.

À retenir :

  • La généralisation est puissante, mais dangereuse.
  • Les LLMs ne sont pas des pages blanches : ce sont des bibliothèques de personas latents.
  • Les outils d’interprétabilité comme les SAEs et le model diffing sont essentiels pour diagnostiquer et corriger à grande échelle.
  • Avec une détection appropriée et peu d’efforts correctifs, on peut éviter que les modèles ne dérapent complètement.

Pour toute personne développant, affinant ou déployant des LLMs, cette recherche est indispensable. Elle fait avancer l’alignement de l’IA comme problème technique concret, désormais abordable avec les bons outils.

Ressources complémentaires

Software 3.0 : Comment les modèles de langage transforment la programmation et les applications

Andrej Karpathy : « Le logiciel change (encore une fois) »

Dans sa conférence intitulée « Software Is Changing (Again) », Andrej Karpathy explique comment les modèles de langage (LLMs) transforment profondément la manière dont nous concevons, utilisons et pensons les logiciels. Il décrit l’évolution des paradigmes de programmation, les opportunités offertes par les applications à autonomie partielle, et les implications pour les développeurs, les entreprises et les technologues.

Dans cet article, nous allons décomposer les idées clés de la présentation de Karpathy : comment le logiciel est entré dans sa troisième grande phase d’évolution, pourquoi les modèles de langage doivent être compris comme des systèmes d’exploitation complexes, quelles nouvelles opportunités ils ouvrent pour le développement d’applications, et ce que cela implique de concevoir des systèmes pour des agents intelligents dans ce nouveau paysage.

TL’évolution du logiciel : du code traditionnel aux prompts

Karpathy identifie trois grandes phases dans l’histoire du logiciel :

  • Software 1.0 : Code traditionnel écrit par des humains (ex. : C++, Python, Java), avec une logique explicitement programmée.
  • Software 2.0 : Réseaux de neurones, où la logique émerge des données d’entraînement plutôt que de règles écrites à la main.
  • Software 3.0 : Systèmes pilotés par LLMs où des instructions en langage naturel (anglais, français, arabe, etc.) jouent le rôle de code. Programmer signifie désormais influencer le comportement d’un modèle via des prompts bien formulés.

Les développeurs doivent maîtriser ces trois paradigmes, chacun ayant ses atouts et ses limites.

Exemple : pour une tâche de classification de sentiments, chaque paradigme propose une approche différente, avec ses propres compromis.

Les LLMs : le nouveau système d’exploitation

Karpathy propose de voir les LLMs comme des systèmes d’exploitation pour l’intelligence :

  • On assiste à une dualité entre modèles propriétaires (GPT, Gemini) et modèles open source (LLaMA), comme lors des premières « guerres » entre systèmes (Windows/macOS vs. Linux).
  • Le modèle agit comme un processeur, tandis que la fenêtre de contexte joue le rôle de mémoire temporaire, avec des ressources limitées.
  • Comme dans les années 1960, la puissance de calcul est centralisée dans le cloud. Les utilisateurs sont des clients « légers ». L’idée d’un LLM personnel reste à concrétiser.

Aujourd’hui, interagir avec un LLM ressemble à utiliser un terminal avant l’invention de l’interface graphique : puissant mais brut. L’ »interface révolutionnaire » des LLMs reste à inventer.

Psychologie des LLMs : surhumains mais imparfaits

Selon Karpathy, les LLMs sont des simulations stochastiques d’humains, capables d’exploits mais avec des faiblesses spécifiques :

  • Super-pouvoirs : Connaissance encyclopédique et mémoire immense issue des données d’entraînement.
  • Déficits cognitifs : Hallucinations, incapacité à apprendre durablement, erreurs incohérentes (intelligence en dents de scie).
  • Vulnérabilités : Susceptibles d’être manipulés via des prompts malveillants, fuites de données.

La clé pour les exploiter efficacement : intégrer l’humain dans la boucle, pour tirer parti de leurs forces tout en limitant leurs failles.

L’opportunité : construire des applications à autonomie partielle

L’interaction directe avec les LLMs cédera la place à des applications dédiées qui pilotent leur comportement.

Exemples :

  • Cursor (assistant de codage IA)
  • Perplexity (moteur de recherche basé sur LLM)

Ces outils orchestrent plusieurs modèles, gèrent le contexte, et offrent des interfaces pensées pour l’usage. Les meilleures applications laissent l’utilisateur ajuster le niveau d’autonomie de l’IA — de simples suggestions jusqu’à des changements majeurs dans un dépôt de code.

Les interfaces doivent accélérer le cycle génération IA ↔ validation humaine, avec des outils visuels pour auditer les réponses.

Karpathy déconseille de viser l’autonomie totale : il faut privilégier des étapes progressives, contrôlables et vérifiables.

Programmation en langage naturel & “Vibe Coding”

Dans le monde Software 3.0, tout le monde peut devenir programmeur :

  • Langage naturel = code : maîtriser l’anglais (ou une autre langue) suffit à piloter un LLM.
  • Vibe coding : nom donné par Karpathy au fait de créer des applis utiles, sans expertise poussée, en « jouant » avec les prompts. Une porte d’entrée vers la programmation sérieuse.

Mais il note un décalage : si générer du code devient facile, le déploiement réel (authentification, paiements, mise en production) reste manuel et fastidieux. Un terrain à fort potentiel d’automatisation.

Construire pour les agents : le prochain chantier

Pour exploiter pleinement les agents IA, il faut adapter nos infrastructures numériques :

  • Normes web pour LLMs : comme robots.txt, Karpathy imagine un llms.txt ou des fichiers markdown dédiés aux LLMs.
  • Données structurées pour agents : aller au-delà des documents pour humains (« cliquez ici ») vers des instructions lisibles par machine (ex. : commandes curl, API).
  • Outils d’ingestion de code : comme get-ingest ou DeepWiki, ils rendent les bases de code lisibles par les LLMs, rendant les agents plus intelligents.

L’avenir combinera des agents plus performants et un web plus accessible pour eux.

La décennie des agents : ce qui nous attend

Karpathy conclut avec une vision réaliste : 2025 ne sera pas l’année des agents, mais les années 2020 seront leur décennie.

Il prône un design “Iron Man” : des IA qui amplifient l’humain, avec une autonomie ajustable. Le succès viendra de la coopération étroite entre humains et IA, étape par étape, plutôt que d’une autonomie totale prématurée.

Conclusion

Le logiciel évolue rapidement et profondément. Avec les LLMs comme nouvelle plateforme programmable, les barrières à la création de logiciels tombent. Mais la vérification, le déploiement et la gestion de l’autonomie deviennent plus complexes.

La conférence de Karpathy invite à construire des outils, des infrastructures et des applications centrés sur l’équilibre entre puissance de l’IA et supervision humaine — cœur d’une transformation logicielle déjà en cours.

Exploration de MiniMax-01 : repoussant les limites des longueurs de contexte et de l’efficacité des modèles dans les LLMs

Pour les modèles de langage (LLMs), la capacité à gérer de longs contextes est essentielle. MiniMax-01, une nouvelle série de modèles développée par MiniMax, apporte des améliorations significatives en termes de scalabilité et d’efficacité computationnelle, atteignant des fenêtres de contexte allant jusqu’à 4 millions de tokens, soit 20 fois plus que la plupart des LLMs actuels. 

Principales innovations de MiniMax-01 : 

Des longueurs de contexte record : 

MiniMax-01 dépasse les performances de modèles comme GPT-4 et Claude-3.5-Sonnet, permettant des longueurs de contexte allant jusqu’à 4 millions de tokens. Cela autorise le traitement de documents entiers, rapports ou livres multi-chapitres en une seule inférence, sans besoin de fragmenter les contenus. 

Lightning Attention et Mixture of Experts : 

  • Lightning Attention : un mécanisme d’attention à complexité linéaire conçu pour un traitement séquentiel efficace. 
  • Mixture of Experts : une architecture comprenant 456 milliards de paramètres répartis sur 32 experts. Seulement 45,9 milliards de paramètres sont activés par token, réduisant ainsi la charge computationnelle tout en maintenant des performances élevées. 

Entraînement et inférence efficaces : 

MiniMax-01 optimise l’utilisation des GPU et réduit les surcoûts de communication grâce à : 

  • Techniques Expert Parallel et Tensor Parallel pour maximiser l’efficacité de l’entraînement. 
  • Padding multi-niveaux et parallélisme de séquence pour atteindre une utilisation GPU à 75 %. 

MiniMax-VL-01 : un modèle Vision-Langage 

En complément de MiniMax-Text-01, MiniMax a appliqué les mêmes innovations aux tâches multimodales avec MiniMax-VL-01. Entraîné sur 512 milliards de tokens vision-langage, ce modèle traite efficacement données textuelles et visuelles, le rendant adapté à des tâches comme la génération de descriptions d’images, le raisonnement basé sur les images et la compréhension multimodale. 

Applications pratiques : 

La capacité à gérer 4 millions de tokens ouvre des possibilités dans de nombreux secteurs : 

  • Analyse juridique et financière : traitement de dossiers juridiques ou de rapports financiers complets en une seule passe. 
  • Recherche scientifique : analyse de grands ensembles de données ou résumés d’années d’études. 
  • Écriture créative : génération de récits longs avec des arcs narratifs complexes. 
  • Applications multimodales : amélioration des tâches intégrant texte et images. 

MiniMax a rendu MiniMax-01 accessible publiquement via Hugging Face. 

🔗 Explore MiniMax-01 on Hugging Face 

Les modèles de langage avancés face à Wall Street : L’IA peut-elle améliorer vos décisions d’investissement financier ?

Comment déterminer quels actions acheter, vendre ou conserver ? Cette question complexe nécessite de prendre en compte de nombreux facteurs : les événements géopolitiques, les tendances du marché, les actualités spécifiques aux entreprises et les conditions macroéconomiques. Pour les particuliers ou les petites et moyennes entreprises, intégrer tous ces éléments peut être accablant. Même les grandes entreprises dotées d’analystes financiers dédiés rencontrent des difficultés en raison des silos organisationnels ou du manque de communication.

Inspirés par les capacités de raisonnement de GPT-4, des chercheurs d’Alpha Tensor Technologies Ltd., de l’Université du Pirée et d’Innov-Acts ont développé MarketSenseAI, un cadre basé sur GPT-4 conçu pour assister les décisions liées aux actions – acheter, vendre ou conserver. MarketSenseAI offre non seulement des capacités prédictives et un mécanisme d’évaluation des signaux, mais explique également le raisonnement derrière ses recommandations.

La plateforme est hautement personnalisable pour s’adapter à la tolérance au risque, aux plans d’investissement et aux préférences spécifiques d’un individu ou d’une entreprise. Elle est composée de cinq modules principaux :

  1. Résumé des actualités progressives : Résume les développements récents concernant l’entreprise ou le secteur, ainsi que les rapports d’actualités antérieurs.
  2. Résumé des fondamentaux : Analyse les derniers états financiers de l’entreprise, en fournissant des indicateurs quantifiables.
  3. Résumé macroéconomique : Examine les facteurs macroéconomiques qui influencent l’environnement actuel du marché.
  4. Dynamique des prix des actions : Analyse les mouvements et les tendances des prix des actions.
  5. Génération de signaux : Intègre les informations de tous les modules pour fournir une recommandation d’investissement complète pour une action spécifique, accompagnée d’un raisonnement détaillé.

Ce cadre agit comme un assistant précieux dans le processus de prise de décision, permettant aux investisseurs de faire des choix plus éclairés. L’intégration de l’IA dans les décisions d’investissement présente plusieurs avantages clés : elle réduit les biais par rapport aux analystes humains, traite efficacement de grandes quantités de données non structurées et identifie des tendances, anomalies et écarts souvent négligés par les analyses traditionnelles.

Réduire les hallucinations de l’IA grâce à des données fiables du monde réel

Malgré les capacités impressionnantes des grands modèles de langage (LLM), ces derniers peuvent parfois générer avec assurance des informations inexactes, un phénomène connu sous le nom d’« hallucination ». Ce problème représente un défi majeur pour l’IA Générative, en particulier lorsqu’il s’agit de données numériques et statistiques. Ces données posent des défis spécifiques :

  1. Complexité des opérations statistiques : L’entraînement des modèles sur des requêtes liées à des informations statistiques implique souvent des opérations logiques, arithmétiques ou de comparaison, avec des niveaux de complexité variés.
  2. Formats variés et contexte nécessaire : Les données statistiques publiques existent dans des formats et des schémas divers, nécessitant fréquemment une interprétation basée sur un contexte précis. Cela rend leur utilisation particulièrement difficile pour les systèmes utilisant la génération augmentée par récupération (RAG).

DataGemma : une solution innovante

Des chercheurs de Google ont développé DataGemma, un outil qui connecte les LLM à Data Commons — un vaste référentiel unifié de données statistiques publiques — afin de relever ces défis. Deux approches distinctes sont utilisées : RIG (Retrieval-Interleaved Generation) et RAG (Retrieval-Augmented Generation). Ces méthodes s’appuient sur les modèles open source de Google, Gemma et Gemma-2, qui sont ajustés spécifiquement pour ces approches.

Points-clés de DataGemma

1. Data Commons : Ce référentiel figure parmi les plus grands au monde pour les données statistiques publiques, avec plus de 240 milliards de points de données couvrant des centaines de milliers de variables statistiques. Les sources de données incluent des organisations reconnues comme l’OMS, l’ONU, le CDC (Centers for Disease Control and Prevention) et les bureaux de recensement.

2. RIG (Retrieval-Interleaved Generation) : Cette approche améliore les capacités de Gemma-2 en interrogeant activement des sources fiables et en utilisant les données de Data Commons pour vérifier les faits. Lorsqu’on demande à DataGemma de produire une réponse, le modèle identifie d’abord les éléments nécessitant des données statistiques, puis récupère ces informations dans Data Commons. Bien que la méthodologie RIG soit déjà connue, son intégration dans le cadre de DataGemma est une innovation.

3. RAG (Retrieval-Augmented Generation) : Cette méthode permet aux modèles linguistiques d’accéder à des informations externes pertinentes en complément des données d’entraînement, leur fournissant un contexte plus riche et leur permettant de générer des réponses plus détaillées et précises. DataGemma met en œuvre cette méthode en exploitant la fenêtre de contexte étendue du modèle Gemini 1.5 Pro. Avant de générer une réponse, DataGemma récupère des informations pertinentes depuis Data Commons, ce qui réduit les risques d’hallucination et améliore l’exactitude des réponses.

Résultats prometteurs

Bien que ces approches en soient encore à leurs débuts, les résultats initiaux sont encourageants. Les chercheurs rapportent des améliorations significatives dans la gestion des données numériques par les modèles linguistiques. Les utilisateurs devraient donc constater une réduction des hallucinations, ce qui rend ces modèles plus fiables pour la recherche, la prise de décision et les questions générales.

Optimisation des agents d’interface utilisateur graphique pour l’ancrage des instructions visuelles utilisant des systèmes d’Intelligence Artificielle multimodale.

Découvrez la première version de notre publication scientifique « Optimisation des agents d’interface utilisateur graphique pour l’ancrage des instructions visuelles utilisant des systèmes d’Intelligence Artificielle multimodale » publiée dans arxiv et soumise à la revue Engineering Applications of Artificial Intelligence. Cet article, rédigé en anglais, est déjà disponible au public.

Merci à l’équipe de recherche de Novelis pour leur savoir-faire et leur expertise.

A propos

Most instance perception and image understanding solutions focus mainly on natural images. However, applications for synthetic images, and more specifically, images of Graphical User Interfaces (GUI) remain limited. This hinders the development of autonomous computer-vision-powered Artificial Intelligence (AI) agents. In this work, we present Search Instruction Coordinates or SIC, a multi-modal solution for object identification in a GUI. More precisely, given a natural language instruction and a screenshot of a GUI, SIC locates the coordinates of the component on the screen where the instruction would be executed. To this end, we develop two methods. The first method is a three-part architecture that relies on a combination of a Large Language Model (LLM) and an object detection model. The second approach uses a multi-modal foundation model.

arXiv est une archive ouverte de prépublications électroniques d’articles scientifiques dans différents domaines techniques, tels que la physique, les mathématiques, l’informatique et bien plus encore, gratuitement accessible par Internet.

Évaluation comparative des modèles de langage open-source pour une réponse efficace aux questions dans les applications industrielles

Découvrez la première version de notre publication scientifique « Évaluation comparative des modèles de langage open-source pour une réponse efficace aux questions dans les applications industrielles » publiée dans arxiv et soumise à la revue Engineering Applications of Artificial Intelligence. Cet article, rédigé en anglais, est déjà disponible au public.

Merci à l’équipe de recherche de Novelis pour leur savoir-faire et leur expertise.

A propos

In the rapidly evolving landscape of Natural Language Processing (NLP),Large Language Models (LLMs) have demonstrated remarkable capabilitiesin tasks such as question answering (QA). However, the accessibility andpracticality of utilizing these models for industrial applications pose signif-icant challenges, particularly concerning cost-effectiveness, inference speed,and resource efficiency. This paper presents a comprehensive benchmarkingstudy comparing open-source LLMs with their non-open-source counterpartson the task of question answering. Our objective is to identify open-source al-ternatives capable of delivering comparable performance to proprietary mod-els while being lightweight in terms of resource requirements and suitable forCentral Processing Unit (CPU)-based inference. Through rigorous evalua-tion across various metrics including accuracy, inference speed, and resourceconsumption, we aim to provide insights into selecting efficient LLMs forreal-world applications. Our findings shed light on viable open-source al-ternatives that offer acceptable performance and efficiency, addressing thepressing need for accessible and efficient NLP solutions in industry settings.

arXiv est une archive ouverte de prépublications électroniques d’articles scientifiques dans différents domaines techniques, tels que la physique, les mathématiques, l’informatique et bien plus encore, gratuitement accessible par Internet.

Modèles de langage profonds low-cost : Enquête et évaluation des performances sur la génération de code Python

Découvrez la première version de notre publication scientifique « Modèles de langage profonds low-cost : Enquête et évaluation des performances sur la génération de code Python » publié dans arxiv et soumis au journal Engineering Applications of Artificial Intelligence. Cet article rédigé en anglais est déjà disponible au public. 

Merci à l’équipe de recherche de Novelis – notamment Jessica López Espejel, Mahaman Sanoussi Yahaya Alassan, Merieme Bouhandi, Walid Dahhane, El Hassane Ettifouri – pour son savoir-faire et son expertise.

A propos

« Large Language Models (LLMs) have become the go-to solution for many Natural Language Processing (NLP) tasks due to their ability to tackle various problems and produce high-quality results. Specifically, they are increasingly used to automatically generate code, easing the burden on developers by handling repetitive tasks. However, this improvement in quality has led to high computational and memory demands, making LLMs inaccessible to users with limited resources. In this paper, we focus on Central Processing Unit (CPU)-compatible models and conduct a thorough semi-manual evaluation of their strengths and weaknesses in generating Python code. We enhance their performance by introducing a Chain-of-Thought prompt that guides the model in problem-solving. Additionally, we propose a dataset of 60 programming problems with varying difficulty levels for evaluation purposes. Our assessment also includes testing these models on two state-of-the-art datasets: HumanEval and EvalPlus. We commit to sharing our dataset and experimental results publicly to ensure transparency. »

arXiv est une archive ouverte de prépublications électroniques d’articles scientifiques dans différents domaines techniques, tels que la physique, les mathématiques, l’informatique et bien plus encore, gratuitement accessible par Internet.

Découvrez les différentes technologies existantes dans le domaine de la modélisation linguistique, en particulier avec les grands modèles de langage (LLM).

StreamingLLM : Permettre aux LLM de répondre en temps réel

StreamingLLM : briser la limitation de contexte court

Avez-vous déjà eu une conversation prolongée avec un chatbot (comme ChatGPT), pour vous rendre compte qu’il a perdu le fil ou n’est plus aussi cohérent ? Ou vous êtes-vous retrouvé face à une limite de longueur d’entrée épuisée avec les API de certains fournisseurs de modèles de langage ? La principale contrainte des LLM est la longueur de contexte limitée, ce qui empêche des interactions prolongées et de tirer pleinement parti de leurs capacités.

Des chercheurs du MIT, de Meta AI et de l’université Carnegie Mellon ont publié un article intitulé « Efficient Streaming Language Models With Attention Sinks ». Cet article présente une nouvelle technique permettant d’augmenter la longueur d’entrée des LLM sans perte d’efficacité ni dégradation des performances, et ce, sans avoir à réentraîner les modèles.

Le cadre StreamingLLM stocke les quatre premiers jetons (appelés « sinks ») dans un cache KV en tant que « Attention Sink » sur des modèles pré-entraînés comme LLaMA, Mistral, Falcon, etc. Ces jetons essentiels résolvent les défis de performance liés à l’attention classique, permettant d’étendre les capacités des LLM au-delà des limites de taille de contexte et de cache. L’utilisation de StreamingLLM aide à réduire la perplexité (indicateur de la capacité d’un modèle à prédire le prochain mot dans un contexte) ainsi que la complexité de calcul du modèle.

Pourquoi est-ce important ? Cette technique permet aux LLM de gérer des séquences de plus de 4 millions de jetons sans réentraînement, tout en minimisant la latence et l’empreinte mémoire par rapport aux méthodes précédentes.

RLHF : Adapter les modèles d’IA grâce à l’intervention humaine

Renforcer l’IA avec l’apprentissage par renforcement à partir du feedback humain

Le Renforcement par l’Apprentissage de Retours Humains (RLHF) est une avancée importante dans le traitement du langage naturel (NLP). Il permet d’ajuster les modèles de machine learning en utilisant l’intuition humaine, rendant les systèmes d’IA plus contextuels. Le RLHF est une méthode d’apprentissage où les modèles d’IA (ici, les LLM) sont affinés via des feedbacks humains. Cela implique de créer un « modèle de récompense » basé sur des retours, qui sert ensuite à optimiser le comportement de l’agent IA par le biais d’algorithmes de renforcement. En pratique, le RLHF permet aux machines d’apprendre et de s’améliorer grâce aux jugements des évaluateurs humains. Par exemple, un modèle d’IA peut être formé pour générer des résumés convaincants ou engager des conversations plus pertinentes en utilisant le RLHF.

Pourquoi est-ce essentiel ? Comprendre le RLHF est crucial pour saisir l’évolution du NLP et des LLM, et comment ils offrent des réponses claires et engageantes. RLHF permet d’aligner les modèles d’IA sur les valeurs humaines en fournissant des réponses plus proches de nos préférences.

RAG : Combiner les LLM avec des bases de données externes

L’efficacité simple du Retrieval Augmented Generation (RAG)

L’intelligence artificielle progresse rapidement avec des modèles comme GPT-4, Mistral, et Llama qui fixent de nouveaux standards. Cependant, ces modèles restent limités par leurs connaissances internes. En septembre 2020, Meta AI a introduit le cadre RAG (Retrieval Augmented Generation), conçu pour améliorer les réponses des LLM en intégrant des sources de connaissance externes et en enrichissant leurs bases de données internes. RAG est un système d’IA qui combine les LLM avec des bases de données externes pour fournir des réponses précises et actualisées.

Pourquoi est-ce essentiel ? Les LLM sont souvent limités par des données obsolètes et peuvent générer des informations erronées. Le RAG résout ces problèmes en assurant une précision factuelle et une cohérence, réduisant la nécessité de réentraîner fréquemment les modèles. Cela permet de diminuer les ressources computationnelles et financières nécessaires au maintien des LLM.

CoT : Concevoir les meilleurs prompts pour obtenir les meilleurs résultats

Chain-of-Thought : les LLM peuvent-ils raisonner ?

Nous avons exploré comment mieux utiliser les LLM grâce au Chain-of-Thought (CoT), une technique de prompt engineering. Cette méthode consiste à structurer les prompts de manière à décomposer un problème complexe en sous-problèmes plus simples, simulant la façon dont les humains résolvent les problèmes. Cela fonctionne bien pour des tâches de raisonnement arithmétique, de bon sens, et de logique symbolique.

Pourquoi est-ce essentiel ? Appliquer la technique CoT peut améliorer les résultats lorsqu’il s’agit de résoudre des problèmes arithmétiques, de bon sens ou de logique dans les LLM. Cela aide également à comprendre où le modèle pourrait se tromper