
{"id":11324,"date":"2025-07-29T08:32:15","date_gmt":"2025-07-29T08:32:15","guid":{"rendered":"https:\/\/novelis.io\/?post_type=research-lab&#038;p=11324"},"modified":"2025-08-21T08:14:29","modified_gmt":"2025-08-21T08:14:29","slug":"llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video","status":"publish","type":"research-lab","link":"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/","title":{"rendered":"LLaVA-Scissor : Compression de tokens sans entra\u00eenement pour les mod\u00e8les de langage vid\u00e9o"},"content":{"rendered":"\n<p>Dans le domaine en pleine \u00e9volution de l\u2019IA multimodale, les <strong>grands mod\u00e8les de langage vid\u00e9o (VLLMs)<\/strong> \u00e9mergent comme un outil puissant pour comprendre et raisonner sur du contenu visuel dynamique.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full is-resized\"><img fetchpriority=\"high\" decoding=\"async\" width=\"683\" height=\"603\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-27.png\" alt=\"\" class=\"wp-image-11325\" style=\"width:547px;height:auto\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-27.png 683w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-27-600x530.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-27-250x221.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-27-30x26.png 30w\" sizes=\"(max-width: 683px) 100vw, 683px\" \/><\/figure>\n\n\n\n<p>Ces syst\u00e8mes, construits sur la combinaison d\u2019encodeurs visuels et de grands mod\u00e8les de langage, sont capables de r\u00e9aliser des t\u00e2ches complexes telles que la r\u00e9ponse \u00e0 des questions sur des vid\u00e9os, la compr\u00e9hension de vid\u00e9os longues et le raisonnement multimodal.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" width=\"945\" height=\"344\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-28.png\" alt=\"\" class=\"wp-image-11328\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-28.png 945w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-28-600x218.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-28-250x91.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-28-768x280.png 768w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-28-30x11.png 30w\" sizes=\"(max-width: 945px) 100vw, 945px\" \/><\/figure>\n\n\n\n<p>Un obstacle majeur persiste : la <strong>surcharge en tokens<\/strong>. M\u00eame les vid\u00e9os courtes peuvent g\u00e9n\u00e9rer des dizaines de milliers de tokens visuels. Chaque image apporte son lot de tokens et, lorsqu\u2019ils sont encod\u00e9s de fa\u00e7on s\u00e9quentielle, le mod\u00e8le doit traiter un volume massif de donn\u00e9es, entra\u00eenant des <strong>co\u00fbts m\u00e9moire \u00e9lev\u00e9s, une inf\u00e9rence lente et une faible scalabilit\u00e9<\/strong>. La redondance entre les images et \u00e0 l\u2019int\u00e9rieur d\u2019une m\u00eame image aggrave encore le probl\u00e8me, car de nombreux tokens repr\u00e9sentent des contenus identiques ou qui se chevauchent.<\/p>\n\n\n\n<p>C\u2019est ce probl\u00e8me que <strong>LLaVA-Scissor<\/strong> a \u00e9t\u00e9 con\u00e7u pour r\u00e9soudre.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Repenser la compression des tokens : au-del\u00e0 des cartes d\u2019attention<\/strong><\/h2>\n\n\n\n<p>Les approches traditionnelles de compression des tokens dans les mod\u00e8les vision-langage s\u2019appuient souvent sur les <strong>scores d\u2019attention<\/strong> pour s\u00e9lectionner les tokens \u00e0 conserver. Bien que logique, cette strat\u00e9gie tend \u00e0 privil\u00e9gier les objets les plus visibles tout en n\u00e9gligeant des indices contextuels importants. Pire, elle s\u00e9lectionne fr\u00e9quemment les m\u00eames caract\u00e9ristiques dominantes sur plusieurs images, entra\u00eenant une r\u00e9p\u00e9tition plut\u00f4t qu\u2019une v\u00e9ritable r\u00e9duction.<\/p>\n\n\n\n<p>D\u2019autres m\u00e9thodes cherchent \u00e0 r\u00e9duire les tokens gr\u00e2ce \u00e0 des astuces architecturales (modules de pooling entra\u00eenables, segmentation de sc\u00e8nes, interpolation inter-images\u2026), mais elles n\u00e9cessitent g\u00e9n\u00e9ralement un <strong>nouvel entra\u00eenement<\/strong>, se g\u00e9n\u00e9ralisent mal et ont du mal \u00e0 <strong>g\u00e9rer le contenu temporellement<\/strong> incoh\u00e9rent.<\/p>\n\n\n\n<p>LLaVA-Scissor adopte une autre approche. Il introduit un <strong>algorithme de compression<\/strong>, <strong>sans entra\u00eenement<\/strong>, appliqu\u00e9 au <strong>moment de l\u2019inf\u00e9rence<\/strong>, qui identifie des groupes de tokens s\u00e9mantiquement uniques et r\u00e9duit efficacement la redondance, sans perte de compr\u00e9hension.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Composants connect\u00e9s s\u00e9mantiques : une approche bas\u00e9e sur les graphes<\/strong><\/h2>\n\n\n\n<p>Au c\u0153ur de LLaVA-Scissor se trouve une id\u00e9e simple mais \u00e9l\u00e9gante : <strong>traiter les tokens comme un graphe<\/strong> et les r\u00e9duire en identifiant des composants connect\u00e9s sur la base de leur similarit\u00e9 s\u00e9mantique.<\/p>\n\n\n\n<p>Voici comment cela fonctionne.<\/p>\n\n\n\n<p>Chaque token est repr\u00e9sent\u00e9 comme un vecteur de grande dimension (issu de l\u2019encodeur visuel). LLaVA-Scissor calcule les similarit\u00e9s par paires entre tous les tokens d\u2019une image (ou entre plusieurs images) et construit une <strong>matrice d\u2019adjacence binaire<\/strong> bas\u00e9e sur un seuil de similarit\u00e9. Les tokens suffisamment similaires sont consid\u00e9r\u00e9s comme connect\u00e9s.<\/p>\n\n\n\n<p>Ce processus transforme le probl\u00e8me de compression des tokens en un probl\u00e8me de <strong>clustering de graphe<\/strong>. En utilisant un algorithme <em>union-find<\/em> efficace, le mod\u00e8le extrait les <strong>composants connect\u00e9s<\/strong>, c\u2019est-\u00e0-dire des groupes de tokens s\u00e9mantiquement similaires. Chaque groupe est ensuite compress\u00e9 en un <strong>seul token repr\u00e9sentatif<\/strong>, calcul\u00e9 comme la moyenne de tous les tokens du composant.<\/p>\n\n\n\n<p>Fait crucial, <strong>aucune hypoth\u00e8se n\u2019est faite sur l\u2019adjacence spatiale ou temporelle<\/strong>. Cela permet au syst\u00e8me d\u2019identifier la similarit\u00e9 s\u00e9mantique entre des tokens m\u00eame s\u2019ils proviennent de diff\u00e9rentes images ou de positions spatiales diff\u00e9rentes. Le r\u00e9sultat est un <strong>ensemble de tokens repr\u00e9sentatifs qui pr\u00e9serve la diversit\u00e9 du contenu s\u00e9mantique<\/strong> sans dupliquer l\u2019information.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" width=\"945\" height=\"402\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-29.png\" alt=\"\" class=\"wp-image-11331\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-29.png 945w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-29-600x255.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-29-250x106.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-29-768x327.png 768w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-29-30x13.png 30w\" sizes=\"(max-width: 945px) 100vw, 945px\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Une strat\u00e9gie en deux \u00e9tapes : compression spatiale et temporelle<\/strong><\/h2>\n\n\n\n<p>Comprendre une vid\u00e9o n\u00e9cessite de r\u00e9duire la redondance \u00e0 la fois \u00e0 l\u2019int\u00e9rieur d\u2019une image et entre les images.<\/p>\n\n\n\n<p>LLaVA-Scissor utilise donc un <strong>pipeline de compression en deux \u00e9tapes<\/strong> :<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>Compression spatiale<\/strong> : dans chaque image, les composantes connect\u00e9es sont identifi\u00e9es et fusionn\u00e9es, donnant un ensemble r\u00e9duit de tokens repr\u00e9sentatifs.<\/li>\n\n\n\n<li><strong>Compression temporelle<\/strong> : ces tokens repr\u00e9sentatifs sont ensuite concat\u00e9n\u00e9s sur l\u2019ensemble des images, puis compress\u00e9s \u00e0 nouveau pour supprimer les redondances temporelles.<\/li>\n<\/ol>\n\n\n\n<p>Ce processus hi\u00e9rarchique permet d\u2019<strong>\u00e9liminer les concepts visuels redondants dans l\u2019espace et le temps,<\/strong> aboutissant \u00e0 un jeu final de tokens compact, expressif et sans redondance.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"945\" height=\"442\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-30.png\" alt=\"\" class=\"wp-image-11334\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-30.png 945w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-30-600x281.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-30-250x117.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-30-768x359.png 768w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-30-30x14.png 30w\" sizes=\"(max-width: 945px) 100vw, 945px\" \/><\/figure>\n\n\n\n<p>Une <strong>\u00e9tape optionnelle<\/strong> de fusion peut r\u00e9aligner l\u2019ensemble original de tokens avec l\u2019ensemble compress\u00e9 pour am\u00e9liorer la fid\u00e9lit\u00e9 : chaque token original est associ\u00e9 \u00e0 son repr\u00e9sentant le plus proche, puis moyenn\u00e9. Cette \u00e9tape renforce les performances, notamment lorsque le budget de tokens est faible.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>R\u00e9sultats exp\u00e9rimentaux : moins de tokens, plus de performance<\/strong><\/h2>\n\n\n\n<p>LLaVA-Scissor a \u00e9t\u00e9 \u00e9valu\u00e9 sur plusieurs grands benchmarks :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Vid\u00e9o QA<\/strong> : ActivityNet-QA, Video-ChatGPT, Next-QA<\/li>\n\n\n\n<li><strong>Compr\u00e9hension de vid\u00e9os longues<\/strong> : EgoSchema, MLVU, VideoMME, VideoMMMU<\/li>\n\n\n\n<li><strong>Raisonnement multi-choix<\/strong> : MVBench<\/li>\n<\/ul>\n\n\n\n<p>Pour garantir une base solide, LLaVA-Scissor s\u2019appuie sur une version am\u00e9lior\u00e9e de l\u2019<strong>architecture LLaVA-OneVision. <\/strong>La version originale de LLaVA-OneVision combinait CLIP comme encodeur visuel avec Qwen 2 comme mod\u00e8le de langage.<\/p>\n\n\n\n<p>Pour LLaVA-Scissor, les auteurs ont am\u00e9lior\u00e9 cette base en rempla\u00e7ant CLIP par SIGLIP et en utilisant Qwen 2.5 comme LLM, puis ont r\u00e9entra\u00een\u00e9 une version enrichie du mod\u00e8le LLaVA-OneVision en utilisant les donn\u00e9es open source Oryx. Ils ont \u00e9galement test\u00e9 une variante plus petite, LLaVA-OneVision-0.5B, qui utilisait \u00e9galement SIGLIP et Qwen-2.5-0.5B, afin de v\u00e9rifier la robustesse m\u00eame \u00e0 des \u00e9chelles r\u00e9duites.<\/p>\n\n\n\n<p>Les r\u00e9sultats sont tr\u00e8s int\u00e9ressants. Sur les t\u00e2ches de vid\u00e9o QA, LLaVA-Scissor a <strong>\u00e9gal\u00e9 ou d\u00e9pass\u00e9<\/strong> les autres m\u00e9thodes avec 50% de tokens conserv\u00e9s. Mais sa v\u00e9ritable force est apparue lorsque le taux de r\u00e9tention a diminu\u00e9. \u00c0 <strong>10% de tokens conserv\u00e9s<\/strong>, il a obtenu un score moyen de <strong>80,03%<\/strong>, d\u00e9passant FastV (78,76 %), PLLaVA (77,87 %) et VisionZip (65,09 %). M\u00eame \u00e0 seulement <strong>5%<\/strong>, les performances sont rest\u00e9es solides.<\/p>\n\n\n\n<p>Sur les benchmarks de vid\u00e9os longues, o\u00f9 la compression temporelle est cruciale, LLaVA-Scissor est rest\u00e9 en t\u00eate. Avec un <strong>taux de r\u00e9tention de 5%<\/strong>, il a surpass\u00e9 toutes les autres m\u00e9thodes, atteignant <strong>92,6 %<\/strong> de pr\u00e9cision moyenne contre 91,5% pour FastV et 90,4% pour PLLaVA \u00e0 10%.<\/p>\n\n\n\n<p>Sur MVBench, qui inclut 20 t\u00e2ches multimodales vari\u00e9es, LLaVA-Scissor a obtenu les meilleurs scores moyens \u00e0 la fois \u00e0 <strong>35%<\/strong> et <strong>10%<\/strong> de tokens conserv\u00e9s, prouvant ainsi sa polyvalence.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Efficace et \u00e9volutif : r\u00e9duction des FLOPs et potentiel de d\u00e9ploiement<\/strong><\/h2>\n\n\n\n<p>L\u2019aspect le plus convaincant de LLaVA-Scissor est sans doute son <strong>efficacit\u00e9<\/strong>.<\/p>\n\n\n\n<p>Contrairement aux m\u00e9thodes qui compressent les tokens pendant l\u2019\u00e9tape LLM (comme FastV), LLaVA-Scissor effectue la compression <strong>avant que les tokens n\u2019atteignent le mod\u00e8le de langage<\/strong>. Cela r\u00e9duit drastiquement les FLOPs.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"945\" height=\"284\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-31.png\" alt=\"\" class=\"wp-image-11337\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-31.png 945w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-31-600x180.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-31-250x75.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-31-768x231.png 768w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/image-31-30x9.png 30w\" sizes=\"(max-width: 945px) 100vw, 945px\" \/><\/figure>\n\n\n\n<p>\u00c0 <strong>10% de tokens conserv\u00e9s<\/strong>, LLaVA-Scissor a r\u00e9duit les FLOPs de l\u2019\u00e9tape LLM \u00e0 <strong>seulement 9,66%<\/strong> du mod\u00e8le complet, tout en maintenant plus de <strong>96%<\/strong> de performance. \u00c0 <strong>5%<\/strong>, il a encore obtenu de bons r\u00e9sultats avec <strong>seulement 5,56% des FLOPs<\/strong>.<\/p>\n\n\n\n<p>Cela fait de LLaVA-Scissor un candidat id\u00e9al pour :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>les applications vid\u00e9o en temps r\u00e9el<\/strong><\/li>\n\n\n\n<li><strong>l\u2019inf\u00e9rence embarqu\u00e9e<\/strong><\/li>\n\n\n\n<li><strong>les sc\u00e9narios d\u2019IA mobile ou en p\u00e9riph\u00e9rie<\/strong><\/li>\n<\/ul>\n\n\n\n<p>Son caract\u00e8re sans entra\u00eenement le rend \u00e9galement <strong>plug-and-play<\/strong> : il peut \u00eatre int\u00e9gr\u00e9 \u00e0 n\u2019importe quel pipeline vision-langage bas\u00e9 sur des transformeurs sans n\u00e9cessiter de r\u00e9entra\u00eenement ni d\u2019adaptation sp\u00e9cifique.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Ce qui le rend efficace : enseignements des \u00e9tudes d\u2019ablation<\/strong><\/h2>\n\n\n\n<p>Les \u00e9tudes d\u2019ablation confirment que chaque composant contribue au succ\u00e8s de LLaVA-Scissor :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Sans compression temporelle, les performances chutent de plus d\u2019un point sur MVBench.<\/li>\n\n\n\n<li>Sans fusion, la couverture des tokens devient trop faible.<\/li>\n\n\n\n<li>Les strat\u00e9gies d\u2019\u00e9chantillonnage comme L2Norm ou la s\u00e9lection uniforme donnent de moins bons r\u00e9sultats que <strong>SCC<\/strong>, qui pr\u00e9serve plus fid\u00e8lement la couverture s\u00e9mantique.<\/li>\n<\/ul>\n\n\n\n<p>De plus, la m\u00e9thode reste robuste m\u00eame sur des <strong>mod\u00e8les de base plus petits<\/strong>, comme LLaVA-OneVision-0.5B, o\u00f9 la redondance est plus difficile \u00e0 compenser. Cette robustesse souligne sa g\u00e9n\u00e9ralit\u00e9 et son applicabilit\u00e9 sur diff\u00e9rents r\u00e9gimes de calcul.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>R\u00e9flexions finales<\/strong><\/h2>\n\n\n\n<p>LLaVA-Scissor n\u2019est pas une rupture radicale dans la litt\u00e9rature sur la compression des tokens, mais il est remarquablement simple, \u00e9l\u00e9gant et \u00e9tonnamment efficace.<\/p>\n\n\n\n<p>Plut\u00f4t que d\u2019ajuster les poids d\u2019attention ou d\u2019introduire de nouveaux r\u00e9gimes d\u2019entra\u00eenement, il reformule la compression des tokens comme un probl\u00e8me de clustering s\u00e9mantique. Avec un algorithme de graphe l\u00e9ger et sans besoin de r\u00e9entra\u00eenement, il offre une solution pratique au probl\u00e8me d\u2019explosion du nombre de tokens qui devient de plus en plus pressant dans les LLM vid\u00e9o.<\/p>\n\n\n\n<p>Dans un contexte o\u00f9 les entr\u00e9es multimodales augmentent plus vite que les budgets de calcul, nous pensons que des m\u00e9thodes comme celle-ci (rapides, sans entra\u00eenement et efficaces) m\u00e9ritent une attention particuli\u00e8re.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Ressources compl\u00e9mentaires<\/strong><\/h2>\n\n\n\n<h4 class=\"wp-block-heading\"><strong>D\u00e9p\u00f4t de code : GitHub \u2013 HumanMLLM\/LLaVA-Scissor<\/strong><\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Explorez l\u2019impl\u00e9mentation compl\u00e8te, y compris les scripts de pr\u00e9traitement et les pipelines d\u2019\u00e9valuation : <a class=\"\" href=\"https:\/\/github.com\/HumanMLLM\/LLaVA-Scissor\" target=\"_blank\" rel=\"noopener\">https:\/\/github.com\/HumanMLLM\/LLaVA-Scissor<\/a><\/li>\n<\/ul>\n\n\n\n<h4 class=\"wp-block-heading\"><strong>Mod\u00e8le de r\u00e9f\u00e9rence : LLaVA-Scissor-baseline-7B sur Hugging Face<\/strong><\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Testez le mod\u00e8le de r\u00e9f\u00e9rence directement via Hugging Face : <a class=\"\" href=\"https:\/\/huggingface.co\/BBBBCHAN\/LLaVA-Scissor-baseline-7B\" target=\"_blank\" rel=\"noopener\">https:\/\/huggingface.co\/BBBBCHAN\/LLaVA-Scissor-baseline-7B<\/a><\/li>\n<\/ul>\n\n\n\n<h4 class=\"wp-block-heading\">Article de recherche : LLaVA-Scissor: Training-Free Token Compression for Video LLMs (arXiv)<\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Approfondissez les d\u00e9tails techniques, la m\u00e9thodologie et les r\u00e9sultats exp\u00e9rimentaux : <a class=\"\" href=\"https:\/\/arxiv.org\/abs\/2506.21862\" target=\"_blank\" rel=\"noopener\">https:\/\/arxiv.org\/abs\/2506.21862<\/a><\/li>\n<\/ul>\n\n\n\n<h4 class=\"wp-block-heading\"><strong>Article de recherche : Video Understanding with Large Language Models: A Survey<\/strong><\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Un guide complet sur les LLM vid\u00e9o : <a class=\"\" href=\"https:\/\/arxiv.org\/abs\/2312.17432\" target=\"_blank\" rel=\"noopener\">https:\/\/arxiv.org\/abs\/2312.17432<\/a><\/li>\n<\/ul>\n","protected":false},"featured_media":11322,"template":"","categories":[510],"custom_tag":[87,460,527],"class_list":["post-11324","research-lab","type-research-lab","status-publish","has-post-thumbnail","hentry","category-lab-news-2","custom_tag-ia","custom_tag-llm-fr","custom_tag-vllms-2"],"acf":{"externel_link":"","summary":"","filter_opacity":"70","subtitle":"","reading_time":"","authors":"","document_to_download":{"upload_a_file":false,"download_without_form":false,"file":false,"url":""},"show_recent_block_on_the_bottom_of_the_page":false},"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v25.6 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>D\u00e9couvrez LLaVA-Scissor - Novelis R&amp;D Lab<\/title>\n<meta name=\"description\" content=\"Dans le domaine en pleine \u00e9volution de l\u2019IA multimodale, les grands mod\u00e8les de langage vid\u00e9o (VLLMs) \u00e9mergent comme un outil puissant pour comprendre et raisonner sur du contenu visuel dynamique.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/\" \/>\n<meta property=\"og:locale\" content=\"fr_FR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"D\u00e9couvrez LLaVA-Scissor - Novelis R&amp;D Lab\" \/>\n<meta property=\"og:description\" content=\"Dans le domaine en pleine \u00e9volution de l\u2019IA multimodale, les grands mod\u00e8les de langage vid\u00e9o (VLLMs) \u00e9mergent comme un outil puissant pour comprendre et raisonner sur du contenu visuel dynamique.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/\" \/>\n<meta property=\"og:site_name\" content=\"Novelis innovation\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/novelis.io\" \/>\n<meta property=\"article:modified_time\" content=\"2025-08-21T08:14:29+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/LLaVA-Scissor-Training-free-token-compression-for-video-large-language-models.png\" \/>\n\t<meta property=\"og:image:width\" content=\"1536\" \/>\n\t<meta property=\"og:image:height\" content=\"1024\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:site\" content=\"@novelis_io\" \/>\n<meta name=\"twitter:label1\" content=\"Dur\u00e9e de lecture estim\u00e9e\" \/>\n\t<meta name=\"twitter:data1\" content=\"8 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/\",\"url\":\"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/\",\"name\":\"D\u00e9couvrez LLaVA-Scissor - Novelis R&D Lab\",\"isPartOf\":{\"@id\":\"https:\/\/novelis.io\/fr\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/LLaVA-Scissor-Training-free-token-compression-for-video-large-language-models.png\",\"datePublished\":\"2025-07-29T08:32:15+00:00\",\"dateModified\":\"2025-08-21T08:14:29+00:00\",\"description\":\"Dans le domaine en pleine \u00e9volution de l\u2019IA multimodale, les grands mod\u00e8les de langage vid\u00e9o (VLLMs) \u00e9mergent comme un outil puissant pour comprendre et raisonner sur du contenu visuel dynamique.\",\"breadcrumb\":{\"@id\":\"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/#breadcrumb\"},\"inLanguage\":\"fr-FR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/#primaryimage\",\"url\":\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/LLaVA-Scissor-Training-free-token-compression-for-video-large-language-models.png\",\"contentUrl\":\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/LLaVA-Scissor-Training-free-token-compression-for-video-large-language-models.png\",\"width\":1536,\"height\":1024},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Accueil\",\"item\":\"https:\/\/novelis.io\/fr\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"LLaVA-Scissor : Compression de tokens sans entra\u00eenement pour les mod\u00e8les de langage vid\u00e9o\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/novelis.io\/fr\/#website\",\"url\":\"https:\/\/novelis.io\/fr\/\",\"name\":\"Novelis innovation\",\"description\":\"Novelis innovation\",\"publisher\":{\"@id\":\"https:\/\/novelis.io\/fr\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/novelis.io\/fr\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"fr-FR\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/novelis.io\/fr\/#organization\",\"name\":\"Novelis innovation\",\"url\":\"https:\/\/novelis.io\/fr\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/novelis.io\/fr\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/logo-1.png\",\"contentUrl\":\"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/logo-1.png\",\"width\":479,\"height\":98,\"caption\":\"Novelis innovation\"},\"image\":{\"@id\":\"https:\/\/novelis.io\/fr\/#\/schema\/logo\/image\/\"},\"sameAs\":[\"https:\/\/www.facebook.com\/novelis.io\",\"https:\/\/x.com\/novelis_io\",\"https:\/\/www.linkedin.com\/company\/novelis-consulting\/\",\"https:\/\/www.youtube.com\/channel\/UCJ5eJR22n2GtfKaTWueWRPQ\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"D\u00e9couvrez LLaVA-Scissor - Novelis R&D Lab","description":"Dans le domaine en pleine \u00e9volution de l\u2019IA multimodale, les grands mod\u00e8les de langage vid\u00e9o (VLLMs) \u00e9mergent comme un outil puissant pour comprendre et raisonner sur du contenu visuel dynamique.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/","og_locale":"fr_FR","og_type":"article","og_title":"D\u00e9couvrez LLaVA-Scissor - Novelis R&D Lab","og_description":"Dans le domaine en pleine \u00e9volution de l\u2019IA multimodale, les grands mod\u00e8les de langage vid\u00e9o (VLLMs) \u00e9mergent comme un outil puissant pour comprendre et raisonner sur du contenu visuel dynamique.","og_url":"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/","og_site_name":"Novelis innovation","article_publisher":"https:\/\/www.facebook.com\/novelis.io","article_modified_time":"2025-08-21T08:14:29+00:00","og_image":[{"width":1536,"height":1024,"url":"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/LLaVA-Scissor-Training-free-token-compression-for-video-large-language-models.png","type":"image\/png"}],"twitter_card":"summary_large_image","twitter_site":"@novelis_io","twitter_misc":{"Dur\u00e9e de lecture estim\u00e9e":"8 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/","url":"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/","name":"D\u00e9couvrez LLaVA-Scissor - Novelis R&D Lab","isPartOf":{"@id":"https:\/\/novelis.io\/fr\/#website"},"primaryImageOfPage":{"@id":"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/#primaryimage"},"image":{"@id":"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/#primaryimage"},"thumbnailUrl":"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/LLaVA-Scissor-Training-free-token-compression-for-video-large-language-models.png","datePublished":"2025-07-29T08:32:15+00:00","dateModified":"2025-08-21T08:14:29+00:00","description":"Dans le domaine en pleine \u00e9volution de l\u2019IA multimodale, les grands mod\u00e8les de langage vid\u00e9o (VLLMs) \u00e9mergent comme un outil puissant pour comprendre et raisonner sur du contenu visuel dynamique.","breadcrumb":{"@id":"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/#breadcrumb"},"inLanguage":"fr-FR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/"]}]},{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/#primaryimage","url":"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/LLaVA-Scissor-Training-free-token-compression-for-video-large-language-models.png","contentUrl":"https:\/\/novelis.io\/wp-content\/uploads\/2025\/07\/LLaVA-Scissor-Training-free-token-compression-for-video-large-language-models.png","width":1536,"height":1024},{"@type":"BreadcrumbList","@id":"https:\/\/novelis.io\/fr\/research-lab\/llava-scissor-compression-de-tokens-sans-entrainement-pour-les-modeles-de-langage-video\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Accueil","item":"https:\/\/novelis.io\/fr\/"},{"@type":"ListItem","position":2,"name":"LLaVA-Scissor : Compression de tokens sans entra\u00eenement pour les mod\u00e8les de langage vid\u00e9o"}]},{"@type":"WebSite","@id":"https:\/\/novelis.io\/fr\/#website","url":"https:\/\/novelis.io\/fr\/","name":"Novelis innovation","description":"Novelis innovation","publisher":{"@id":"https:\/\/novelis.io\/fr\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/novelis.io\/fr\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"fr-FR"},{"@type":"Organization","@id":"https:\/\/novelis.io\/fr\/#organization","name":"Novelis innovation","url":"https:\/\/novelis.io\/fr\/","logo":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/novelis.io\/fr\/#\/schema\/logo\/image\/","url":"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/logo-1.png","contentUrl":"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/logo-1.png","width":479,"height":98,"caption":"Novelis innovation"},"image":{"@id":"https:\/\/novelis.io\/fr\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/novelis.io","https:\/\/x.com\/novelis_io","https:\/\/www.linkedin.com\/company\/novelis-consulting\/","https:\/\/www.youtube.com\/channel\/UCJ5eJR22n2GtfKaTWueWRPQ"]}]}},"_links":{"self":[{"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/research-lab\/11324"}],"collection":[{"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/research-lab"}],"about":[{"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/types\/research-lab"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/media\/11322"}],"wp:attachment":[{"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/media?parent=11324"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/categories?post=11324"},{"taxonomy":"custom_tag","embeddable":true,"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/custom_tag?post=11324"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}