
{"id":12007,"date":"2025-12-01T13:20:04","date_gmt":"2025-12-01T13:20:04","guid":{"rendered":"https:\/\/novelis.io\/?post_type=research-lab&#038;p=12007"},"modified":"2025-12-01T13:39:01","modified_gmt":"2025-12-01T13:39:01","slug":"analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle","status":"publish","type":"research-lab","link":"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/","title":{"rendered":"Analyse comparative des mod\u00e8les Vision-Langage pour une reconnaissance des d\u00e9chets \u00e0 grande \u00e9chelle"},"content":{"rendered":"\n<p>Pourquoi l\u2019automatisation devient indispensable dans la gestion des d\u00e9chets<br><\/p>\n\n\n\n<p>Le monde fait face \u00e0 un d\u00e9fi croissant en mati\u00e8re de gestion des d\u00e9chets. Avec l\u2019augmentation des populations et le d\u00e9veloppement \u00e9conomique, la quantit\u00e9 de d\u00e9chets municipaux produits chaque ann\u00e9e devrait passer de juste au-dessus de 2 milliards de tonnes aujourd\u2019hui \u00e0 3,4 milliards de tonnes d\u2019ici 2050. Les syst\u00e8mes traditionnels \u2013 bas\u00e9s sur la collecte routini\u00e8re, le tri manuel et une forte d\u00e9pendance aux d\u00e9charges \u2013 ne parviennent plus \u00e0 suivre le rythme. Ces pratiques d\u00e9pass\u00e9es entra\u00eenent des bacs qui d\u00e9bordent, des \u00e9missions inutiles li\u00e9es aux v\u00e9hicules de collecte et des risques environnementaux et sanitaires importants, allant de la pollution de l\u2019eau \u00e0 la propagation de maladies.<\/p>\n\n\n\n<p>\u00c0 consulter : <em>Comment les robots pourraient sauver plus de 6 milliards de dollars de mat\u00e9riaux recyclables chaque ann\u00e9e | AI in Action<\/em><\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img fetchpriority=\"high\" decoding=\"async\" width=\"480\" height=\"360\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-2.png\" alt=\"\" class=\"wp-image-11992\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-2.png 480w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-2-250x188.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-2-30x23.png 30w\" sizes=\"(max-width: 480px) 100vw, 480px\" \/><\/figure>\n\n\n\n<p>Pour r\u00e9pondre \u00e0 ces enjeux, l\u2019automatisation devient un levier essentiel, notamment dans les centres de tri (MRF). Les syst\u00e8mes robotis\u00e9s \u00e9quip\u00e9s de capteurs avanc\u00e9s am\u00e9liorent fortement l\u2019efficacit\u00e9, r\u00e9duisent les co\u00fbts op\u00e9rationnels et prot\u00e8gent les op\u00e9rateurs des conditions dangereuses du tri manuel. Au c\u0153ur de ces syst\u00e8mes se trouve la vision par ordinateur (CV), la technologie qui permet aux machines de reconna\u00eetre et classifier des mat\u00e9riaux sur un convoyeur.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" width=\"906\" height=\"435\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-3.png\" alt=\"\" class=\"wp-image-11995\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-3.png 906w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-3-600x288.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-3-250x120.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-3-768x369.png 768w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-3-30x14.png 30w\" sizes=\"(max-width: 906px) 100vw, 906px\" \/><\/figure>\n\n\n\n<p>TCe livre blanc compare deux grandes approches de vision par ordinateur pour la reconnaissance des d\u00e9chets : les mod\u00e8les unimodaux classiques (bas\u00e9s uniquement sur l\u2019image) et la nouvelle g\u00e9n\u00e9ration de mod\u00e8les multimodaux Vision-Langage (VLMs). Nous examinons leurs performances en z\u00e9ro-shot, few-shot et apprentissage supervis\u00e9 complet. Notre analyse montre que, si les mod\u00e8les classiques atteignent de bonnes performances, leur d\u00e9pendance \u00e0 de vastes jeux d\u2019images annot\u00e9es limite fortement leur capacit\u00e9 \u00e0 s\u2019adapter \u00e0 grande \u00e9chelle. Les VLMs offrent une alternative flexible et scalable.<\/p>\n\n\n\n<p>Nous commen\u00e7ons par une revue du cadre conventionnel de vision par ordinateur et de ses forces et limites.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">L\u2019approche conventionnelle : la vision par ordinateur unimodale pour la classification des d\u00e9chets<\/h3>\n\n\n\n<p>Comprendre les m\u00e9thodes actuelles est essentiel : ces syst\u00e8mes unimodaux ont pos\u00e9 les bases de l\u2019automatisation du tri. Depuis des ann\u00e9es, ils permettent aux robots de prendre en charge des t\u00e2ches de tri de plus en plus complexes. Mais les fondations techniques qui font leur force introduisent aussi des contraintes qui limitent leur adaptabilit\u00e9 dans l\u2019environnement impr\u00e9visible d\u2019un centre de tri.<\/p>\n\n\n\n<p>Les mod\u00e8les classiques reposent sur des architectures connues de deep learning comme les r\u00e9seaux convolutifs (CNN) \u2013 par exemple ResNet \u2013 ou des Vision Transformers (ViT) modernes comme Swin Transformer. Ils sont g\u00e9n\u00e9ralement pr\u00e9-entra\u00een\u00e9s sur de grands jeux d\u2019images g\u00e9n\u00e9riques (comme ImageNet) avant d\u2019\u00eatre adapt\u00e9s sur des images de d\u00e9chets. Une autre approche courante utilise des r\u00e9seaux neuronaux (ANN) associ\u00e9s \u00e0 des techniques d\u2019extraction de caract\u00e9ristiques (histogrammes de couleur, HOG, LBP\u2026).<\/p>\n\n\n\n<p>Avec suffisamment de donn\u00e9es annot\u00e9es, ces mod\u00e8les offrent d\u2019excellents r\u00e9sultats. Quelques performances rapport\u00e9es :<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th>Architecture<\/th><th>Pr\u00e9cision rapport\u00e9e<\/th><\/tr><\/thead><tbody><tr><td>ResNet18 (TrashNet)<\/td><td>95,87 %<\/td><\/tr><tr><td>Swin Transformer (jeu de donn\u00e9es interne)<\/td><td>99,75 %<\/td><\/tr><tr><td>MobileNetV2 am\u00e9lior\u00e9<\/td><td>90,7 %<\/td><\/tr><tr><td>ANN avec fusion de caract\u00e9ristiques<\/td><td>91,7 %<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p>Malgr\u00e9 ces bons r\u00e9sultats, leur limite majeure est la quantit\u00e9 massive de donn\u00e9es annot\u00e9es requises, tant pour l\u2019entra\u00eenement initial que pour les cycles fr\u00e9quents de r\u00e9-entra\u00eenement. Les d\u00e9chets r\u00e9els sont beaucoup plus vari\u00e9s que les jeux d\u2019images propres et bien cat\u00e9goris\u00e9s, ce qui oblige \u00e0 r\u00e9entra\u00eener les mod\u00e8les pour reconna\u00eetre de nouveaux mat\u00e9riaux, des d\u00e9chets ab\u00eem\u00e9s ou contamin\u00e9s. Cette d\u00e9pendance \u00e0 une annotation continue constitue un frein majeur \u00e0 l\u2019\u00e9volutivit\u00e9 et \u00e0 la rentabilit\u00e9.<\/p>\n\n\n\n<p>Ces obstacles ouvrent la voie \u00e0 une alternative plus flexible : les mod\u00e8les Vision-Langage.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" width=\"906\" height=\"510\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image.png\" alt=\"\" class=\"wp-image-11986\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image.png 906w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-600x338.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-250x141.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-768x432.png 768w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-30x17.png 30w\" sizes=\"(max-width: 906px) 100vw, 906px\" \/><\/figure>\n\n\n\n<p>Un nouveau paradigme : les Vision-Language Models (VLMs)<\/p>\n\n\n\n<p>Les VLMs repr\u00e9sentent un changement important dans la mani\u00e8re dont les machines interpr\u00e8tent les images. Plut\u00f4t que d\u2019apprendre uniquement \u00e0 partir d\u2019images, ils \u00e9tablissent un lien entre le visuel et le langage naturel. Cette approche multimodale leur conf\u00e8re une grande flexibilit\u00e9 pour reconna\u00eetre des objets m\u00eame sans donn\u00e9es annot\u00e9es sp\u00e9cifiques.<\/p>\n\n\n\n<p>Les VLMs reposent sur deux composants :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>un encodeur visuel (ViT ou CNN) qui convertit l\u2019image en un embedding s\u00e9mantique ;<\/li>\n\n\n\n<li>un encodeur texte (souvent un Transformer) qui transforme une description \u00e9crite en embedding textuel.<\/li>\n<\/ul>\n\n\n\n<p>Gr\u00e2ce \u00e0 l\u2019apprentissage contrastif sur d\u2019immenses jeux d\u2019images\u2013textes, des mod\u00e8les comme CLIP, OpenCLIP ou MetaCLIP apprennent \u00e0 rapprocher dans un m\u00eame espace les images et textes correspondant.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">La force du z\u00e9ro-shot<\/h3>\n\n\n\n<p>Le principal avantage des VLMs est leur capacit\u00e9 \u00e0 classer des objets sans aucun entra\u00eenement sp\u00e9cifique, uniquement \u00e0 partir d\u2019instructions textuelles. Le mod\u00e8le :<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>encode l\u2019image ;<\/li>\n\n\n\n<li>encode des textes comme \u00ab photo d\u2019une bo\u00eete en carton \u00bb, \u00ab image d\u2019une bouteille en plastique \u00bb ;<\/li>\n\n\n\n<li>calcule la similarit\u00e9 entre l\u2019image et chaque description ;<\/li>\n\n\n\n<li>choisit la cat\u00e9gorie la plus proche.<\/li>\n<\/ol>\n\n\n\n<p>Cela \u00e9limine la n\u00e9cessit\u00e9 d\u2019un jeu de donn\u00e9es annot\u00e9 pour les d\u00e9chets et permet de classifier d\u00e8s le premier usage.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Apprentissage supervis\u00e9 efficace avec peu de donn\u00e9es<\/h3>\n\n\n\n<p>Quand des donn\u00e9es annot\u00e9es existent, les VLMs restent performants : il suffit d\u2019entra\u00eener un simple classifieur lin\u00e9aire sur les embeddings d\u2019images. Cela r\u00e9duit fortement les co\u00fbts de calcul par rapport au fine-tuning d\u2019un mod\u00e8le classique.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Performances compar\u00e9es : pr\u00e9cision, rapidit\u00e9 et passage \u00e0 l\u2019\u00e9chelle<\/h3>\n\n\n\n<h4 class=\"wp-block-heading\">De bons r\u00e9sultats en z\u00e9ro-shot<\/h4>\n\n\n\n<p>Sur un jeu de donn\u00e9es multi-classe, OpenCLIP (ViT L\/14-2B) atteint 82,71 % de pr\u00e9cision en z\u00e9ro-shot \u2013 sans avoir vu la moindre image annot\u00e9e. Cette pr\u00e9cision d\u00e9passe celle de mod\u00e8les entra\u00een\u00e9s avec seulement dix exemples par classe.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Apprentissage rapide en few-shot et en supervis\u00e9 complet<\/h4>\n\n\n\n<p>Avec quelques images annot\u00e9es, les VLMs progressent vite. La pr\u00e9cision augmente fortement entre 1 et 15 images par classe, puis se stabilise. En supervis\u00e9 complet, OpenCLIP atteint 97,18 %, comparable aux mod\u00e8les traditionnels les plus avanc\u00e9s mais avec un co\u00fbt d\u2019entra\u00eenement bien moindre.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Rapidit\u00e9 adapt\u00e9e \u00e0 l\u2019industrie<\/h4>\n\n\n\n<p>Le tri est une activit\u00e9 en flux rapide. Un mod\u00e8le doit fonctionner en temps r\u00e9el. Une analyse Pareto montre qu\u2019OpenCLIP (ViT L\/14-2B) offre le meilleur compromis :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>3,79 ms par image<\/li>\n\n\n\n<li>~263 FPS, largement au-dessus des 30\u201360 FPS requis<\/li>\n<\/ul>\n\n\n\n<p>Ce qui le rend utilisable sur des lignes industrielles rapides.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Am\u00e9liorer les performances gr\u00e2ce au prompt engineering<\/h3>\n\n\n\n<p>Le prompt engineering est une m\u00e9thode simple et efficace pour am\u00e9liorer la pr\u00e9cision d\u2019un VLM sans r\u00e9-entra\u00eenement. Il consiste \u00e0 reformuler les descriptions textuelles utilis\u00e9es pour la classification :<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>identifier les prompts faibles ;<\/li>\n\n\n\n<li>les affiner pour plus de clart\u00e9 et de pr\u00e9cision.<\/li>\n<\/ol>\n\n\n\n<p>Exemple : \u00ab d\u00e9bris de verre \u00bb peut \u00eatre trop vague, tandis que \u00ab photo d\u2019un bocal en verre et de bouteilles \u00bb refl\u00e8te mieux ce que la machine voit sur un convoyeur.<\/p>\n\n\n\n<p>Sur OpenCLIP, cette optimisation a fait passer la pr\u00e9cision z\u00e9ro-shot de 82,71 % \u00e0 90,48 %, uniquement en ajustant le texte.<\/p>\n\n\n\n<p>Cette m\u00e9thode demande toutefois de l\u2019it\u00e9ration : am\u00e9liorer un prompt peut en d\u00e9grader un autre.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"906\" height=\"459\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-4.png\" alt=\"\" class=\"wp-image-11998\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-4.png 906w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-4-600x304.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-4-250x127.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-4-768x389.png 768w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-4-30x15.png 30w\" sizes=\"(max-width: 906px) 100vw, 906px\" \/><\/figure>\n\n\n\n<p><strong>Figure : Sch\u00e9ma d\u2019optimisation des prompts<\/strong><\/p>\n\n\n\n<p>Cependant, le travail sur les prompts doit \u00eatre r\u00e9alis\u00e9 avec soin. Am\u00e9liorer un prompt peut parfois r\u00e9duire la pr\u00e9cision d\u2019autres, ce qui rend l\u2019exercice d\u00e9licat et n\u00e9cessite de l\u2019it\u00e9ration ainsi qu\u2019une \u00e9valuation rigoureuse.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Jeux de donn\u00e9es<\/h4>\n\n\n\n<p>Le jeu de donn\u00e9es principal utilis\u00e9 pour les tests dans les \u00e9tudes cit\u00e9es est celui de <strong>Kumsetty et al. (2022)<\/strong>. Sa <strong>partie test de 1 596 images<\/strong> sert de r\u00e9f\u00e9rence pour \u00e9valuer les mod\u00e8les de classification des d\u00e9chets en z\u00e9ro-shot, few-shot et supervis\u00e9, y compris les mod\u00e8les Vision-Langage (VLMs).<br>Il contient <strong>14 310 images<\/strong>, r\u00e9parties en <strong>six cat\u00e9gories<\/strong> : carton, e-d\u00e9chets, verre, m\u00e9tal, papier et plastique.<br>La partie test est sp\u00e9cifiquement utilis\u00e9e pour mesurer la pr\u00e9cision en z\u00e9ro-shot, analyser la capacit\u00e9 de g\u00e9n\u00e9ralisation et comparer les performances selon diff\u00e9rents modes d\u2019apprentissage.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"618\" height=\"549\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-1.png\" alt=\"\" class=\"wp-image-11989\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-1.png 618w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-1-600x533.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-1-250x222.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-1-30x27.png 30w\" sizes=\"(max-width: 618px) 100vw, 618px\" \/><\/figure>\n\n\n\n<p><strong>Figure : Exemples et r\u00e9partition des images du dataset Kumsetty et al.<\/strong><\/p>\n\n\n\n<p>En compl\u00e9ment de ce dataset central, plusieurs \u00e9tudes mentionnent l\u2019utilisation d\u2019autres jeux de donn\u00e9es dans leurs protocoles, bien qu\u2019ils ne soient pas inclus dans l\u2019\u00e9valuation z\u00e9ro-shot des VLMs. Parmi eux :<\/p>\n\n\n\n<p>Le <strong>Yang Trash Dataset (TrashNet)<\/strong>, un benchmark largement utilis\u00e9 pour tester des mod\u00e8les ANN et ResNet dans la classification de d\u00e9chets.<\/p>\n\n\n\n<p><strong>HUAWEI-40<\/strong> : 14 683 images r\u00e9parties en quatre grandes cat\u00e9gories, utilis\u00e9 pour tester une version am\u00e9lior\u00e9e de MobileNetV2.<\/p>\n\n\n\n<p>Un <strong>jeu de donn\u00e9es manuel<\/strong> bas\u00e9 sur Stanford Trash\/TrashNet, contenant <strong>2 400 images captur\u00e9es manuellement<\/strong>, utilis\u00e9 pour \u00e9valuer une m\u00e9thode de tri automatis\u00e9 bas\u00e9e sur un ANN.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"906\" height=\"384\" src=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-5.png\" alt=\"\" class=\"wp-image-12001\" srcset=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-5.png 906w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-5-600x254.png 600w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-5-250x106.png 250w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-5-768x326.png 768w, https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-5-30x13.png 30w\" sizes=\"(max-width: 906px) 100vw, 906px\" \/><\/figure>\n\n\n\n<p><strong>Figure : Exemple TrashNet<\/strong><\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Perspectives et d\u00e9fis pour le d\u00e9ploiement en conditions r\u00e9elles<\/h3>\n\n\n\n<p>Les Vision-Language Models offrent des avantages solides, mais leur d\u00e9ploiement industriel n\u00e9cessite une analyse \u00e9quilibr\u00e9e des opportunit\u00e9s et des contraintes.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Atouts majeurs<\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Scalabilit\u00e9 et adaptabilit\u00e9<\/strong> : les VLMs r\u00e9duisent fortement la d\u00e9pendance aux jeux d\u2019images annot\u00e9es, ce qui facilite l\u2019ajout de nouvelles cat\u00e9gories de d\u00e9chets.<\/li>\n\n\n\n<li><strong>Efficacit\u00e9 de calcul<\/strong> : l\u2019apprentissage few-shot et supervis\u00e9 demande bien moins de temps et d\u2019\u00e9nergie que les mod\u00e8les traditionnels.<\/li>\n\n\n\n<li><strong>Pr\u00e9cision \u00e9lev\u00e9e de base<\/strong> : les capacit\u00e9s z\u00e9ro-shot et le travail sur les prompts permettent d\u2019obtenir de bonnes performances sans entra\u00eenement sp\u00e9cifique sur images.<\/li>\n<\/ul>\n\n\n\n<h4 class=\"wp-block-heading\">Contraintes op\u00e9rationnelles<\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Charge li\u00e9e au prompt engineering<\/strong> : l\u2019affinage des prompts n\u00e9cessite souvent des it\u00e9rations manuelles et peut introduire des biais s\u2019il n\u2019est pas soigneusement contr\u00f4l\u00e9.<\/li>\n\n\n\n<li><strong>Limites mat\u00e9rielles<\/strong> : les VLMs volumineux peuvent poser probl\u00e8me dans des environnements avec des ressources de calcul limit\u00e9es ou des contraintes d\u2019edge computing.<\/li>\n\n\n\n<li><strong>Absence de datasets standardis\u00e9s<\/strong> : le manque de jeux de donn\u00e9es unifi\u00e9s complique les comparaisons entre syst\u00e8mes.<\/li>\n\n\n\n<li><strong>Investissement initial<\/strong> : malgr\u00e9 les gains futurs, le co\u00fbt d\u2019installation de syst\u00e8mes avanc\u00e9s de tri automatis\u00e9 reste un frein pour de nombreux op\u00e9rateurs.<\/li>\n<\/ul>\n\n\n\n<p>Surmonter ces obstacles sera d\u00e9terminant pour une adoption \u00e0 grande \u00e9chelle.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Conclusion : l\u2019avenir de la reconnaissance automatis\u00e9e des d\u00e9chets<\/h3>\n\n\n\n<p>Les syst\u00e8mes classiques de vision par ordinateur offrent de bonnes performances, mais leur d\u00e9pendance \u00e0 des volumes importants de donn\u00e9es soigneusement annot\u00e9es cr\u00e9e des blocages importants. Cette contrainte ralentit et rench\u00e9rit l\u2019adaptation des centres de tri face \u00e0 l\u2019\u00e9volution des flux de d\u00e9chets.<\/p>\n\n\n\n<p>Les mod\u00e8les Vision-Langage constituent une alternative solide. Leur flexibilit\u00e9 en z\u00e9ro-shot, leur efficacit\u00e9 en apprentissage supervis\u00e9 et les gains obtenus via le prompt engineering r\u00e9pondent directement aux limites des approches traditionnelles. En combinant image et langage, ils permettent de d\u00e9velopper des syst\u00e8mes de tri plus adaptatifs, plus performants et plus \u00e9conomes.<\/p>\n\n\n\n<p>Les VLMs repr\u00e9sentent ainsi une avanc\u00e9e technologique majeure. Leur capacit\u00e9 d\u2019adaptation et leur efficacit\u00e9 en font un outil cl\u00e9 pour concevoir la prochaine g\u00e9n\u00e9ration de syst\u00e8mes automatis\u00e9s, capables d\u2019accompagner la transition vers une \u00e9conomie circulaire.<\/p>\n\n\n\n<p>Plus d&rsquo;articles<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>AMP Robotics raises $55 million for AI that picks and&nbsp;sorts&nbsp;recyclables&nbsp;:&nbsp;https:\/\/venturebeat.com\/ai\/amp-robotics-raises-55-million-for-ai-that-picks-and-sorts-recyclables<\/strong>&nbsp;<\/li>\n<\/ul>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Automated waste-sorting and recycling classification using artificial neural network and features fusion: a digital-enabled circular economy vision for smart cities:&nbsp;<\/strong><a href=\"https:\/\/link.springer.com\/article\/10.1007\/s11042-021-11537-0\" target=\"_blank\" rel=\"noreferrer noopener\"><strong>https:\/\/link.springer.com\/article\/10.1007\/s11042-021-11537-0<\/strong><\/a>&nbsp;<\/li>\n<\/ul>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Garbage detection and classification using a new deep learning-based machine vision system as a tool for sustainable waste recycling:&nbsp;<\/strong><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/abs\/pii\/S0956053X23001915\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/www.sciencedirect.com\/science\/article\/abs\/pii\/S0956053X23001915<\/a>&nbsp;<\/li>\n<\/ul>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Recent Developments in Technology for Sorting Plastic for Recycling: The Emergence of Artificial Intelligence and the Rise of the Robots:&nbsp;<\/strong><a href=\"https:\/\/www.mdpi.com\/2313-4321\/9\/4\/59\" target=\"_blank\" rel=\"noreferrer noopener\" class=\"broken_link\">https:\/\/www.mdpi.com\/2313-4321\/9\/4\/59<\/a>&nbsp;<\/li>\n<\/ul>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Revolutionizing urban solid waste management with AI and IoT: A review of smart solutions for waste collection, sorting, and recycling:&nbsp;<\/strong><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S2590123025001069\" target=\"_blank\" rel=\"noreferrer noopener\" class=\"broken_link\">https:\/\/www.sciencedirect.com\/science\/article\/pii\/S2590123025001069<\/a>&nbsp;<\/li>\n<\/ul>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Enhancing waste recognition with vision-language models: A prompt engineering approach for a scalable solution:&nbsp;<\/strong>https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0956053X25003502&nbsp;<\/li>\n<\/ul>\n","protected":false},"featured_media":12005,"template":"","categories":[510],"custom_tag":[87,79],"class_list":["post-12007","research-lab","type-research-lab","status-publish","has-post-thumbnail","hentry","category-lab-news-2","custom_tag-ia","custom_tag-smartautomation"],"acf":{"externel_link":"","summary":"","filter_opacity":"70","subtitle":"","reading_time":"","authors":"","document_to_download":{"upload_a_file":false,"download_without_form":false,"file":false,"url":""},"show_recent_block_on_the_bottom_of_the_page":false},"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v25.6 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Mod\u00e8les Vision-Langage pour une reconnaissance des d\u00e9chets \u00e0 grande \u00e9chelle<\/title>\n<meta name=\"description\" content=\"Pourquoi l\u2019automatisation devient indispensable dans la gestion des d\u00e9chets. D\u00e9couvrir l&#039;article de note Lab R&amp;D.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/\" \/>\n<meta property=\"og:locale\" content=\"fr_FR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Mod\u00e8les Vision-Langage pour une reconnaissance des d\u00e9chets \u00e0 grande \u00e9chelle\" \/>\n<meta property=\"og:description\" content=\"Pourquoi l\u2019automatisation devient indispensable dans la gestion des d\u00e9chets. D\u00e9couvrir l&#039;article de note Lab R&amp;D.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/\" \/>\n<meta property=\"og:site_name\" content=\"Novelis innovation\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/novelis.io\" \/>\n<meta property=\"article:modified_time\" content=\"2025-12-01T13:39:01+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-Site-4-scaled.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"2560\" \/>\n\t<meta property=\"og:image:height\" content=\"1440\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:site\" content=\"@novelis_io\" \/>\n<meta name=\"twitter:label1\" content=\"Dur\u00e9e de lecture estim\u00e9e\" \/>\n\t<meta name=\"twitter:data1\" content=\"10 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/\",\"url\":\"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/\",\"name\":\"Mod\u00e8les Vision-Langage pour une reconnaissance des d\u00e9chets \u00e0 grande \u00e9chelle\",\"isPartOf\":{\"@id\":\"https:\/\/novelis.io\/fr\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-Site-4-scaled.jpg\",\"datePublished\":\"2025-12-01T13:20:04+00:00\",\"dateModified\":\"2025-12-01T13:39:01+00:00\",\"description\":\"Pourquoi l\u2019automatisation devient indispensable dans la gestion des d\u00e9chets. D\u00e9couvrir l'article de note Lab R&D.\",\"breadcrumb\":{\"@id\":\"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/#breadcrumb\"},\"inLanguage\":\"fr-FR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/#primaryimage\",\"url\":\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-Site-4-scaled.jpg\",\"contentUrl\":\"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-Site-4-scaled.jpg\",\"width\":2560,\"height\":1440},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Accueil\",\"item\":\"https:\/\/novelis.io\/fr\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Analyse comparative des mod\u00e8les Vision-Langage pour une reconnaissance des d\u00e9chets \u00e0 grande \u00e9chelle\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/novelis.io\/fr\/#website\",\"url\":\"https:\/\/novelis.io\/fr\/\",\"name\":\"Novelis innovation\",\"description\":\"Novelis innovation\",\"publisher\":{\"@id\":\"https:\/\/novelis.io\/fr\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/novelis.io\/fr\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"fr-FR\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/novelis.io\/fr\/#organization\",\"name\":\"Novelis innovation\",\"url\":\"https:\/\/novelis.io\/fr\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/novelis.io\/fr\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/logo-1.png\",\"contentUrl\":\"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/logo-1.png\",\"width\":479,\"height\":98,\"caption\":\"Novelis innovation\"},\"image\":{\"@id\":\"https:\/\/novelis.io\/fr\/#\/schema\/logo\/image\/\"},\"sameAs\":[\"https:\/\/www.facebook.com\/novelis.io\",\"https:\/\/x.com\/novelis_io\",\"https:\/\/www.linkedin.com\/company\/novelis-consulting\/\",\"https:\/\/www.youtube.com\/channel\/UCJ5eJR22n2GtfKaTWueWRPQ\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Mod\u00e8les Vision-Langage pour une reconnaissance des d\u00e9chets \u00e0 grande \u00e9chelle","description":"Pourquoi l\u2019automatisation devient indispensable dans la gestion des d\u00e9chets. D\u00e9couvrir l'article de note Lab R&D.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/","og_locale":"fr_FR","og_type":"article","og_title":"Mod\u00e8les Vision-Langage pour une reconnaissance des d\u00e9chets \u00e0 grande \u00e9chelle","og_description":"Pourquoi l\u2019automatisation devient indispensable dans la gestion des d\u00e9chets. D\u00e9couvrir l'article de note Lab R&D.","og_url":"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/","og_site_name":"Novelis innovation","article_publisher":"https:\/\/www.facebook.com\/novelis.io","article_modified_time":"2025-12-01T13:39:01+00:00","og_image":[{"width":2560,"height":1440,"url":"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-Site-4-scaled.jpg","type":"image\/jpeg"}],"twitter_card":"summary_large_image","twitter_site":"@novelis_io","twitter_misc":{"Dur\u00e9e de lecture estim\u00e9e":"10 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/","url":"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/","name":"Mod\u00e8les Vision-Langage pour une reconnaissance des d\u00e9chets \u00e0 grande \u00e9chelle","isPartOf":{"@id":"https:\/\/novelis.io\/fr\/#website"},"primaryImageOfPage":{"@id":"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/#primaryimage"},"image":{"@id":"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/#primaryimage"},"thumbnailUrl":"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-Site-4-scaled.jpg","datePublished":"2025-12-01T13:20:04+00:00","dateModified":"2025-12-01T13:39:01+00:00","description":"Pourquoi l\u2019automatisation devient indispensable dans la gestion des d\u00e9chets. D\u00e9couvrir l'article de note Lab R&D.","breadcrumb":{"@id":"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/#breadcrumb"},"inLanguage":"fr-FR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/"]}]},{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/#primaryimage","url":"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-Site-4-scaled.jpg","contentUrl":"https:\/\/novelis.io\/wp-content\/uploads\/2025\/12\/image-Site-4-scaled.jpg","width":2560,"height":1440},{"@type":"BreadcrumbList","@id":"https:\/\/novelis.io\/fr\/research-lab\/analyse-comparative-des-modeles-vision-langage-pour-une-reconnaissance-des-dechets-a-grande-echelle\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Accueil","item":"https:\/\/novelis.io\/fr\/"},{"@type":"ListItem","position":2,"name":"Analyse comparative des mod\u00e8les Vision-Langage pour une reconnaissance des d\u00e9chets \u00e0 grande \u00e9chelle"}]},{"@type":"WebSite","@id":"https:\/\/novelis.io\/fr\/#website","url":"https:\/\/novelis.io\/fr\/","name":"Novelis innovation","description":"Novelis innovation","publisher":{"@id":"https:\/\/novelis.io\/fr\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/novelis.io\/fr\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"fr-FR"},{"@type":"Organization","@id":"https:\/\/novelis.io\/fr\/#organization","name":"Novelis innovation","url":"https:\/\/novelis.io\/fr\/","logo":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/novelis.io\/fr\/#\/schema\/logo\/image\/","url":"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/logo-1.png","contentUrl":"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/logo-1.png","width":479,"height":98,"caption":"Novelis innovation"},"image":{"@id":"https:\/\/novelis.io\/fr\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/novelis.io","https:\/\/x.com\/novelis_io","https:\/\/www.linkedin.com\/company\/novelis-consulting\/","https:\/\/www.youtube.com\/channel\/UCJ5eJR22n2GtfKaTWueWRPQ"]}]}},"_links":{"self":[{"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/research-lab\/12007"}],"collection":[{"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/research-lab"}],"about":[{"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/types\/research-lab"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/media\/12005"}],"wp:attachment":[{"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/media?parent=12007"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/categories?post=12007"},{"taxonomy":"custom_tag","embeddable":true,"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/custom_tag?post=12007"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}