Avez-vous du mal à savoir comment lancer ou optimiser vos efforts d’automatisation intelligente ? Vous n’êtes pas seul. De nombreuses organisations rencontrent des difficultés à déployer efficacement les technologies d’automatisation et d’IA, gaspillant souvent du temps et des ressources. La bonne nouvelle est qu’il existe un moyen d’éliminer les approximations du processus : Process Intelligence
Rejoignez-nous le 26 septembre pour un webinaire exclusif avec notre partenaire ABBYY, intitulé « Éliminez les approximations de vos initiatives d’automatisation intelligente grâce à l’intelligence des processus ». Au cours de cette session, Catherine Stewart, Présidente des Amériques chez Novelis, partagera son expertise sur la manière dont les entreprises peuvent utiliser le « process mining » et le « task mining » pour optimiser les flux de travail et obtenir un impact réel et mesurable.
Pourquoi assister
L’automatisation a le potentiel de transformer vos opérations commerciales, mais sans la bonne approche, les efforts peuvent facilement échouer. Catherine Stewart s’appuiera sur sa vaste expérience dans la gestion des initiatives d’automatisation pour révéler comment l’intelligence des processus peut aider les entreprises à améliorer leur efficacité, réduire les goulets d’étranglement et garantir un succès à long terme.
Points clés :
Comment l’intelligence des processus peut fournir des informations critiques sur la performance de vos processus et identifier les inefficacités.
Le rôle du « task mining » dans la capture des données au niveau des tâches pour compléter le « process mining », offrant ainsi une vue complète de vos opérations.
Des exemples concrets de la manière dont Novelis a aidé ses clients à optimiser leurs efforts d’automatisation grâce à l’intelligence des processus, entraînant une amélioration de l’efficacité, de la précision et de la satisfaction client.
L’importance des jumeaux numériques pour simuler les processus métier, permettant des améliorations continues sans affecter les systèmes de production.
Inscrivez-vous maintenant et faites le premier pas vers une automatisation plus intelligente et plus efficace.
Découvrez la première version de notre publication scientifique « Optimisation des agents d’interface utilisateur graphique pour l’ancrage des instructions visuelles utilisant des systèmes d’Intelligence Artificielle multimodale » publiée dans arxiv et soumise à la revue Engineering Applications of Artificial Intelligence. Cet article, rédigé en anglais, est déjà disponible au public.
Most instance perception and image understanding solutions focus mainly on natural images. However, applications for synthetic images, and more specifically, images of Graphical User Interfaces (GUI) remain limited. This hinders the development of autonomous computer-vision-powered Artificial Intelligence (AI) agents. In this work, we present Search Instruction Coordinates or SIC, a multi-modal solution for object identification in a GUI. More precisely, given a natural language instruction and a screenshot of a GUI, SIC locates the coordinates of the component on the screen where the instruction would be executed. To this end, we develop two methods. The first method is a three-part architecture that relies on a combination of a Large Language Model (LLM) and an object detection model. The second approach uses a multi-modal foundation model.
arXiv est une archive ouverte de prépublications électroniques d’articles scientifiques dans différents domaines techniques, tels que la physique, les mathématiques, l’informatique et bien plus encore, gratuitement accessible par Internet.
L’événement Chief AI Officer USA Exchange, prévu pour les 1er et 2 mai 2024, est un rassemblement exclusif, sur invitation uniquement, qui se tiendra à l’hôtel Le Méridien Dania Beach à Fort Lauderdale, en Floride. Conçu pour les cadres dirigeants, il vise à simplifier les complexités de l’Intelligence Artificielle.
Le monde de l’IA évolue à un rythme sans précédent, offrant des opportunités précieuses tout en présentant des défis significatifs. Dans ce paysage complexe, le rôle de cet événement devient crucial pour guider les entreprises à travers les subtilités de l’IA, en maximisant ses bénéfices, le tout en naviguant prudemment pour éviter les pièges éthiques et les préoccupations liées à la vie privée.
La relation entre l’IA, la confidentialité et la gouvernance des données
Application concrète de l’IA Générative
Communication gouvernementale et réglementation
Création de solutions IA / Machine Learning internes et externes
Mise en œuvre stratégique et transformation d’entreprise
Cybersécurité dans l’IA
Durabilité dans l’IA
Un événement unique auquel Novelis participe
Réseau exclusif : Rassemblement sélectif de cadres dirigeants dans l’IA et les technologies émergentes. Sur invitation uniquement, pour des discussions diversifiées et pertinentes pour l’industrie.
Contenu personnalisé : Exploitation de plus de 5 ans de données pour du contenu sur mesure par un panel varié d’experts.
Fournisseurs sélectionnés : Sponsors choisis pour aborder les défis contemporains, améliorant l’expérience des participants.
Novelis se distingue en tant qu’expert en Automatisation et IA Générative, possédant une expertise dans l’intégration synergique de ces deux domaines. En fusionnant notre connaissance approfondie de l’automatisation avec les dernières avancées en IA Générative, nous offrons à nos partenaires et clients une expertise inégalée, leur permettant de naviguer avec confiance à travers l’écosystème complexe de l’IA.
Novelis sera représentée par Catherine Stewart, Présidente et Directrice Générale pour les Amériques, ainsi que par Paul Branson, Directeur des Solutions Techniques.
Cet événement offre l’occasion de découvrir les rôles émergents dans l’IA, discuter d’études de cas pertinentes et de stratégies éprouvées pour une intégration réussie de l’IA en entreprise.
Retrouvons-nous pour discuter de vos projets d’IA et d’Automatisation.
Le 3 octobre, Novelis était présent à l’AM Tech Day, l’événement incontournable pour les gestionnaires de portefeuille et les gestionnaires d’actifs organisé par L’AGEFI.
Au cours de cet événement, Olivier Chosson, Directeur des Opérations, a discuté lors d’une interview de la proposition de valeur de Novelis pour accompagner les assets managers dans l’optimisation de la gestion d’actifs grâce à l’IA générative, à l’automatisation et à la cybersécurité.
Retrouvez ci-dessous l’interview :
Adrien : J’ai le plaisir d’accueillir sur le studio de l’AGEFI AM Tech Day, aujourd’hui au Palais Brongniart. Olivier Chosson, Bonjour !
Olivier : Bonjour Adrien.
Adrien : Vous êtes associé et directeur des opérations de Novelis et j’ai naturellement envie de poser la question, Novelis, what is it ?
Olivier : Novelis, c’est un spécialiste de l’efficacité opérationnelle et qui va accompagner ses clients sur l’ensemble de l’étude de leurs processus au travers d’outils tels que le Process Intelligence, l’Automatisation Intelligente. Et puis tous les outils que l’Intelligence Artificielle, notamment l’Intelligence Artificielle Générative, va nous permettre de mettre à disposition. Aussi de travailler sur des architectures innovantes telles que des architectures modulaires et/ou de la cybersécurité, bien évidemment, pour sécuriser l’ensemble des données sur lesquelles on va travailler.
Le cabinet est structuré autour d’un laboratoire de R&D spécialisé dans l’intelligence artificielle. Il emploie exclusivement des chercheurs en intelligence artificielle qui se consacrent à la recherche fondamentale dans ce domaine, contribuant ainsi à faire progresser les modèles. Pourquoi avons-nous pris cette initiative ? Dans le but d’anticiper les évolutions du marché et de proposer à nos clients et partenaires les produits dès qu’ils sont prêts et matures, afin de les rendre opérationnels et de les mettre sur le marché.
Adrien : Alors là vous avez vraiment foncé sur la problématique IA, complètement pour l’embrasser.
Olivier : C’est effectivement notre job et c’est là-dessus qu’on a construit le cabinet maintenant depuis sa naissance il y a un peu plus de 6 ans.
Adrien : Alors, j’aurais demandé à de nombreuses personnes ce qu’elles pensent de l’IA en tant que sujet de demain. Certains abordent ce sujet aujourd’hui, mais pour d’autres, il représente le sujet de demain. Pour vous, c’est déjà un enjeu d’actualité, peut-être même depuis hier et aujourd’hui. Alors, quel est, selon vous, le sujet de demain ?
Olivier : Pour Novelis, l’IA générative deviendra un incontournable dans le monde des entreprises, dès demain. Lorsque nous évoquons l’IA générative, beaucoup de gens pensent à ChatGPT. Cependant, dès aujourd’hui, les entreprises ont la possibilité d’avoir leur propre modèle de ChatGPT, travaillant spécifiquement sur leurs données et leurs processus.
Quel est l’objectif ? Il s’agit d’apporter une valeur considérable, mais pour qui ? Tout d’abord, pour leurs clients. Les entreprises auront la possibilité de proposer des services plus personnalisés, plus rapides, et avec une plus grande valeur ajoutée. Cela apportera également de la valeur à leurs employés. Ces derniers pourront se concentrer sur leurs compétences, développer leur expertise, et ainsi fournir encore plus de valeur à leurs clients. En fin de compte, c’est toute l’entreprise qui pourra ainsi accroître sa valeur.
Adrien : Et c’est ce que vous faites, c’est accompagner ces entreprises dans cette démarche-là.
Olivier : Exactement. Et c’est notre boulot, c’est notre job.
Adrien : Voilà. Et pour celles et ceux qui souhaitent en apprendre davantage, vous pouvez bien sûr vous rendre sur le stand Novelis ici lors de l’AM Tech Day.
Olivier : Exactement.
Adrien : Olivier Chosson, associé et directeur des opérations de Novelis, merci beaucoup.
GPT-4, publié par OpenAI en 2023, est le modèle de langage qui détient l’un des plus grands réseaux neuronal jamais créé, bien au-delà des modèles de langage qui l’ont précédé. Il est également le plus récent des grands modèles multimodaux capables de traiter des images et des textes en entrée et de produire des textes en sortie. Non seulement GPT-4 surpasse les modèles existants par une marge considérable en anglais, mais il fait également preuve d’une grande performance dans d’autres langues. GPT-4 est un modèle encore plus puissant et sophistiqué que GPT-3.5, montrant des performances inégalées dans de nombreuses tâches de NLP (traitement du langage naturel), y compris la traduction et les questions-réponses.
Dans cet article, nous présentons dix grands modèles de langage (LLM) ayant eu un impact significatif sur l’évolution du NLP ces dernières années. Ces modèles ont été spécialement conçus pour s’attaquer à diverses tâches dans le domaine du traitement du langage naturel (NLP), telles que la réponse aux questions, le résumé automatique, la génération de texte à partir de code, etc. Pour chaque modèle, vous trouverez un aperçu de ses forces et faiblesses par rapport aux autres modèles de sa catégorie.
Un modèle LLM (Large Language Model) est entraîné sur un grand corpus de données textuelles et est conçu pour générer du texte comme le ferait un humain. L’émergence des LLM tels que GPT-1 (Radford et al., 2018) et BERT (Devlin et al., 2018) a représenté une percée dans le domaine de l’intelligence artificielle.
Le premier LLM, développé par OpenAI, est le GPT-1 (Generative Pretrained Transformer) en 2018 (Radford et al., 2018). Il est basé sur le réseau neuronal Transformer (Vaswani et al., 2017) et comporte 12 couches et 768 unités cachées par couche. Le modèle a été entraîné à prédire le l’élément suivant d’une séquence, compte tenu du contexte des éléments précédents. Le GPT-1 est capable d’effectuer un large éventail de tâches linguistiques, notamment de répondre à des questions, de traduire des textes et de produire des écrits créatifs. Étant donné qu’il s’agit du premier LLM, le GPT-1 présente certaines limites, par exemple :
Risque de biais : le GPT-1 est entraîné sur un vaste corpus de données textuelles, ce qui peut introduire des biais dans le modèle ;
Manque de « bon sens » : en étant formé à partir de textes il a des difficultés à lier les connaissances à une forme de compréhension ;
Interprétabilité limitée : étant donné qu’il a des millions de paramètres, il est difficile d’interpréter la façon dont il prend des décisions et pourquoi il génère certains résultats.
La même année que GPT-1, Google IA a introduit BERT (Bidirectional Encoder Representations from Transformers). Contrairement à GPT-1, BERT (Devlin et al., 2018) s’est concentré sur le pré-entraînement du modèle à partir d’une une tâche de modélisation du langage masqué, où le modèle a été entraîné à prédire les mots manquants dans une phrase compte tenu du contexte. Cette approche a permis à BERT d’apprendre des représentations contextuelles riches des mots, ce qui a conduit à une amélioration des performances sur une gamme de tâches NLP, telles que l’analyse des sentiments et la reconnaissance des entités nommées. BERT partage avec GPT-1 certaines limitations, par exemple, l’absence de connaissances de sens commun sur le monde, et la limitation de l’interprétabilité pour savoir comment il prend des décisions et la raison le poussant à générer certains résultats. En outre, BERT n’utilise qu’un contexte limité pour faire des prédictions, ce qui peut donner lieu à des résultats inattendus ou absurdes lorsque le modèle est confronté à des informations nouvelles ou non conventionnelles.
Au début de l’année 2019, le troisième LLM introduit par OpenAI, connu sous le nom de GPT-2 (Generative Pretrained Transformer 2) est apparu. GPT-2 (Radford et al., 2019) a été conçu pour générer des textes cohérents et de type humain en prédisant le mot suivant dans une phrase en fonction des mots précédents. Son architecture est basée sur un réseau neuronal transformateur, similaire à son prédécesseur GPT-1, qui utilise l’auto-attention pour traiter les séquences d’entrée. Cependant, GPT-2 est un modèle beaucoup plus large que GPT-1, avec 1,5 milliard de paramètres par rapport aux 117 millions de paramètres de GPT-1. Cette taille accrue permet à GPT-2 de générer des textes de meilleure qualité et d’obtenir des résultats améliorés dans un large éventail de tâches de traitement du langage naturel. En outre, le GPT-2 peut effectuer un plus grand nombre de tâches, telles que le résumé, la traduction et la complétion de texte, par rapport à GPT-1. Cependant, l’une des limites de GPT-2 réside dans ses exigences en matière de ressources pour le calcul, ce qui peut rendre difficile sa formation et son déploiement sur certains matériels. En outre, certains chercheurs se sont inquiétés de l’utilisation potentiellement abusive du GPT-2 pour générer des fausses nouvelles ou des informations trompeuses, ce qui a conduit l’OpenAI à limiter sa diffusion dans un premier temps.
GPT-2 a été suivi par d’autres modèles tels que XLNet et RoBERTa. XLNet (Generalized Autoregressive Pretraining for Language Understanding) a été introduit par Google IA. XLNet (Yang et al., 2019) est une variante de l’architecture basée sur Transformer. XLNet est différent des modèles traditionnels.
Transformer, tels que BERT et RoBERTa, utilise une méthode d’apprentissage basée sur la permutation qui permet au modèle de prendre en compte tous les ordres de mots possibles dans une séquence, plutôt qu’un ordre fixe de gauche à droite ou de droite à gauche. Cette approche permet d’améliorer les performances dans les tâches de NLP telles que la classification des textes, la réponse aux questions et l’analyse des sentiments. Ce modèle a obtenu des résultats de pointe sur des ensembles de données de référence en matière de NLP, mais, comme tout autre modèle, il présente certaines limites. Par exemple, son algorithme d’apprentissage est complexe (il utilise un algorithme d’apprentissage basé sur la permutation) et il a besoin d’une grande quantité de données d’apprentissage diversifiées et de haute qualité pour obtenir de bons résultats.
Simultanément, RoBERTa (Robustly Optimized BERT Pretraining Approach) a également été introduit en 2019, mais par Facebook AI. RoBERTa (Liu et al., 2019) améliore BERT en s’entraînant sur un plus grand corpus de données, un masquage dynamique, et en s’entraînant avec la phrase entière, plutôt qu’avec les seuls tokens masqués. Ces modifications conduisent à une amélioration des performances sur un large éventail de tâches NLP, telles que la réponse aux questions, l’analyse des sentiments et la classification des textes. RoBERTa est un LLM très performant, mais il présente également certaines limites. Par exemple, comme RoBERTa a un grand nombre de paramètres, l’inférence peut être lente ; le modèle est plus performant en anglais, mais il n’a pas les mêmes performances dans d’autres langues.
Quelques mois plus tard, l’équipe de recherche de Salesforce a publié CTRL (Conditional Transformer Language Model). CTRL (Keskar et al., 2019) est conçu pour générer du texte conditionné par des sujets spécifiques, ce qui lui permet de générer un texte cohérent et pertinent pour des tâches ou des domaines spécifiques. CTRL est basé sur un réseau neuronal transformateur, similaire à d’autres grands modèles de langage tels que GPT-2 et BERT. Cependant, il comprend également un nouveau mécanisme de conditionnement, qui permet au modèle d’être finement ajusté pour des tâches ou des domaines spécifiques. L’un des avantages de CTRL est sa capacité à générer des textes hautement pertinents et cohérents pour des tâches ou des domaines spécifiques, grâce à son mécanisme de conditionnement. Cependant, l’une de ses limites est qu’il peut ne pas être aussi performant que des modèles linguistiques plus généraux pour des tâches plus diverses ou plus ouvertes. En outre, le mécanisme de conditionnement utilisé par CTRL peut nécessiter des étapes de prétraitement supplémentaires ou des connaissances spécialisées pour être mis en place efficacement.
Le même mois que le modèle CTRL, NVIDIA a présenté MEGATRON-LM (Shoeybi et al., 2019). MEGATRON-LM est conçu pour être très efficace et évolutif, permettant aux chercheurs et aux développeurs de former des modèles de langage massifs avec des milliards de paramètres en utilisant des techniques de calcul distribué. Son architecture est similaire à celle d’autres grands modèles de langage tels que GPT-2 et BERT. Cependant, Megatron-LM utilise une combinaison de parallélisme de modèles et de parallélisme de données pour distribuer la charge de travail sur plusieurs GPU, ce qui lui permet d’entraîner des modèles comportant jusqu’à 8 milliards de paramètres. Néanmoins, l’une des limites de Megatron-LM est sa complexité et ses exigences élevées en matière de calcul, qui peuvent compliquer sa mise en place et son utilisation efficace. En outre, les techniques de calcul distribué utilisées par Megatron-LM peuvent entraîner des frais généraux et des coûts de communications supplémentaires, ce qui peut affecter le temps et l’efficacité de la formation.
Quelques mois plus tard, Hugging Face a développé un modèle appelé DistilBERT (Aurélien et al., 2019). DistilBERT est une version allégée du modèle BERT. Il a été conçu pour fournir une alternative plus efficace et plus rapide à BERT, tout en conservant un haut niveau de performance sur une variété de tâches de TAL. Le modèle est capable de réduire la taille des modèles de 40 % et d’accélérer les temps d’inférence de 60 % par rapport à BERT, sans sacrifier la précision de ses performances. DistillBERT peut donner de bons résultats dans des tâches telles que l’analyse des sentiments, la réponse aux questions et la reconnaissance des entités nommées. Cependant, DistillBERT n’est pas aussi performant que BERT dans certaines tâches de NLP. En outre, il a été pré-entraîné sur un ensemble de données plus petit que BERT, ce qui limite sa capacité à transférer ses connaissances à de nouvelles tâches et à de nouveaux domaines.
Simultanément, Facebook AI a lancé BART (Denoising Autoencoder for Regularizing Translation) en juin 2019. BART (Lewis et al., 2019) est un modèle pré-entraîné de séquence à séquence (Seq2Seq) pour la génération, la traduction et la compréhension du langage naturel. BART est un auto encodeur de débruitage qui utilise une combinaison d’objectifs de débruitage dans le pré-entraînement. Les objectifs de débruitage aident le modèle à apprendre des représentations robustes. BART présente des limites pour la traduction multilingue, ses performances peuvent être sensibles au choix des hyperparamètres, et trouver les hyperparamètres optimaux peut s’avérer difficile. Par ailleurs, l’autoencodeur de BART présente des limites, telles que le manque de capacité à modéliser les dépendances à long terme entre les variables d’entrée et de sortie.
Enfin, nous avons analysé le modèle T5 (Transfer Learning with a Unified Text-to-Text Transformer), introduit par Google AI. T5 (Raffel et al., 2020) est un modèle basé sur un transformateur de séquence à séquence. Il utilise l’objectif MSP (Masked Span Prediction) dans le pré-entraînement, qui consiste à masquer aléatoirement des portions de texte de longueur arbitraire. Par la suite, le modèle prédit les espaces masqués. Bien que le T5 ait obtenu des résultats conformes à l’état de l’art, il est conçu pour être un modèle texte-à-texte polyvalent, ce qui peut parfois donner lieu à des prédictions qui ne sont pas directement pertinentes pour une tâche spécifique ou qui ne se présentent pas dans le format souhaité. En outre, le T5 est un modèle de grande taille, qui nécessite une utilisation importante de la mémoire et prend parfois beaucoup de temps pour l’inférence.
Dans cet article, nous avons abordé les avantages et les inconvénients des dix LLM révolutionnaires qui ont émergé au cours des cinq dernières années. Nous avons également approfondi les architectures sur lesquelles ces modèles ont été construits, en mettant en évidence les contributions significatives qu’ils ont apportées à l’avancement du domaine du NLP.
Avec l’avancée rapide de la technologie, les entreprises cherchent constamment à rationaliser leurs processus et à minimiser les ressources et le temps nécessaires pour les tâches répétitives. L’automatisation des processus robotiques (RPA) est devenue une solution populaire pour aider à atteindre ces objectifs, et Novelis, une entreprise leader dans l’intégration de systèmes, a développé un connecteur ChatGPT qui améliore considérablement les capacités des logiciels RPA, en particulier SS&C Blue Prism.
Comment le connecteur ChatGPT améliore-t-il SS&C Blue Prism ?
Le connecteur ChatGPT, une technologie de pointe développée par Novelis, offre à SS&C Blue Prism la possibilité d’interagir avec ChatGPT et d’utiliser ses capacités avancées de traitement du langage naturel. Avec cette intégration, SS&C Blue Prism peut automatiser des processus plus complexes qui nécessitent des interactions basées sur le langage, telles que le service client ou l’analyse de données. En exploitant la puissance de ChatGPT, SS&C Blue Prism peut fournir des réponses plus rapides et plus précises aux demandes des clients, ce qui entraîne une plus grande satisfaction des clients et de meilleurs résultats commerciaux. Cette solution innovante permet à SS&C Blue Prism de rester à la pointe dans le paysage en évolution rapide de la technologie d’automatisation.
Use Cases et Usages
Il existe de nombreux use cases pour le connecteur ChatGPT dans SS&C Blue Prism, notamment :
Service client : Avec le connecteur ChatGPT, SS&C Blue Prism peut automatiser les interactions de service client en comprenant le langage naturel et en répondant de manière appropriée. Cela peut réduire considérablement la charge de travail des agents de service client, leur permettant de se concentrer sur des demandes plus complexes.
Analyse de données : ChatGPT peut analyser des données non structurées telles que les commentaires des clients, les publications sur les réseaux sociaux ou les avis, et fournir des informations qui peuvent être utilisées pour améliorer les processus métier. SS&C Blue Prism peut utiliser le connecteur ChatGPT pour automatiser l’analyse de ces données, fournissant des informations précieuses en temps réel.
Automatisation des flux de travail : Blue Prism peut utiliser le connecteur ChatGPT pour automatiser des flux de travail complexes qui nécessitent des interactions basées sur le langage, telles que le traitement de documents ou la gestion de contrats. Cela peut réduire considérablement le temps et les ressources nécessaires pour ces processus, améliorant ainsi l’efficacité et la productivité.
Le connecteur ChatGPT développé par Novelis est un outil précieux pour les entreprises qui utilisent SS&C Blue Prism pour automatiser leurs processus. En donnant à SS&C Blue Prism un accès aux capacités avancées de traitement du langage naturel, les entreprises peuvent rationaliser leurs flux de travail et améliorer leur efficacité. Que ce soit pour automatiser les interactions de service client, analyser des données non structurées ou rationaliser des flux de travail complexes, le connecteur ChatGPT est un outil puissant pour les entreprises cherchant à accroître l’automatisation et à réduire la charge de travail.
À propos de SS&C Blue Prism
SS&C Blue Prism est le leader mondial de l’automatisation intelligente pour les entreprises, transformant la manière dont le travail est effectué. SS&C Blue Prism compte des utilisateurs dans plus de 170 pays et plus de 1 800 entreprises, y compris des entreprises du Fortune 500 et des organisations du secteur public, qui créent de la valeur grâce à de nouvelles façons de travailler, déverrouillant des efficacités et retournant des millions d’heures de travail dans leurs entreprises. Leur force de travail numérique intelligente est intelligente, sécurisée, évolutive et accessible à tous ; libérant les humains pour réinventer le travail.
À propos de ChatGPT
ChatGPT est un modèle de langage développé par OpenAI. L’objectif est de fournir une assistance de qualité en répondant aux questions et en générant des réponses semblables à celles des humains pour faciliter la communication et l’échange d’informations. ChatGPT a été formé sur un vaste corpus de données textuelles et a la capacité de comprendre et de répondre à un large éventail de sujets et de sujets.
Les CoEs, souvent également appelés « centres de connaissances », ont été utilisés ces dernières années pour partager les connaissances accumulées dans différents domaines tels que le marketing, les produits pharmaceutiques, l’automobile et les télécommunications. Un CoE peut être défini comme un groupe d’experts hautement qualifiés qui travaillent ensemble pour analyser les connaissances dans un domaine d’intérêt spécifique et fournir à l’entreprise le support nécessaire pour mettre en place des technologies en se conformant aux meilleures pratiques recommandées.
De même, un CoE d’automatisation se concentre sur l’intégration d’un cadre solide et la réussite de l’implémentation des outils d’automatisation au sein de l’entreprise.
Les avantages du Centre d’excellence d’automatisation
L’automatisation des processus robotisés (RPA) est devenue un incontournable pour les entreprises qui souhaitent augmenter leur performance opérationnelle. Cependant, pour atteindre un niveau d’automatisation encore plus élevé, adaptable et évolutif, il est nécessaire d’adopter l’automatisation intelligente. C’est là qu’intervient le rôle crucial des centres d’excellence en automatisation (CoE).
Les CoE permettent de mener une transformation digitale rapide tout en maîtrisant les risques associés, en veillant à gérer judicieusement les investissements en automatisation. En établissant un CoE, les entreprises peuvent gérer et surveiller efficacement leurs initiatives avec une transparence totale. Le CoE d’automatisation se situe ainsi à l’intersection de la maîtrise, de la rapidité et de l’agilité.
Cycle de développement de robot efficace :
Un Centre d’Excellence en Automatisation (CoE) efficace permet aux entreprises de centraliser les connaissances et les données d’apprentissage dans le domaine de l’automatisation. Il donne également accès aux meilleures pratiques partagées par d’autres unités commerciales, en se concentrant sur la recherche de plateformes RPA et de processus d’automatisation. Ce partage d’informations permet aux entreprises d’optimiser leur temps, d’accélérer le déploiement de RPA et de simplifier la gestion des initiatives liées à l’automatisation.
Intégration de l’IT et de la RPA :
Un CoE bien structuré assure la participation de l’IT dans l’équipe de projet, où ils étaient auparavant considérés comme une addition facultative. Les équipes IT gèrent des aspects tels que l’infrastructure, la sécurité, la confidentialité des données et d’autres éléments stratégiques dès le début d’un projet, réduisant ainsi le risque de perturbations de l’automatisation. Les systèmes informatiques hérités évoluent constamment et sont régulièrement mis à jour, ce qui peut altérer l’automatisation au niveau de l’interface utilisateur. Les équipes IT peuvent aider à préparer et anticiper ces changements.
Facilité de scalabilité :
Les projets RPA non coordonnés peuvent entraver le succès et empêcher les entreprises d’atteindre les niveaux d’automatisation et les objectifs organisationnels souhaités. Un CoE est crucial pour éviter ces types d’échecs et établir une vision globale pour l’entreprise qui permet une adaptation facile de la RPA. Si l’objectif est de mettre en œuvre l’automatisation dans toute l’organisation, un CoE est essentiel pour une adoption et une promotion réussie de la RPA ou de tout autre logiciel d’automatisation.
Retour sur Investissement (ROI) amélioré :
L’absence d’un CoE peut entraîner des coûts importants pour l’intégration de la technologie RPA, ainsi que des inefficacités difficiles à identifier qui entravent l’automatisation, l’acquisition de la RPA et le support. Une évaluation approfondie de l’automatisation potentielle des processus peut aider à éviter un retour sur investissement négatif lors de l’investissement dans un projet. Plusieurs facteurs doivent être considérés et, dans certains cas, la RPA peut ne pas être la meilleure solution pour améliorer les processus.
Un CoE accélère le déploiement de l’IA
Le déploiement de l’IA
Dans une étude récente d’experts en IA, « 64% ont déclaré qu’il a fallu à leur organisation au moins un mois pour mettre en place un nouveau modèle – et 20% ont déclaré : « 6 mois ou plus ». »
C’est là que le centre d’excellence en automatisation (CoE) peut faire une différence significative. Il permet d’atteindre trois résultats critiques :
Il rationalise le déploiement pour accélérer la mise sur le marché.
Il établit la norme en déterminant les éléments nécessaires à un plan d’affaires rentable.
Il optimise l’utilisation des ressources pour exécuter les projets avec une efficacité accrue et des dépenses considérablement réduites.
Comment les CoEs accomplissent ces résultats ?
Un CoE d’automatisation efficace utilise des plateformes d’entreprise et une collaboration homme automatisation pour permettre l’intégration rapide des modèles dans les flux de travail. Cela permet non seulement aux robots du système d’accéder et d’appliquer ces modèles en temps réel, mais cela crée également les conditions pour une amélioration continue des modèles à l’aide des commentaires humains. De plus, ils stimulent l’extraction automatisée, la transformation, la garantie de la qualité et la gestion des données avec une gouvernance centralisée et le respect des normes.
Le CoE automatisation va au-delà des considérations de “temps” pour atteindre l’automatisation à grande échelle. Il intègre de manière transparente la technologie, les processus et les personnes pour offrir des résultats commerciaux orientés vers la valeur tout en améliorant l’efficacité opérationnelle et les coûts. En adoptant une approche orientée métier et non une simple adoption de la technologie, il associe le contexte commercial à l’automatisation des processus robotiques (RPA), aux technologies basées sur l’IA, à l’exploration des processus et à l’analytique avancée – et offre ainsi des résultats transformationnels à tous les niveaux de l’entreprise. Cette approche intègre la fragmentation des processus qui constitue un défi pour les organisations. Le CoE fait donc passer de la logique de l’automatisation des tâches et des processus d’entreprise à celle de l’automatisation intelligente.
Témoignages clients, livres blancs, articles, webinars… Tout au long de l’année, les équipes de Novelis ont créé de nombreux contenus pour partager avec vous les meilleures pratiques et retours d’expérience sur l’automatisation intelligente des processus. Dans cet article, retrouvez nos contenus les plus populaires de 2022 pour lancer 2023 et identifier les leviers qui vont booster votre efficacité opérationnelle !
BLOG – Livres blancs, articles, interview…
Anonymisation de données sensibles par l’approche combinée du NLP et des modèles neuronaux : « L’exploitation des données est plus que jamais un enjeu majeur au sein de tout type d’organisation […] La pseudonymisation/anonymisation apparaît ainsi comme une technique indispensable pour protéger les données personnelles et favoriser la conformité aux réglementations. »
[LIVRE BLANC] Comment l’automatisation peut vous aider à surmonter les défis de la relation client : « Les attentes des consommateurs ont changé et l’expérience client est devenue un facteur de différenciation majeur, d’autant que sa qualité est de plus en plus mesurable et comparable. […] Novelis vous propose d’en découvrir les avantages dans son livre blanc « Comment l’automatisation peut vous aider à surmonter les défis de la relation client » divisé en trois parties… »
[USE CASES] RPA : Tâches à fort potentiel d’automatisation dans la finance : « La révolution numérique est en train de changer le visage du secteur financier, quel que soit le métier : trésorerie, contrôle de gestion, comptabilité, direction financière, etc. Se transformer pour innover devient une obligation pour ces acteurs, qui doivent être toujours plus rapides, plus fiables et plus efficaces dans l’exécution des processus. »
[USE CASES] RPA : des tâches à fort potentiel d’automatisation dans les assurances et pour les mutuelles : « Les assurances et les mutuelles sont confrontées chaque jour à de nouveaux enjeux et défis. La RPA apporte une réponse à ces défis, ce qui en fait une solution véritablement essentielle pour ces organismes d’assurance et de mutuelle, qui disposent d’un large éventail de processus à fort potentiel d’automatisation. »
REPLAYS – Redécouvrez nos webinars
[Événement] Novelis et NICE partenaires de l’événement CX Paris All Verticals : Cette édition CX Paris All Verticals met à l’honneur l’économie de l’expérience et mettra en avant les différents niveaux de maturité en matière d’expérience client au sein de différents secteurs d’activité : banque, assurance, retail, BtoB, services publics, luxe, automobile, énergie…
Dans cet article nous allons découvrir le modèle Yolov7, un algorithme de détection d’objet. Nous étudierons tout d’abord son utilisation et ses caractéristiques au travers d’une base de données publique. Puis nous verrons comment entraîner ce modèle nous-même à partir de ce dataset. Enfin, nous entraînerons Yolov7 à identifier des objets personnalisés à partir de nos propres.
Qu’est-ce que Yolo ? Pourquoi Yolov7 ?
Yolo est un algorithme de détection d’objets dans une image. L’objectif de la détection d’objet est de classifier de manière automatique, à l’aide d’un réseau de neurones, la présence et la position d’objets humainement identifiables sur une image. L’intérêt repose donc sur les capacités et performances en termes de détection, reconnaissance et localisation des algorithmes, dont les applications pratiques sont multiples dans le domaine de l’image. La force de Yolo repose sur sa capacité à exécuter ces tâches en temps réel, ce qui le rend particulièrement utilisé avec des flux vidéo de dizaines d’images par seconde.
YOLOest en réalité un acronyme pour « You Only Look Once ». En effet, contrairement à de nombreux algorithmes de détections, Yolo est un réseau de neurones qui évalue la position et la classe des objets identifiés à partir d’un seul réseau de bout en bout qui détecte les classes à l’aide d’une couche entièrement connectée. Yolo n’a donc besoin de « voir » qu’une fois une image pour détecter les objets présents, là où certains algorithmes détectent uniquement des régions d’intérêt, avant de réévaluer celles-ci afin d’identifier les classes présentes.
Intersection over Union : IoU
Intersection over Union (littéralement Intersection sur Union, ou IoU) est une métrique permettant de mesurer la précision de la localisation d’un objet. Comme son nom l’indique, elle est calculée à partir du ratio entre la zone d’intersection Objet détecté-Objet réel et de la zone d’union de ces mêmes objets (cf. équation 1). En notant Adétecté et Aréel les aires respectives de l’objet détecté par YOLO et de l’objet tel que réellement situé sur l’image, on peut alors écrire :
On notera qu’un IoU de 0 indique que les 2 aires sont complètement distinctes et qu’un IoU de 1 indique que les 2 objets sont parfaitement superposés. En général, un IoU > 0.5 représente un critère de localisation valide.
(mean) Average Precision : mAP
Average Precision (précision moyenne) est une métrique de précision de classification. Elle est basée sur la moyenne des prédictions correctes sur les prédictions totales. On cherche donc à se rapprocher d’un score de mAP de 100% (aucune erreur au moment de déterminer la classe d’un objet).
En revenant à notre point précédent, Yolo reste un modèle d’architecture, et non la propriété d’un développeur en particulier. Ceci explique pourquoi les versions de Yolo sont de contributeurs différents. En effet, on incrémente la version de Yolo (Yolov7 à ce jour : janvier 2023) à chaque fois que les métriques précédemment citées (surtout le mAP et son temps d’exécution associé) dépassent nettement le précédent modèle et donc l’état de l’art. Ainsi, chaque nouveau modèle YolovX est en réalité une amélioration montrée par un document de recherche associé publié en parallèle.
Comment fonctionne Yolo ?
Yolo fonctionne en segmentant l’image qu’il analyse. Il va tout d’abord quadriller l’espace, puis réaliser 2 opérations : localisation et classification.
Dans un premier temps, Yolo identifie tous les objets présents à l’aide de cadres en leur associant un degré de confiance (ici représenté par l’épaisseur de la boite).
Puis, l’algorithme attribue une classe à chaque boîte selon l’objet qu’il pense avoir détecté à partir de la carte de probabilité.
Enfin, Yolo supprime toutes les boîtes superflues à l’aide de la méthode NMS.
NMS : Non-Maxima Suppression
La méthode NMS se base sur un parcours des boîtes à haut indice de confiance, puis une suppression des boîtes superposées à celles-là en mesurant l’IoU. Pour cela, on suit 4 étapes. En partant de la liste complète des boîtes détectées :
Suppression de toutes les boîtes d’indice de confiance trop faible.
Identification de la boîte d’indice de confiance le plus grand.
Suppression de toutes les boîtes ayant un IoU trop grand (c’est-à-dire de toutes les boîtes trop similaires à notre boîte référence).
En ignorant la boîte de référence ainsi utilisée, répétition des étapes 2) et 3) jusqu’à avoir éliminé toutes les boîtes de notre liste originale (c’est-à-dire en prenant la 2nde boîte d’indice de confiance le plus grand, puis la 3ème, etc.).
On obtient alors le résultat suivant :
Comment utiliser Yolov7 avec le dataset COCO ?
Maintenant que nous avons vu le modèle Yolo dans le détail, nous allons étudier son utilisation avec une base de données d’images : le dataset COCO.
Le dataset MICROSOFT COCO (pour Common Objects in COntext), plus communément appelé MS COCO, est un ensemble d’images représentant des objets communs dans un contexte commun. Cependant, à l’inverse des bases de données habituelles utilisées pour la détection et la reconnaissance d’objets, MS COCO ne présente pas des objets ou des scènes isolés. En effet, le but lors de la création de ce dataset était d’avoir des images proches de la vie réelle, afin d’avoir une base d’entraînement plus robuste pour des flux d’images classiques, reflétant la vie quotidienne.
Ainsi, en entrainant notre modèle Yolov7 avec le dataset MS COCO, il est possible d’obtenir un algorithme de reconnaissance de près d’une centaine de classes et catégorisant la majorité des objets, personnes et éléments du quotidien. Enfin, MS COCO est aujourd’hui la principale référence pour mesurer la précision et l’efficacité d’un modèle. Pour avoir un ordre d’idée, ci-dessous sont présentés les résultats des différentes versions de Yolo.
Sur ce graphique, chaque série de points représente la précision en fonctionnement d’un modèle sur le dataset MS COCO en fonction du temps attribué pour évaluer chaque image.
En abscisse, sont indiqués les temps accordés aux réseaux pour évaluer une image. Plus le temps est faible, plus on peut se permettre d’envoyer un flux d’images important à notre algorithme, au prix de la précision.
En ordonnée sont donc indiquées les précisions moyenne des modèles en fonction du temps accordé, comme vu précédemment.
On remarque alors 3 points importants :
Quel que soit le temps accordé au réseau, Yolov7 surpasse les autres modèles Yolo en termes de précision de détection sur le dataset MS COCO. Ceci explique sa présence comme référence dans l’état de l’art actuel de la détection en temps réel d’objets sur image.
L’augmentation du temps d’inférence sur chaque image n’a pas/peu d’intérêt une fois les 30ms/image dépassés. Cela implique que le modèle est plus optimal sur une utilisation nécessitant un traitement rapide des images, comme un flux vidéo (> 25 img/s).
Quel que soit le modèle concerné, aucune ne dépasse les 57% de précision de détection. Ceci implique que le modèle est donc encore loin de pouvoir être utilisé de manière fiable dans un cadre public.
Pour obtenir soi-même les résultats précédents, il suffit de suivre les instructions de la page GitHub du modèle yolov7 pré-entraîné à partir du dataset MS COCO : https://github.com/WongKinYiu/yolov7.
Suivre tout d’abord la rubrique :
Installation.
Puis l’encadré :
Testing.
Comment entraîner Yolov7 ?
Maintenant que nous avons vu comment tester Yolov7 avec un dataset sur lequel il est entraîné, nous allons nous intéresser à la manière dont nous pouvons entraîner Yolov7 à l’aide de notre propre dataset. Nous allons commencer dans un premier temps un entraînement avec des données déjà préparées, ici le dataset MS COCO. Encore une fois, le GitHub de Yolov7 présente un encart spécifique prévu à cet effet :
Training.
Il est décomposé en 2 étapes simples :
Télécharger le dataset déjà annoté MS COCO.
Lancer le script « train.py » intrinsèque au répertoire Git avec le dataset précédemment téléchargé.
Celui-ci va alors tourner sur 300 étapes pour se conformer au dataset MS COCO. On notera qu’en réalité cette opération a plus un but instructif étant donné que Yolov7 est déjà entraîné sur le dataset MS COCO et possède donc déjà un modèle adéquat.
Préparer ses propres données d’entraînement
Maintenant que nous avons vu ce qu’est Yolov7, comment le tester et l’entraîner, il ne nous reste plus qu’à lui fournir notre propre base d’images pour l’entraîner sur notre cas d’usage. Nous allons donc suivre 4 étapes pour créer notre propre dataset directement utilisable pour entraîner Yolov7 :
Choix de notre base de données d’images.
Optionnel : Labellisation de l’ensemble de nos images.
Préparation du lancement (cas d’utilisation de Google Collab).
Entraînement (et fonctionnement fractionné).
Pour illustrer le déroulé de ces opérations, nous allons prendre un cas similaire aux travaux de Novelis utilisés sur AIDA: la détection d’éléments dessinés sur une feuille de papier.
Pour commencer, il va donc nous falloir récupérer une quantité suffisante d’images similaires. Soit de notre propre collection, soit en utilisant une base de données préexistante (par exemple en prenant le dataset de notre choix à partir de ce lien. De notre côté, nous utiliserons le dataset Quick Draw. Une fois notre base formée, nous allons annoter nos images. Pour cela, de nombreux logiciels existent, la majorité du temps permettant de créer des boîtes, ou des polygones, et de les labelliser sous forme de classe. Dans notre cas, notre base de données est déjà labellisée, sinon il faudrait créer une classe pour chaque élément à détecter, puis identifier à la main sur chaque image les zones exactes de présences de ces classes. Une fois notre dataset labellisé, nous pouvons lancer une session sur Google Colab et commencer un nouveau Python Notebook. Nous l’appellerons ici « MyYolov7Project.ipynb » par exemple.
Étape préalable : copier votre dataset dans votre drive. Dans notre cas, on a déjà ajouté à notre drive un dossier « Yolov7_Dataset ». Voici l’arborescence du dossier :
Pour chaque dossier, on retrouve un dossier images, contenant les images, et un dossier labels contenant les labels associés générés précédemment. Dans notre cas, nous utilisons 20 000 images au total, dont 15 000 pour l’entrainement, 4 000 pour la validation et 1 000 pour le test.
Le fichier data.yaml contient quant à lui l’ensemble des chemins d’accès aux dossier :
Puis les caractéristiques des classes :
Nous ne représenterons pas les 345 classes dans le détail mais elles devront bien être présentes dans votre fichier. Nous pouvons donc à présent commencer notre script « MyYolov7Project.ipynb » sur Colab. Première étape, lier notre Drive au Colab afin de pouvoir sauvegarder nos résultats (Attention : les données du réseau entraîné sont volumineuses).
Une fois notre Drive lié, nous pouvons à présent cloner Yolov7 à partir du Git officiel :
En nous plaçant dans le dossier installé, nous vérifions les prérequis :
Nous aurons également besoin des bibliothèques sys et torch.
Nous pouvons alors lancer le script d’entrainement de notre réseau :
On notera que le batch size peut être modifié en fonction des capacités de votre GPU (avec la version gratuite de Collab, 16 reste le maximum possible). N’oubliez pas également de modifier votre chemin d’accès au fichier « data.yaml » en fonction de l’arborescence de votre Drive. À l’issue de l’entrainement, nous récupérons donc un dossier avec les métriques de l’entrainement ainsi qu’un modèle entraîné sur notre base de données. En lançant le script de détection (detect.py), nous pouvons donc obtenir le résultat de détection sur notre image de départ :
Comme on le voit, certains éléments n’ont pas été détectés (la rivière, l’herbe au premier plan) et certains ont été mal labellisés (les deux montagnes perçues comme des volcans, probablement dû aux rayons du soleil dépassant). Notre modèle est donc encore perfectible, soit en affinant notre base de données, soit en modifiant les paramètres d’entraînement.
Optionnel : Entrainement fractionné du réseau (En cas d’utilisation de de la version gratuite de Google Colab)
Bien que notre cas d’usage reste simpliste, en cas d’utilisation de la version gratuite de Google Colab, l’entrainement de notre réseau peut prendre plusieurs jours avant de s’achever. Or les restrictions de Google Colab (version gratuite) empêchent un programme de tourner plus de 12h. Pour conserver l’entrainement, il suffit alors de le relancer après l’arrêt d’une session avec en paramètre des poids (weights) notre dernier poids enregistré :
Ici un exemple lancé avec le 8ème run (remplacez le dossier « yolov78 » par le dernier entrainement réalisé). Vous pouvez retrouver l’ensemble de vos entrainements dans le dossier associé dans l’arborescence de Yolov7.
L’entrainement reprend alors du dernier epoch utilisé, et vous permet de progresser sans perdre le temps passé précédemment sur votre réseau.
Références :
Travaux, expérimentations et retours d’expérience du Lab. R&D de Novelis.
Contribution de WANG, Chien-Yao, BOCHKOVSKIY, Alexey, et LIAO, Hong-Yuan Mark. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors. arXiv preprint arXiv:2207.02696, 2022. : https://arxiv.org/abs/2207.02696
Le 30 avril, notre partenaire SS&C Blue Prism Live organise un événement à New York sur le thème de l’IA et de l’Automatisation.
C’est un événement clé pour les professionnels de la technologie désireux de comprendre et d’appliquer les principes de l’automatisation intelligente et de l’intelligence artificielle dans leurs domaines d’activité.
Novelis, en tant que sponsor, est fier de s’associer à cet événement qui promet de mettre en lumière les stratégies d’innovation les plus pertinentes de notre époque.
Vision et Transformation par l’Expertise
Cet événement mettra en avant des experts de différents secteurs qui partageront leur vision sur la manière dont l’intelligence artificielle et l’automatisation des processus métier peuvent transformer les organisations. Ces interventions ont pour but de démontrer comment l’exploitation stratégique des données et des technologies d’automatisation peut conduire à une efficacité opérationnelle accrue et à une meilleure prise de décision.
L’Engagement de Novelis en faveur de l’Innovation
Novelis s’engage à promouvoir l’innovation dans les domaines de l’intelligence artificielle et de l’automatisation des processus. Notre participation à SS&C Blue Prism Live témoigne de notre volonté d’être à l’avant-garde des évolutions technologiques, en partageant notre expertise et en explorant de nouvelles voies pour accompagner les organisations dans leur transformation digitale.
Un partenariat engagé dans la performance opérationnelle
En tant que partenaire engagé dans l’optimisation de la performance opérationnelle et la garantie de la pérennité des entreprises, nous proposons un vaste éventail de prestations. Au-delà des solutions d’automatisation avancée, notre offre inclut également des solutions sur mesure en IA Générative, conçues pour satisfaire des exigences de grande envergure. Notre équipe d’experts, composée notamment de docteurs et d’ingénieurs spécialisés en IA, en traitement automatique du langage naturel (NLP) et en IA Générative, est à votre disposition pour vous assister du concept initial jusqu’à la mise en œuvre d’applications à l’échelle de votre entreprise.
Catherine Stewart – Présidente pour les Amériques, Walid Dahhane – CTO & Co-fondateur et Paul Branson – Directeur des solutions techniques, sont présents lors de l’événement SS&C Blue Prism Live à New York, le 30 avril 2024, et restent à votre disposition pour toute question.
Inscrivez-vous dès maintenant à l’événement pour explorer ensemble les possibilités offertes par ces technologies disruptives. Novelis est impatient de vous y retrouver pour échanger sur ces enjeux cruciaux.
Les cookies nécessaires sont absolument indispensables au bon fonctionnement du site web. Ces cookies assurent les fonctionnalités de base et les caractéristiques de sécurité du site web, de manière anonyme.
Les cookies fonctionnels aident à réaliser certaines fonctionnalités comme le partage du contenu du site web sur les plateformes de médias sociaux, la collecte de commentaires et d'autres fonctionnalités tierces.
Les cookies de performance sont utilisés pour comprendre et analyser les principaux indices de performance du site Web, ce qui permet d'offrir une meilleure expérience utilisateur aux visiteurs.
Les cookies analytiques sont utilisés pour comprendre comment les visiteurs interagissent avec le site web. Ces cookies permettent de fournir des informations sur les métriques le nombre de visiteurs, le taux de rebond, la source de trafic, etc.
Les cookies publicitaires sont utilisés pour fournir aux visiteurs des annonces et des campagnes de marketing pertinentes. Ces cookies suivent les visiteurs à travers les sites Web et collectent des informations pour fournir des annonces personnalisées.