
{"id":3685,"date":"2021-12-16T10:53:55","date_gmt":"2021-12-16T10:53:55","guid":{"rendered":"https:\/\/staging.novelis.io\/?post_type=expertises&#038;p=3685"},"modified":"2023-09-04T15:14:52","modified_gmt":"2023-09-04T15:14:52","slug":"ocr-nlp","status":"publish","type":"expertises","link":"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/","title":{"rendered":"IDP \/ NLP"},"content":{"rendered":"\n<h2 class=\"wp-block-heading\" id=\"vos-enjeux\"><strong>Vos enjeux<\/strong><\/h2>\n\n\n\n<p>Au-del\u00e0 d\u2019\u00eatre un enjeu \u00e9cologique et \u00e9conomique, la digitalisation de vos documents est un moyen simple pour fluidifier les \u00e9changes et cela s\u2019inscrit dans votre d\u00e9marche de transformation digitale. Vous avez besoin d\u2019une solution simple et rapide \u00e0 mettre en place pour transformer vos donn\u00e9es structur\u00e9es en non structur\u00e9es en donn\u00e9es exploitables sans perdre de temps.&nbsp;&nbsp;<\/p>\n\n\n\n<div style=\"height:30px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"notre-proposition-de-valeur\"><strong>Notre proposition de valeur<\/strong><\/h2>\n\n\n\n<p>Avec notre <a href=\"https:\/\/www.abbyy.com\/fr\/\" target=\"_blank\" rel=\"noopener\">partenaire ABBYY<\/a>, leader mondial de l\u2019IDP (Intelligent Document Processing), nous vous permettons de <strong>scanner, lire, extraire, cat\u00e9goriser et organiser les informations de tous vos documents<\/strong> dans les diff\u00e9rentes applications de votre entreprise.\u00a0<\/p>\n\n\n\n<p>Au travers de notre expertise en NLP (Natural Langage Processing), nous allons plus loin dans votre projet de d\u00e9mat\u00e9rialisation en int\u00e9grant une couche \u00ab s\u00e9mantique \u00bb permettant de gagner du temps et de la r\u00e9activit\u00e9 dans le traitement de vos donn\u00e9es non structur\u00e9es.&nbsp;<\/p>\n\n\n\n<p>Vos projets de d\u00e9mat\u00e9rialisation des documents et d&rsquo;IDP peuvent ainsi \u00eatre coupl\u00e9s par nos \u00e9quipes d\u2019experts avec des solutions de Robotisation des processus (RPA), des chatbots ou des voicebots pour am\u00e9liorer votre performance, la satisfaction de vos collaborateurs et l\u2019exp\u00e9rience client.&nbsp;<\/p>\n\n\n\n<div style=\"height:30px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<p>Nous vous accompagnons dans toutes les phases de vos projets d\u2019automatisation de processus m\u00e9tier impliquant l\u2019int\u00e9gration des donn\u00e9es non structur\u00e9es\u202f:&nbsp;&nbsp;<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Audit de vos processus int\u00e9grant des documents afin de qualifier la meilleure approche IDP \/ NLP de vos donn\u00e9es non structur\u00e9es et en \u00e9tudier la faisabilit\u00e9&nbsp;&nbsp;<\/li>\n\n\n\n<li>R\u00e9daction des sp\u00e9cifications fonctionnelles et techniques allant de l\u2019acquisition des donn\u00e9es non structur\u00e9s, l\u2019extraction automatique, le contr\u00f4le de surface et la v\u00e9rification des r\u00e8gles m\u00e9tier jusqu\u2019\u00e0 l\u2019int\u00e9gration dans le syst\u00e8me d\u2019information des donn\u00e9es extraites&nbsp;&nbsp;&nbsp;<\/li>\n\n\n\n<li>R\u00e9alisation de bout en bout de projet d\u2019automatisation de processus comme le traitement des factures fournisseurs, des commandes clients, des rapports tiers, de contrats \u2026&nbsp;&nbsp;<\/li>\n\n\n\n<li>TMA et maintien en condition op\u00e9rationnelle&nbsp;&nbsp;<\/li>\n\n\n\n<li>Distribution des licences ABBYY (Cloud ou On Premise), installation et maintenance&nbsp;&nbsp;<\/li>\n\n\n\n<li>Formation \u00e0 l\u2019utilisation de la solution <a href=\"https:\/\/www.abbyy.com\/fr\/flexicapture\/\" target=\"_blank\" rel=\"noopener\">ABBYY FlexiCapture<\/a> et \u00e0 la qualification des projets IDP<\/li>\n<\/ul>\n","protected":false},"featured_media":3887,"template":"","categories":[255],"tags":[136,218],"custom_tag":[],"class_list":["post-3685","expertises","type-expertises","status-publish","has-post-thumbnail","hentry","category-expertise","tag-nlp-fr","tag-ocr-fr"],"acf":{"subtitle":"L\u2019automatisation cognitive \u00e0 travers l\u2019IDP et l\u2019IA pour \u00e9largir le champs des processus automatisables","summary":"Nous vous aidons \u00e0 digitaliser vos documents et vos donn\u00e9es non structur\u00e9es gr\u00e2ce \u00e0 l\u2019IDP et au NLP, coupl\u00e9s \u00e0 la RPA","texte_chapeau":"<p><span class=\"TextRun SCXW258214245 BCX0\" lang=\"FR-FR\" xml:lang=\"FR-FR\" data-contrast=\"auto\"><span class=\"NormalTextRun SCXW258214245 BCX0\" data-ccp-parastyle=\"No Spacing\">Nous vous accompagnons dans la gestion des donn\u00e9es structur\u00e9es et non structur\u00e9es. Ces derni\u00e8res<\/span><span class=\"NormalTextRun SCXW258214245 BCX0\" data-ccp-parastyle=\"No Spacing\">, qu\u2019il s\u2019agisse de documents scann\u00e9s, num\u00e9ris\u00e9s comme des factures, des bons de commandes, des contrats, des documents officiels,<\/span><span class=\"NormalTextRun SCXW258214245 BCX0\" data-ccp-parastyle=\"No Spacing\"> n\u00e9cessitent tr\u00e8s souvent de nombreuses actions humaines avant d\u2019\u00eatre trait\u00e9es dans le Syst\u00e8me d\u2019Informations de l\u2019entreprise ou du service public.<\/span><\/span><span class=\"EOP SCXW258214245 BCX0\" data-ccp-props=\"{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559739&quot;:0,&quot;335559740&quot;:240}\">\u00a0<\/span><\/p>\n","authors":[{"ID":3717,"post_author":"4","post_date":"2021-12-31 09:33:42","post_date_gmt":"2021-12-31 09:33:42","post_content":"","post_title":"Mehdi Nafe","post_excerpt":"","post_status":"publish","comment_status":"closed","ping_status":"closed","post_password":"","post_name":"mehdi-nafe","to_ping":"","pinged":"","post_modified":"2024-10-01 09:14:04","post_modified_gmt":"2024-10-01 09:14:04","post_content_filtered":"","post_parent":0,"guid":"https:\/\/staging.novelis.io\/?post_type=collaborators&#038;p=3717","menu_order":38,"post_type":"collaborators","post_mime_type":"","comment_count":"0","filter":"raw"}],"technogies_pictures":false,"logos":{"image_1":false,"image_2":false,"image_3":false},"custom_latest_news":{"news_1":{"ID":7033,"post_author":"4","post_date":"2023-04-19 07:44:07","post_date_gmt":"2023-04-19 07:44:07","post_content":"<!-- wp:paragraph -->\n<p>GPT-4, publi\u00e9 par OpenAI en 2023, est le mod\u00e8le de langage qui d\u00e9tient l'un des plus grands r\u00e9seaux neuronal jamais cr\u00e9\u00e9, bien au-del\u00e0 des mod\u00e8les de langage qui l'ont pr\u00e9c\u00e9d\u00e9. Il est \u00e9galement le plus r\u00e9cent des grands mod\u00e8les multimodaux capables de traiter des images et des textes en entr\u00e9e et de produire des textes en sortie. Non seulement GPT-4 surpasse les mod\u00e8les existants par une marge consid\u00e9rable en anglais, mais il fait \u00e9galement preuve d'une grande performance dans d'autres langues. GPT-4 est un mod\u00e8le encore plus puissant et sophistiqu\u00e9 que GPT-3.5, montrant des performances in\u00e9gal\u00e9es dans de nombreuses t\u00e2ches de NLP (traitement du langage naturel), y compris la traduction et les questions-r\u00e9ponses.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>Dans cet article, nous pr\u00e9sentons dix grands mod\u00e8les de langage (LLM) ayant eu un impact significatif sur l\u2019\u00e9volution du NLP ces derni\u00e8res ann\u00e9es. Ces mod\u00e8les ont \u00e9t\u00e9 sp\u00e9cialement con\u00e7us pour s'attaquer \u00e0 diverses t\u00e2ches dans le domaine du traitement du langage naturel (<a href=\"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/\">NLP<\/a>), telles que la r\u00e9ponse aux questions, le r\u00e9sum\u00e9 automatique, la g\u00e9n\u00e9ration de texte \u00e0 partir de code, etc. Pour chaque mod\u00e8le, vous trouverez un aper\u00e7u de ses forces et faiblesses par rapport aux autres mod\u00e8les de sa cat\u00e9gorie.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>Un mod\u00e8le LLM (Large Language Model) est entra\u00een\u00e9 sur un grand corpus de donn\u00e9es textuelles et est con\u00e7u pour g\u00e9n\u00e9rer du texte comme le ferait un humain. L'\u00e9mergence des LLM tels que GPT-1 (Radford et al., 2018) et BERT (Devlin et al., 2018) a repr\u00e9sent\u00e9 une perc\u00e9e dans le domaine de l'intelligence artificielle.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p><strong>Le premier LLM, d\u00e9velopp\u00e9 par OpenAI, est le GPT-1<\/strong> (Generative Pretrained Transformer) en 2018 (Radford et al., 2018). Il est bas\u00e9 sur le r\u00e9seau neuronal Transformer (Vaswani et al., 2017) et comporte 12 couches et 768 unit\u00e9s cach\u00e9es par couche. Le mod\u00e8le a \u00e9t\u00e9 entra\u00een\u00e9 \u00e0 pr\u00e9dire le l\u2019\u00e9l\u00e9ment suivant d'une s\u00e9quence, compte tenu du contexte des \u00e9l\u00e9ments pr\u00e9c\u00e9dents. Le GPT-1 est capable d'effectuer un large \u00e9ventail de t\u00e2ches linguistiques, notamment de r\u00e9pondre \u00e0 des questions, de traduire des textes et de produire des \u00e9crits cr\u00e9atifs. \u00c9tant donn\u00e9 qu'il s'agit du premier LLM, le GPT-1 pr\u00e9sente certaines limites, par exemple :<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:list {\"ordered\":true} -->\n<ol><!-- wp:list-item -->\n<li>Risque de biais&nbsp;: le GPT-1 est entra\u00een\u00e9 sur un vaste corpus de donn\u00e9es textuelles, ce qui peut introduire des biais dans le mod\u00e8le ;<\/li>\n<!-- \/wp:list-item -->\n\n<!-- wp:list-item -->\n<li>Manque de \u00ab&nbsp;bon sens&nbsp;\u00bb : en \u00e9tant form\u00e9 \u00e0 partir de textes il a des difficult\u00e9s \u00e0 lier les connaissances \u00e0 une forme de compr\u00e9hension ;<\/li>\n<!-- \/wp:list-item -->\n\n<!-- wp:list-item -->\n<li>Interpr\u00e9tabilit\u00e9 limit\u00e9e : \u00e9tant donn\u00e9 qu'il a des millions de param\u00e8tres, il est difficile d'interpr\u00e9ter la fa\u00e7on dont il prend des d\u00e9cisions et pourquoi il g\u00e9n\u00e8re certains r\u00e9sultats.<\/li>\n<!-- \/wp:list-item --><\/ol>\n<!-- \/wp:list -->\n\n<!-- wp:paragraph -->\n<p><strong>La m\u00eame ann\u00e9e que GPT-1, Google IA a introduit <a href=\"https:\/\/medium.com\/mlearning-ai\/the-need-for-bidirectional-encoder-representations-from-transformers-bert-7d8702aab5eb#:~:text=Bidirectional%20Encoder%20Representations%20from%20Transformers%20(BERT)%20is%20a%20free%20and,of%20ambiguous%20words%20in%20text.\">BERT<\/a> (Bidirectional Encoder Representations from Transformers).<\/strong> Contrairement \u00e0 GPT-1, BERT (Devlin et al., 2018) s'est concentr\u00e9 sur le pr\u00e9-entra\u00eenement du mod\u00e8le \u00e0 partir d\u2019une une t\u00e2che de mod\u00e9lisation du langage masqu\u00e9, o\u00f9 le mod\u00e8le a \u00e9t\u00e9 entra\u00een\u00e9 \u00e0 pr\u00e9dire les mots manquants dans une phrase compte tenu du contexte. Cette approche a permis \u00e0 BERT d'apprendre des repr\u00e9sentations contextuelles riches des mots, ce qui a conduit \u00e0 une am\u00e9lioration des performances sur une gamme de t\u00e2ches NLP, telles que l'analyse des sentiments et la reconnaissance des entit\u00e9s nomm\u00e9es. BERT partage avec GPT-1 certaines limitations, par exemple, l'absence de connaissances de sens commun sur le monde, et la limitation de l'interpr\u00e9tabilit\u00e9 pour savoir comment il prend des d\u00e9cisions et la raison le poussant \u00e0 g\u00e9n\u00e9rer certains r\u00e9sultats. En outre, BERT n'utilise qu'un contexte limit\u00e9 pour faire des pr\u00e9dictions, ce qui peut donner lieu \u00e0 des r\u00e9sultats inattendus ou absurdes lorsque le mod\u00e8le est confront\u00e9 \u00e0 des informations nouvelles ou non conventionnelles.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p><strong>Au d\u00e9but de l'ann\u00e9e 2019, &nbsp;le troisi\u00e8me LLM introduit par OpenAI, connu sous le nom de GPT-2 (Generative Pretrained Transformer 2) <\/strong>est apparu. GPT-2 (Radford et al., 2019) a \u00e9t\u00e9 con\u00e7u pour g\u00e9n\u00e9rer des textes coh\u00e9rents et de type humain en pr\u00e9disant le mot suivant dans une phrase en fonction des mots pr\u00e9c\u00e9dents. Son architecture est bas\u00e9e sur un r\u00e9seau neuronal transformateur, similaire \u00e0 son pr\u00e9d\u00e9cesseur GPT-1, qui utilise l'auto-attention pour traiter les s\u00e9quences d'entr\u00e9e. Cependant, GPT-2 est un mod\u00e8le beaucoup plus large que GPT-1, avec 1,5 milliard de param\u00e8tres par rapport aux 117 millions de param\u00e8tres de GPT-1. Cette taille accrue permet \u00e0 GPT-2 de g\u00e9n\u00e9rer des textes de meilleure qualit\u00e9 et d'obtenir des r\u00e9sultats am\u00e9lior\u00e9s dans un large \u00e9ventail de t\u00e2ches de traitement du langage naturel. En outre, le GPT-2 peut effectuer un plus grand nombre de t\u00e2ches, telles que le r\u00e9sum\u00e9, la traduction et la compl\u00e9tion de texte, par rapport \u00e0 GPT-1. Cependant, l'une des limites de GPT-2 r\u00e9side dans ses exigences en mati\u00e8re de ressources pour le calcul, ce qui peut rendre difficile sa formation et son d\u00e9ploiement sur certains mat\u00e9riels. En outre, certains chercheurs se sont inqui\u00e9t\u00e9s de l'utilisation potentiellement abusive du GPT-2 pour g\u00e9n\u00e9rer des fausses nouvelles ou des informations trompeuses, ce qui a conduit l'OpenAI \u00e0 limiter sa diffusion dans un premier temps.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p><strong>GPT-2 a \u00e9t\u00e9 suivi par d'autres mod\u00e8les tels que XLNet et RoBERTa.<\/strong> XLNet (Generalized Autoregressive Pretraining for Language Understanding) a \u00e9t\u00e9 introduit par Google IA. XLNet (Yang et al., 2019) est une variante de l'architecture bas\u00e9e sur Transformer. XLNet est diff\u00e9rent des mod\u00e8les traditionnels.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>Transformer, tels que BERT et RoBERTa, utilise une m\u00e9thode d'apprentissage bas\u00e9e sur la permutation qui permet au mod\u00e8le de prendre en compte tous les ordres de mots possibles dans une s\u00e9quence, plut\u00f4t qu'un ordre fixe de gauche \u00e0 droite ou de droite \u00e0 gauche. Cette approche permet d'am\u00e9liorer les performances dans les t\u00e2ches de NLP telles que la classification des textes, la r\u00e9ponse aux questions et l'analyse des sentiments. Ce mod\u00e8le a obtenu des r\u00e9sultats de pointe sur des ensembles de donn\u00e9es de r\u00e9f\u00e9rence en mati\u00e8re de NLP, mais, comme tout autre mod\u00e8le, il pr\u00e9sente certaines limites. Par exemple, son algorithme d'apprentissage est complexe (il utilise un algorithme d'apprentissage bas\u00e9 sur la permutation) et il a besoin d'une grande quantit\u00e9 de donn\u00e9es d'apprentissage diversifi\u00e9es et de haute qualit\u00e9 pour obtenir de bons r\u00e9sultats.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p><strong>Simultan\u00e9ment, RoBERTa (Robustly Optimized BERT Pretraining Approach) a \u00e9galement \u00e9t\u00e9 introduit en 2019<\/strong>, mais par Facebook AI. RoBERTa (Liu et al., 2019) am\u00e9liore BERT en s'entra\u00eenant sur un plus grand corpus de donn\u00e9es, un masquage dynamique, et en s'entra\u00eenant avec la phrase enti\u00e8re, plut\u00f4t qu'avec les seuls tokens masqu\u00e9s. Ces modifications conduisent \u00e0 une am\u00e9lioration des performances sur un large \u00e9ventail de t\u00e2ches NLP, telles que la r\u00e9ponse aux questions, l'analyse des sentiments et la classification des textes. RoBERTa est un LLM tr\u00e8s performant, mais il pr\u00e9sente \u00e9galement certaines limites. Par exemple, comme RoBERTa a un grand nombre de param\u00e8tres, l'inf\u00e9rence peut \u00eatre lente ; le mod\u00e8le est plus performant en anglais, mais il n'a pas les m\u00eames performances dans d'autres langues.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p><strong>Quelques mois plus tard, l'\u00e9quipe de recherche de Salesforce a publi\u00e9 CTRL (Conditional Transformer Language Model).<\/strong> CTRL (Keskar et al., 2019) est con\u00e7u pour g\u00e9n\u00e9rer du texte conditionn\u00e9 par des sujets sp\u00e9cifiques, ce qui lui permet de g\u00e9n\u00e9rer un texte coh\u00e9rent et pertinent pour des t\u00e2ches ou des domaines sp\u00e9cifiques. CTRL est bas\u00e9 sur un r\u00e9seau neuronal transformateur, similaire \u00e0 d'autres grands mod\u00e8les de langage tels que GPT-2 et BERT. Cependant, il comprend \u00e9galement un nouveau m\u00e9canisme de conditionnement, qui permet au mod\u00e8le d'\u00eatre finement ajust\u00e9 pour des t\u00e2ches ou des domaines sp\u00e9cifiques. L'un des avantages de CTRL est sa capacit\u00e9 \u00e0 g\u00e9n\u00e9rer des textes hautement pertinents et coh\u00e9rents pour des t\u00e2ches ou des domaines sp\u00e9cifiques, gr\u00e2ce \u00e0 son m\u00e9canisme de conditionnement. Cependant, l'une de ses limites est qu'il peut ne pas \u00eatre aussi performant que des mod\u00e8les linguistiques plus g\u00e9n\u00e9raux pour des t\u00e2ches plus diverses ou plus ouvertes. En outre, le m\u00e9canisme de conditionnement utilis\u00e9 par CTRL peut n\u00e9cessiter des \u00e9tapes de pr\u00e9traitement suppl\u00e9mentaires ou des connaissances sp\u00e9cialis\u00e9es pour \u00eatre mis en place efficacement.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p><strong>Le m\u00eame mois que le mod\u00e8le CTRL, NVIDIA a pr\u00e9sent\u00e9 MEGATRON-LM<\/strong> (Shoeybi et al., 2019). MEGATRON-LM est con\u00e7u pour \u00eatre tr\u00e8s efficace et \u00e9volutif, permettant aux chercheurs et aux d\u00e9veloppeurs de former des mod\u00e8les de langage massifs avec des milliards de param\u00e8tres en utilisant des techniques de calcul distribu\u00e9. Son architecture est similaire \u00e0 celle d'autres grands mod\u00e8les de langage tels que GPT-2 et BERT. Cependant, Megatron-LM utilise une combinaison de parall\u00e9lisme de mod\u00e8les et de parall\u00e9lisme de donn\u00e9es pour distribuer la charge de travail sur plusieurs GPU, ce qui lui permet d'entra\u00eener des mod\u00e8les comportant jusqu'\u00e0 8 milliards de param\u00e8tres. N\u00e9anmoins, l'une des limites de Megatron-LM est sa complexit\u00e9 et ses exigences \u00e9lev\u00e9es en mati\u00e8re de calcul, qui peuvent compliquer sa mise en place et son utilisation efficace. En outre, les techniques de calcul distribu\u00e9 utilis\u00e9es par Megatron-LM peuvent entra\u00eener des frais g\u00e9n\u00e9raux et des co\u00fbts de communications suppl\u00e9mentaires, ce qui peut affecter le temps et l'efficacit\u00e9 de la formation.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p><strong>Quelques mois plus tard, Hugging Face a d\u00e9velopp\u00e9 un mod\u00e8le appel\u00e9 DistilBERT<\/strong> (Aur\u00e9lien et al., 2019). DistilBERT est une version all\u00e9g\u00e9e du mod\u00e8le BERT. Il a \u00e9t\u00e9 con\u00e7u pour fournir une alternative plus efficace et plus rapide \u00e0 BERT, tout en conservant un haut niveau de performance sur une vari\u00e9t\u00e9 de t\u00e2ches de TAL. Le mod\u00e8le est capable de r\u00e9duire la taille des mod\u00e8les de 40 % et d'acc\u00e9l\u00e9rer les temps d'inf\u00e9rence de 60 % par rapport \u00e0 BERT, sans sacrifier la pr\u00e9cision de ses performances. DistillBERT peut donner de bons r\u00e9sultats dans des t\u00e2ches telles que l'analyse des sentiments, la r\u00e9ponse aux questions et la reconnaissance des entit\u00e9s nomm\u00e9es. Cependant, DistillBERT n'est pas aussi performant que BERT dans certaines t\u00e2ches de NLP. En outre, il a \u00e9t\u00e9 pr\u00e9-entra\u00een\u00e9 sur un ensemble de donn\u00e9es plus petit que BERT, ce qui limite sa capacit\u00e9 \u00e0 transf\u00e9rer ses connaissances \u00e0 de nouvelles t\u00e2ches et \u00e0 de nouveaux domaines.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p><strong>Simultan\u00e9ment, Facebook AI a lanc\u00e9 BART<\/strong> (Denoising Autoencoder for Regularizing Translation) en juin 2019. BART (Lewis et al., 2019) est un mod\u00e8le pr\u00e9-entra\u00een\u00e9 de s\u00e9quence \u00e0 s\u00e9quence (Seq2Seq) pour la g\u00e9n\u00e9ration, la traduction et la compr\u00e9hension du langage naturel. BART est un auto encodeur de d\u00e9bruitage qui utilise une combinaison d'objectifs de d\u00e9bruitage dans le pr\u00e9-entra\u00eenement. Les objectifs de d\u00e9bruitage aident le mod\u00e8le \u00e0 apprendre des repr\u00e9sentations robustes. BART pr\u00e9sente des limites pour la traduction multilingue, ses performances peuvent \u00eatre sensibles au choix des hyperparam\u00e8tres, et trouver les hyperparam\u00e8tres optimaux peut s'av\u00e9rer difficile. Par ailleurs, l'autoencodeur de BART pr\u00e9sente des limites, telles que le manque de capacit\u00e9 \u00e0 mod\u00e9liser les d\u00e9pendances \u00e0 long terme entre les variables d'entr\u00e9e et de sortie.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p><strong>Enfin, nous avons analys\u00e9 le mod\u00e8le T5<\/strong> (Transfer Learning with a Unified Text-to-Text Transformer), introduit par Google AI. T5 (Raffel et al., 2020) est un mod\u00e8le bas\u00e9 sur un transformateur de s\u00e9quence \u00e0 s\u00e9quence. Il utilise l'objectif MSP (Masked Span Prediction) dans le pr\u00e9-entra\u00eenement, qui consiste \u00e0 masquer al\u00e9atoirement des portions de texte de longueur arbitraire. Par la suite, le mod\u00e8le pr\u00e9dit les espaces masqu\u00e9s. Bien que le T5 ait obtenu des r\u00e9sultats conformes \u00e0 l'\u00e9tat de l'art, il est con\u00e7u pour \u00eatre un mod\u00e8le texte-\u00e0-texte polyvalent, ce qui peut parfois donner lieu \u00e0 des pr\u00e9dictions qui ne sont pas directement pertinentes pour une t\u00e2che sp\u00e9cifique ou qui ne se pr\u00e9sentent pas dans le format souhait\u00e9. En outre, le T5 est un mod\u00e8le de grande taille, qui n\u00e9cessite une utilisation importante de la m\u00e9moire et prend parfois beaucoup de temps pour l'inf\u00e9rence.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>Dans cet article, nous avons abord\u00e9 les avantages et les inconv\u00e9nients des dix LLM r\u00e9volutionnaires qui ont \u00e9merg\u00e9 au cours des cinq derni\u00e8res ann\u00e9es. Nous avons \u00e9galement approfondi les architectures sur lesquelles ces mod\u00e8les ont \u00e9t\u00e9 construits, en mettant en \u00e9vidence les contributions significatives qu'ils ont apport\u00e9es \u00e0 l'avancement du domaine du NLP.<\/p>\n<!-- \/wp:paragraph -->","post_title":"10 premiers grands mod\u00e8les de langage qui ont transform\u00e9 le NLP au cours des 5 derni\u00e8res ann\u00e9es","post_excerpt":"","post_status":"publish","comment_status":"closed","ping_status":"closed","post_password":"","post_name":"10-premiers-grands-modeles-de-langage-qui-ont-transforme-le-nlp-au-cours-des-5-dernieres-annees","to_ping":"","pinged":"","post_modified":"2023-04-20 13:58:29","post_modified_gmt":"2023-04-20 13:58:29","post_content_filtered":"","post_parent":0,"guid":"https:\/\/novelis.io\/?post_type=news&#038;p=7033","menu_order":7,"post_type":"news","post_mime_type":"","comment_count":"0","filter":"raw"},"news_2":{"ID":3752,"post_author":"4","post_date":"2022-02-09 17:54:28","post_date_gmt":"2022-02-09 17:54:28","post_content":"","post_title":"Combiner l'IDP, la RPA et l'IA pour r\u00e9soudre un processus complexe","post_excerpt":"","post_status":"publish","comment_status":"closed","ping_status":"closed","post_password":"","post_name":"combiner-locr-la-rpa-et-lia-pour-resoudre-un-processus-complexe","to_ping":"","pinged":"","post_modified":"2023-09-04 15:17:28","post_modified_gmt":"2023-09-04 15:17:28","post_content_filtered":"","post_parent":0,"guid":"https:\/\/staging.novelis.io\/?post_type=business-cases&#038;p=3752","menu_order":24,"post_type":"business-cases","post_mime_type":"","comment_count":"0","filter":"raw"},"news_3":{"ID":6532,"post_author":"5","post_date":"2023-01-10 16:23:53","post_date_gmt":"2023-01-10 16:23:53","post_content":"<!-- wp:paragraph -->\n<p>L\u2019exploitation des donn\u00e9es est plus que jamais un enjeu majeur au sein de tout type d\u2019organisation. Plusieurs cas d\u2019usage sont trait\u00e9s, de l\u2019exploration \u00e0 l\u2019extraction d\u2019informations pertinentes et utilisables, afin de&nbsp;:<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:list -->\n<ul><!-- wp:list-item -->\n<li>Comprendre l\u2019environnement d\u2019une organisation<\/li>\n<!-- \/wp:list-item -->\n\n<!-- wp:list-item -->\n<li>Mieux conna\u00eetre ses collaborateurs<\/li>\n<!-- \/wp:list-item -->\n\n<!-- wp:list-item -->\n<li>Am\u00e9liorer ses services, produits et process (cas d\u2019utilisation des donn\u00e9es de la production dans un environnement de test et\/ou d\u00e9veloppement)<\/li>\n<!-- \/wp:list-item --><\/ul>\n<!-- \/wp:list -->\n\n<!-- wp:paragraph -->\n<p>Manipuler ces masses d\u2019informations n\u2019est pas sans cons\u00e9quence. On y trouve des informations sensibles dont la divulgation peut porter pr\u00e9judice \u00e0 des personnes morales et\/ou physiques. C\u2019est pourquoi le Parlement europ\u00e9en a adopt\u00e9 en mai 2016, le R\u00e8glement G\u00e9n\u00e9ral sur la Protection des Donn\u00e9es (RGPD) visant \u00e0 encadrer le traitement des donn\u00e9es de mani\u00e8re \u00e9galitaire sur tout le territoire de l\u2019Union Europ\u00e9enne. Ses objectifs\u00a0: renforcer les droits des personnes, responsabiliser les acteurs traitant des donn\u00e9es et favoriser la coop\u00e9ration entre les autorit\u00e9s de protection des donn\u00e9es. La pseudonymisation\/anonymisation appara\u00eet ainsi comme une technique indispensable en mati\u00e8re de protection des donn\u00e9es personnelles et favorisant la conformit\u00e9 avec la r\u00e9glementation.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:heading {\"level\":4} -->\n<h4>Qu\u2019est-ce que la Pseudonymisation\u00a0et l\u2019Anonymisation ?<\/h4>\n<!-- \/wp:heading -->\n\n<!-- wp:paragraph -->\n<p><a href=\"https:\/\/www.enisa.europa.eu\/\">L\u2019ENISA<\/a> [1] (agence de l\u2019Union Europ\u00e9enne pour la cybers\u00e9curit\u00e9) d\u00e9finit la <strong>pseudonymisation<\/strong> comme \u00e9tant un processus de d\u00e9s identification. C\u2019est un traitement de donn\u00e9es sensibles r\u00e9alis\u00e9 de mani\u00e8re \u00e0 ce que l'on ne puisse plus identifier une personne physique de mani\u00e8re directe sans avoir recours \u00e0 des informations suppl\u00e9mentaires. Alors que l\u2019<strong>anonymisation<\/strong> est un processus par lequel les donn\u00e9es \u00e0 caract\u00e8re personnel sont modifi\u00e9es de fa\u00e7on irr\u00e9versible de telle fa\u00e7on que la personne concern\u00e9e ne puisse plus \u00eatre identifi\u00e9e, directement ou indirectement, que ce soit par le responsable du traitement seul ou en collaboration avec d\u2019autres tiers [1].<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>&nbsp;Lorsque l\u2019on consid\u00e8re le texte suivant&nbsp;: \u00ab&nbsp;<em>Emmanuel MACRON est le huiti\u00e8me Pr\u00e9sident de la V\u00e8me R\u00e9publique fran\u00e7aise. Fondateur du mouvement \u00ab En Marche ! \u00bb, cr\u00e9\u00e9 le 6 avril 2016, il l\u2019a dirig\u00e9 jusqu\u2019\u00e0 sa premi\u00e8re victoire \u00e0 l\u2019\u00e9lection pr\u00e9sidentielle, le 7 mai 2017.<\/em>&nbsp;\u00bb.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>On distingue trois types d\u2019informations&nbsp;:<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:list -->\n<ul><!-- wp:list-item -->\n<li>les entit\u00e9s nomm\u00e9es&nbsp;: Emmanuel MACRON, 6 avril 2016, 7 mai 2017, En Marche, huiti\u00e8me<\/li>\n<!-- \/wp:list-item -->\n\n<!-- wp:list-item -->\n<li>Les mentions\u00a0: Pr\u00e9sident de la V\u00e8me R\u00e9publique fran\u00e7aise, Fondateur<\/li>\n<!-- \/wp:list-item -->\n\n<!-- wp:list-item -->\n<li>Autres morph\u00e8mes identifiants&nbsp;: premi\u00e8re victoire, l\u2019\u00e9lection pr\u00e9sidentielle<\/li>\n<!-- \/wp:list-item --><\/ul>\n<!-- \/wp:list -->\n\n<!-- wp:paragraph -->\n<p>Le tableau suivant r\u00e9sume le r\u00e9sultat attendu lorsque l\u2019on applique ces deux techniques<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:image {\"id\":6533,\"sizeSlug\":\"full\",\"linkDestination\":\"none\"} -->\n<figure class=\"wp-block-image size-full\"><img src=\"https:\/\/novelis.io\/wp-content\/uploads\/2023\/01\/La-RPA-pour-les-assurances-4.jpg\" alt=\"\" class=\"wp-image-6533\"\/><\/figure>\n<!-- \/wp:image -->\n\n<!-- wp:paragraph -->\n<p>Une troisi\u00e8me cat\u00e9gorie d\u2019approche de traitement de donn\u00e9es sensibles se d\u00e9gage avec les avanc\u00e9es des algorithmes neuronaux sur l\u2019exploitation du langage naturel\u00a0: la <strong>pseudonymisation avanc\u00e9e<\/strong>. Cette derni\u00e8re est capable de traiter une grande majorit\u00e9 des informations sensibles \u00ab\u00a0identifiants\u00a0\u00bb dans un texte. Il reste cependant des cas \u00e0 la marge qui peuvent \u00eatre d\u00e9tect\u00e9s si le contexte du sujet trait\u00e9s est connu. C\u2019est l\u2019exemple du texte suivant \u00ab\u00a0<em>LinkedIn est un r\u00e9seau social. En France, en 2022, LinkedIn compte plus de 25 millions de membres et 12 millions de membres actifs mensuels estim\u00e9s, ce qui en fait le 6\u00e8me r\u00e9seau social.<\/em>\u00a0\u00bb o\u00f9 lorsque le terme <em>6\u00e8me r\u00e9seau social<\/em>, difficilement d\u00e9tectable peut permettre d\u2019identifier<em> LinkedIn <\/em>lorsque l\u2019on fait quelques recherches sur internet.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:heading {\"level\":4} -->\n<h4>Qu\u2019entend-on par \u00ab&nbsp;donn\u00e9es sensibles&nbsp;\u00bb&nbsp;?<\/h4>\n<!-- \/wp:heading -->\n\n<!-- wp:paragraph -->\n<p>Les donn\u00e9es sensibles sont des informations permettant d\u2019identifier une personne physique ou morale. C\u2019est le cas des informations suivantes lorsqu\u2019elles sont associ\u00e9es \u00e0 une personne physique : nom complet (nom et pr\u00e9nom), lieux, organisation, date de naissance, adresses (email, logement), des num\u00e9ros identifiants (carte bancaire, s\u00e9curit\u00e9 sociale, t\u00e9l\u00e9phone) \u2026. ou des informations li\u00e9es \u00e0 une personne morale comme, le nom de l\u2019entreprise, son adresse, ses identifiants SIREN et SIRET, \u2026.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:heading {\"level\":4} -->\n<h4>Comment pseudonymiser les donn\u00e9es&nbsp;?<\/h4>\n<!-- \/wp:heading -->\n\n<!-- wp:paragraph -->\n<p>La CNIL [2] d\u00e9crit deux types de techniques de pseudonymisation&nbsp;: celles qui reposent sur la cr\u00e9ation de pseudonymes relativement basiques (compteur, g\u00e9n\u00e9rateur de nombre al\u00e9atoire) et celles qui s\u2019appuient sur les techniques cryptographiques (chiffrement \u00e0 cl\u00e9 secr\u00e8te, fonction de hachage).<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>Toutes ces m\u00e9thodes expliquent comment les donn\u00e9es sensibles doivent \u00eatre trait\u00e9es dans le cadre de la pseudonymisation. Elle n\u2019explique pas comment les identifier. Le processus d\u2019identification peut \u00eatre simple lorsque les donn\u00e9es sont tabulaires. Il suffit alors de supprimer ou de chiffrer le contenu des colonnes concern\u00e9es.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>Chez Novelis, nous travaillons sur la pseudonymisation avanc\u00e9e des donn\u00e9es sensibles contenues dans des textes libres. L\u2019identification dans ce contexte est complexe et est souvent r\u00e9alis\u00e9e manuellement par des humains, ce qui impose un co\u00fbt en temps et en ressources humaines qualifi\u00e9es. L\u2019intelligence Artificielle (IA) et les techniques du traitement automatique du langage (NLP) sont pourtant suffisamment robustes pour automatiser cette t\u00e2che . On distinguera ainsi g\u00e9n\u00e9ralement deux types d\u2019approches d\u2019extraction de donn\u00e9es sensibles&nbsp;: les approches neuronales et les approches bas\u00e9es sur des r\u00e8gles. Bien qu\u2019elles fournissent d\u2019excellents r\u00e9sultats, surtout avec l\u2019apparition des Transformers (mod\u00e8le d\u2019apprentissage profond), les approches neuronales n\u00e9cessitent des jeux de donn\u00e9es importants pour \u00eatre pertinentes, ce qui n\u2019est pas toujours le cas dans le monde industriel. &nbsp;Elles n\u00e9cessitent par ailleurs une t\u00e2che d\u2019annotation par des experts afin de fournir aux mod\u00e8les un jeu de donn\u00e9es de qualit\u00e9 pour l\u2019entra\u00eenement. Quant aux mod\u00e8les bas\u00e9s sur des r\u00e8gles, ils souffrent de probl\u00e8mes de g\u00e9n\u00e9ralisation. Un mod\u00e8le bas\u00e9 sur des r\u00e8gles aura en effet tendance \u00e0 avoir une bonne pr\u00e9cision sur l'\u00e9chantillon servant de base d'apprentissage mais sera plus difficilement applicable \u00e0 un nouveau jeu de donn\u00e9es non \u00e9tudi\u00e9 dans les hypoth\u00e8ses de d\u00e9part<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:heading {\"level\":4} -->\n<h4>L\u2019approche propos\u00e9e par <a href=\"https:\/\/novelis.io\/novelis-research-lab\/\">l\u2019\u00e9quipe R&amp;D du laboratoire<\/a> Novelis<\/h4>\n<!-- \/wp:heading -->\n\n<!-- wp:paragraph -->\n<p>Nous proposons une approche hybride exploitant les points fort des techniques NLP et des mod\u00e8les neuronaux. Tout d\u2019abord nous avons construit un corpus contenant des adresses, pour entra\u00eener un mod\u00e8le neuronal capable de d\u00e9tecter une adresse dans un texte. Un benchmarking des mod\u00e8les a \u00e9t\u00e9 effectu\u00e9 afin de choisir le mod\u00e8le ad\u00e9quat. Le mod\u00e8le est ensuite am\u00e9lior\u00e9 gr\u00e2ce \u00e0 une strat\u00e9gie de \u00ab&nbsp;fine-tuning&nbsp;\u00bb. Combin\u00e9 \u00e0 des librairies python NLP, le mod\u00e8le offre une solution robuste d\u2019extraction des adresses et des entit\u00e9s nomm\u00e9es telles que les noms des personnes, les lieux et les organisations. Des motifs (expressions r\u00e9guli\u00e8res) ont \u00e9t\u00e9 d\u00e9sign\u00e9s, par les experts Novelis, pour l\u2019extraction des autres donn\u00e9es sensibles identifi\u00e9s. Enfin, des heuristiques ont \u00e9t\u00e9 utilis\u00e9es pour d\u00e9sambigu\u00efser et corriger les informations extraites.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>Par cette approche, nous avons construit un syst\u00e8me fiable et robuste permettant de traiter les informations sensibles contenues dans tout type de documents (pdf, word, email, \u2026). Le but \u00e9tant de supprimer les t\u00e2ches \u00e0 faible valeur ajout\u00e9 des responsables du traitement des donn\u00e9es par de l\u2019assistance automatis\u00e9e.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:spacer {\"height\":\"101px\"} -->\n<div style=\"height:101px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n<!-- \/wp:spacer -->\n\n<!-- wp:spacer -->\n<div style=\"height:100px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n<!-- \/wp:spacer -->\n\n<!-- wp:paragraph -->\n<p>R\u00e9f\u00e9rences&nbsp;:<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:list -->\n<ul><!-- wp:list-item -->\n<li>[1]&nbsp;: https:\/\/www.enisa.europa.eu\/news\/enisa-news\/enisa-proposes-best-practices-and-techniques-for-pseudonymisation<\/li>\n<!-- \/wp:list-item -->\n\n<!-- wp:list-item -->\n<li>[2]&nbsp;: <a href=\"https:\/\/www.cnil.fr\/fr\/recherche-scientifique-hors-sante\/enjeux-avantages-anonymisation-pseudonymisation\">https:\/\/www.cnil.fr\/fr\/recherche-scientifique-hors-sante\/enjeux-avantages-anonymisation-pseudonymisation<\/a><\/li>\n<!-- \/wp:list-item --><\/ul>\n<!-- \/wp:list -->","post_title":"Anonymisation des donn\u00e9es sensibles par l\u2019approche coupl\u00e9e du NLP et des mod\u00e8les neuronaux","post_excerpt":"","post_status":"publish","comment_status":"closed","ping_status":"closed","post_password":"","post_name":"anonymisation-des-donnees-sensibles-par-lapproche-couplee-du-nlp-et-des-modeles-neuronaux","to_ping":"","pinged":"","post_modified":"2023-08-09 15:02:16","post_modified_gmt":"2023-08-09 15:02:16","post_content_filtered":"","post_parent":0,"guid":"https:\/\/novelis.io\/?post_type=news&#038;p=6532","menu_order":41,"post_type":"news","post_mime_type":"","comment_count":"0","filter":"raw"}},"form_type":"calendly","calendly":{"button_text":"Prendre un rendez-vous","event_link":"https:\/\/calendly.com\/ochosson\/30min"},"expertises_swiper":[3660,3678,6319,3682,3683],"icon":"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/Idp-Nlp.svg"},"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v25.6 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Novelis expert de l&#039;automatisation : OCR, NLP, RPA<\/title>\n<meta name=\"description\" content=\"Nous vous accompagnons dans vos projets d\u2019automatisation de processus m\u00e9tier impliquant l\u2019int\u00e9gration des donn\u00e9es non structur\u00e9es\u202f (OCR, NLP)\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/\" \/>\n<meta property=\"og:locale\" content=\"fr_FR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Novelis expert de l&#039;automatisation : OCR, NLP, RPA\" \/>\n<meta property=\"og:description\" content=\"Nous vous accompagnons dans vos projets d\u2019automatisation de processus m\u00e9tier impliquant l\u2019int\u00e9gration des donn\u00e9es non structur\u00e9es\u202f (OCR, NLP)\" \/>\n<meta property=\"og:url\" content=\"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/\" \/>\n<meta property=\"og:site_name\" content=\"Novelis innovation\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/novelis.io\" \/>\n<meta property=\"article:modified_time\" content=\"2023-09-04T15:14:52+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/photo-1569908420024-c8f709b75700.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"1170\" \/>\n\t<meta property=\"og:image:height\" content=\"780\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:site\" content=\"@novelis_io\" \/>\n<meta name=\"twitter:label1\" content=\"Dur\u00e9e de lecture estim\u00e9e\" \/>\n\t<meta name=\"twitter:data1\" content=\"2 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/\",\"url\":\"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/\",\"name\":\"Novelis expert de l'automatisation : OCR, NLP, RPA\",\"isPartOf\":{\"@id\":\"https:\/\/novelis.io\/fr\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/photo-1569908420024-c8f709b75700.jpg\",\"datePublished\":\"2021-12-16T10:53:55+00:00\",\"dateModified\":\"2023-09-04T15:14:52+00:00\",\"description\":\"Nous vous accompagnons dans vos projets d\u2019automatisation de processus m\u00e9tier impliquant l\u2019int\u00e9gration des donn\u00e9es non structur\u00e9es\u202f (OCR, NLP)\",\"breadcrumb\":{\"@id\":\"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/#breadcrumb\"},\"inLanguage\":\"fr-FR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/#primaryimage\",\"url\":\"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/photo-1569908420024-c8f709b75700.jpg\",\"contentUrl\":\"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/photo-1569908420024-c8f709b75700.jpg\",\"width\":1170,\"height\":780},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Accueil\",\"item\":\"https:\/\/novelis.io\/fr\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"OCR \/ NLP\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/novelis.io\/fr\/#website\",\"url\":\"https:\/\/novelis.io\/fr\/\",\"name\":\"Novelis innovation\",\"description\":\"Novelis innovation\",\"publisher\":{\"@id\":\"https:\/\/novelis.io\/fr\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/novelis.io\/fr\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"fr-FR\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/novelis.io\/fr\/#organization\",\"name\":\"Novelis innovation\",\"url\":\"https:\/\/novelis.io\/fr\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/novelis.io\/fr\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/logo-1.png\",\"contentUrl\":\"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/logo-1.png\",\"width\":479,\"height\":98,\"caption\":\"Novelis innovation\"},\"image\":{\"@id\":\"https:\/\/novelis.io\/fr\/#\/schema\/logo\/image\/\"},\"sameAs\":[\"https:\/\/www.facebook.com\/novelis.io\",\"https:\/\/x.com\/novelis_io\",\"https:\/\/www.linkedin.com\/company\/novelis-consulting\/\",\"https:\/\/www.youtube.com\/channel\/UCJ5eJR22n2GtfKaTWueWRPQ\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Novelis expert de l'automatisation : OCR, NLP, RPA","description":"Nous vous accompagnons dans vos projets d\u2019automatisation de processus m\u00e9tier impliquant l\u2019int\u00e9gration des donn\u00e9es non structur\u00e9es\u202f (OCR, NLP)","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/","og_locale":"fr_FR","og_type":"article","og_title":"Novelis expert de l'automatisation : OCR, NLP, RPA","og_description":"Nous vous accompagnons dans vos projets d\u2019automatisation de processus m\u00e9tier impliquant l\u2019int\u00e9gration des donn\u00e9es non structur\u00e9es\u202f (OCR, NLP)","og_url":"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/","og_site_name":"Novelis innovation","article_publisher":"https:\/\/www.facebook.com\/novelis.io","article_modified_time":"2023-09-04T15:14:52+00:00","og_image":[{"width":1170,"height":780,"url":"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/photo-1569908420024-c8f709b75700.jpg","type":"image\/jpeg"}],"twitter_card":"summary_large_image","twitter_site":"@novelis_io","twitter_misc":{"Dur\u00e9e de lecture estim\u00e9e":"2 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/","url":"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/","name":"Novelis expert de l'automatisation : OCR, NLP, RPA","isPartOf":{"@id":"https:\/\/novelis.io\/fr\/#website"},"primaryImageOfPage":{"@id":"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/#primaryimage"},"image":{"@id":"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/#primaryimage"},"thumbnailUrl":"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/photo-1569908420024-c8f709b75700.jpg","datePublished":"2021-12-16T10:53:55+00:00","dateModified":"2023-09-04T15:14:52+00:00","description":"Nous vous accompagnons dans vos projets d\u2019automatisation de processus m\u00e9tier impliquant l\u2019int\u00e9gration des donn\u00e9es non structur\u00e9es\u202f (OCR, NLP)","breadcrumb":{"@id":"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/#breadcrumb"},"inLanguage":"fr-FR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/"]}]},{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/#primaryimage","url":"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/photo-1569908420024-c8f709b75700.jpg","contentUrl":"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/photo-1569908420024-c8f709b75700.jpg","width":1170,"height":780},{"@type":"BreadcrumbList","@id":"https:\/\/novelis.io\/fr\/expertises\/ocr-nlp\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Accueil","item":"https:\/\/novelis.io\/fr\/"},{"@type":"ListItem","position":2,"name":"OCR \/ NLP"}]},{"@type":"WebSite","@id":"https:\/\/novelis.io\/fr\/#website","url":"https:\/\/novelis.io\/fr\/","name":"Novelis innovation","description":"Novelis innovation","publisher":{"@id":"https:\/\/novelis.io\/fr\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/novelis.io\/fr\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"fr-FR"},{"@type":"Organization","@id":"https:\/\/novelis.io\/fr\/#organization","name":"Novelis innovation","url":"https:\/\/novelis.io\/fr\/","logo":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/novelis.io\/fr\/#\/schema\/logo\/image\/","url":"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/logo-1.png","contentUrl":"https:\/\/novelis.io\/wp-content\/uploads\/2021\/12\/logo-1.png","width":479,"height":98,"caption":"Novelis innovation"},"image":{"@id":"https:\/\/novelis.io\/fr\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/novelis.io","https:\/\/x.com\/novelis_io","https:\/\/www.linkedin.com\/company\/novelis-consulting\/","https:\/\/www.youtube.com\/channel\/UCJ5eJR22n2GtfKaTWueWRPQ"]}]}},"_links":{"self":[{"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/expertises\/3685"}],"collection":[{"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/expertises"}],"about":[{"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/types\/expertises"}],"version-history":[{"count":0,"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/expertises\/3685\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/media\/3887"}],"wp:attachment":[{"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/media?parent=3685"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/categories?post=3685"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/tags?post=3685"},{"taxonomy":"custom_tag","embeddable":true,"href":"https:\/\/novelis.io\/fr\/wp-json\/wp\/v2\/custom_tag?post=3685"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}