Évaluation comparative des modèles de langage open-source pour une réponse efficace aux questions dans les applications industrielles

Découvrez la première version de notre publication scientifique « Évaluation comparative des modèles de langage open-source pour une réponse efficace aux questions dans les applications industrielles » publiée dans arxiv et soumise à la revue Engineering Applications of Artificial Intelligence. Cet article, rédigé en anglais, est déjà disponible au public.

Merci à l’équipe de recherche de Novelis pour leur savoir-faire et leur expertise.

A propos

In the rapidly evolving landscape of Natural Language Processing (NLP),Large Language Models (LLMs) have demonstrated remarkable capabilitiesin tasks such as question answering (QA). However, the accessibility andpracticality of utilizing these models for industrial applications pose signif-icant challenges, particularly concerning cost-effectiveness, inference speed,and resource efficiency. This paper presents a comprehensive benchmarkingstudy comparing open-source LLMs with their non-open-source counterpartson the task of question answering. Our objective is to identify open-source al-ternatives capable of delivering comparable performance to proprietary mod-els while being lightweight in terms of resource requirements and suitable forCentral Processing Unit (CPU)-based inference. Through rigorous evalua-tion across various metrics including accuracy, inference speed, and resourceconsumption, we aim to provide insights into selecting efficient LLMs forreal-world applications. Our findings shed light on viable open-source al-ternatives that offer acceptable performance and efficiency, addressing thepressing need for accessible and efficient NLP solutions in industry settings.

arXiv est une archive ouverte de prépublications électroniques d’articles scientifiques dans différents domaines techniques, tels que la physique, les mathématiques, l’informatique et bien plus encore, gratuitement accessible par Internet.

10 premiers grands modèles de langage qui ont transformé le NLP au cours des 5 dernières années

GPT-4, publié par OpenAI en 2023, est le modèle de langage qui détient l’un des plus grands réseaux neuronal jamais créé, bien au-delà des modèles de langage qui l’ont précédé. Il est également le plus récent des grands modèles multimodaux capables de traiter des images et des textes en entrée et de produire des textes en sortie. Non seulement GPT-4 surpasse les modèles existants par une marge considérable en anglais, mais il fait également preuve d’une grande performance dans d’autres langues. GPT-4 est un modèle encore plus puissant et sophistiqué que GPT-3.5, montrant des performances inégalées dans de nombreuses tâches de NLP (traitement du langage naturel), y compris la traduction et les questions-réponses.

Dans cet article, nous présentons dix grands modèles de langage (LLM) ayant eu un impact significatif sur l’évolution du NLP ces dernières années. Ces modèles ont été spécialement conçus pour s’attaquer à diverses tâches dans le domaine du traitement du langage naturel (NLP), telles que la réponse aux questions, le résumé automatique, la génération de texte à partir de code, etc. Pour chaque modèle, vous trouverez un aperçu de ses forces et faiblesses par rapport aux autres modèles de sa catégorie.

Un modèle LLM (Large Language Model) est entraîné sur un grand corpus de données textuelles et est conçu pour générer du texte comme le ferait un humain. L’émergence des LLM tels que GPT-1 (Radford et al., 2018) et BERT (Devlin et al., 2018) a représenté une percée dans le domaine de l’intelligence artificielle.

Le premier LLM, développé par OpenAI, est le GPT-1 (Generative Pretrained Transformer) en 2018 (Radford et al., 2018). Il est basé sur le réseau neuronal Transformer (Vaswani et al., 2017) et comporte 12 couches et 768 unités cachées par couche. Le modèle a été entraîné à prédire le l’élément suivant d’une séquence, compte tenu du contexte des éléments précédents. Le GPT-1 est capable d’effectuer un large éventail de tâches linguistiques, notamment de répondre à des questions, de traduire des textes et de produire des écrits créatifs. Étant donné qu’il s’agit du premier LLM, le GPT-1 présente certaines limites, par exemple :

  1. Risque de biais : le GPT-1 est entraîné sur un vaste corpus de données textuelles, ce qui peut introduire des biais dans le modèle ;
  2. Manque de « bon sens » : en étant formé à partir de textes il a des difficultés à lier les connaissances à une forme de compréhension ;
  3. Interprétabilité limitée : étant donné qu’il a des millions de paramètres, il est difficile d’interpréter la façon dont il prend des décisions et pourquoi il génère certains résultats.

La même année que GPT-1, Google IA a introduit BERT (Bidirectional Encoder Representations from Transformers). Contrairement à GPT-1, BERT (Devlin et al., 2018) s’est concentré sur le pré-entraînement du modèle à partir d’une une tâche de modélisation du langage masqué, où le modèle a été entraîné à prédire les mots manquants dans une phrase compte tenu du contexte. Cette approche a permis à BERT d’apprendre des représentations contextuelles riches des mots, ce qui a conduit à une amélioration des performances sur une gamme de tâches NLP, telles que l’analyse des sentiments et la reconnaissance des entités nommées. BERT partage avec GPT-1 certaines limitations, par exemple, l’absence de connaissances de sens commun sur le monde, et la limitation de l’interprétabilité pour savoir comment il prend des décisions et la raison le poussant à générer certains résultats. En outre, BERT n’utilise qu’un contexte limité pour faire des prédictions, ce qui peut donner lieu à des résultats inattendus ou absurdes lorsque le modèle est confronté à des informations nouvelles ou non conventionnelles.

Au début de l’année 2019,  le troisième LLM introduit par OpenAI, connu sous le nom de GPT-2 (Generative Pretrained Transformer 2) est apparu. GPT-2 (Radford et al., 2019) a été conçu pour générer des textes cohérents et de type humain en prédisant le mot suivant dans une phrase en fonction des mots précédents. Son architecture est basée sur un réseau neuronal transformateur, similaire à son prédécesseur GPT-1, qui utilise l’auto-attention pour traiter les séquences d’entrée. Cependant, GPT-2 est un modèle beaucoup plus large que GPT-1, avec 1,5 milliard de paramètres par rapport aux 117 millions de paramètres de GPT-1. Cette taille accrue permet à GPT-2 de générer des textes de meilleure qualité et d’obtenir des résultats améliorés dans un large éventail de tâches de traitement du langage naturel. En outre, le GPT-2 peut effectuer un plus grand nombre de tâches, telles que le résumé, la traduction et la complétion de texte, par rapport à GPT-1. Cependant, l’une des limites de GPT-2 réside dans ses exigences en matière de ressources pour le calcul, ce qui peut rendre difficile sa formation et son déploiement sur certains matériels. En outre, certains chercheurs se sont inquiétés de l’utilisation potentiellement abusive du GPT-2 pour générer des fausses nouvelles ou des informations trompeuses, ce qui a conduit l’OpenAI à limiter sa diffusion dans un premier temps.

GPT-2 a été suivi par d’autres modèles tels que XLNet et RoBERTa. XLNet (Generalized Autoregressive Pretraining for Language Understanding) a été introduit par Google IA. XLNet (Yang et al., 2019) est une variante de l’architecture basée sur Transformer. XLNet est différent des modèles traditionnels.

Transformer, tels que BERT et RoBERTa, utilise une méthode d’apprentissage basée sur la permutation qui permet au modèle de prendre en compte tous les ordres de mots possibles dans une séquence, plutôt qu’un ordre fixe de gauche à droite ou de droite à gauche. Cette approche permet d’améliorer les performances dans les tâches de NLP telles que la classification des textes, la réponse aux questions et l’analyse des sentiments. Ce modèle a obtenu des résultats de pointe sur des ensembles de données de référence en matière de NLP, mais, comme tout autre modèle, il présente certaines limites. Par exemple, son algorithme d’apprentissage est complexe (il utilise un algorithme d’apprentissage basé sur la permutation) et il a besoin d’une grande quantité de données d’apprentissage diversifiées et de haute qualité pour obtenir de bons résultats.

Simultanément, RoBERTa (Robustly Optimized BERT Pretraining Approach) a également été introduit en 2019, mais par Facebook AI. RoBERTa (Liu et al., 2019) améliore BERT en s’entraînant sur un plus grand corpus de données, un masquage dynamique, et en s’entraînant avec la phrase entière, plutôt qu’avec les seuls tokens masqués. Ces modifications conduisent à une amélioration des performances sur un large éventail de tâches NLP, telles que la réponse aux questions, l’analyse des sentiments et la classification des textes. RoBERTa est un LLM très performant, mais il présente également certaines limites. Par exemple, comme RoBERTa a un grand nombre de paramètres, l’inférence peut être lente ; le modèle est plus performant en anglais, mais il n’a pas les mêmes performances dans d’autres langues.

Quelques mois plus tard, l’équipe de recherche de Salesforce a publié CTRL (Conditional Transformer Language Model). CTRL (Keskar et al., 2019) est conçu pour générer du texte conditionné par des sujets spécifiques, ce qui lui permet de générer un texte cohérent et pertinent pour des tâches ou des domaines spécifiques. CTRL est basé sur un réseau neuronal transformateur, similaire à d’autres grands modèles de langage tels que GPT-2 et BERT. Cependant, il comprend également un nouveau mécanisme de conditionnement, qui permet au modèle d’être finement ajusté pour des tâches ou des domaines spécifiques. L’un des avantages de CTRL est sa capacité à générer des textes hautement pertinents et cohérents pour des tâches ou des domaines spécifiques, grâce à son mécanisme de conditionnement. Cependant, l’une de ses limites est qu’il peut ne pas être aussi performant que des modèles linguistiques plus généraux pour des tâches plus diverses ou plus ouvertes. En outre, le mécanisme de conditionnement utilisé par CTRL peut nécessiter des étapes de prétraitement supplémentaires ou des connaissances spécialisées pour être mis en place efficacement.

Le même mois que le modèle CTRL, NVIDIA a présenté MEGATRON-LM (Shoeybi et al., 2019). MEGATRON-LM est conçu pour être très efficace et évolutif, permettant aux chercheurs et aux développeurs de former des modèles de langage massifs avec des milliards de paramètres en utilisant des techniques de calcul distribué. Son architecture est similaire à celle d’autres grands modèles de langage tels que GPT-2 et BERT. Cependant, Megatron-LM utilise une combinaison de parallélisme de modèles et de parallélisme de données pour distribuer la charge de travail sur plusieurs GPU, ce qui lui permet d’entraîner des modèles comportant jusqu’à 8 milliards de paramètres. Néanmoins, l’une des limites de Megatron-LM est sa complexité et ses exigences élevées en matière de calcul, qui peuvent compliquer sa mise en place et son utilisation efficace. En outre, les techniques de calcul distribué utilisées par Megatron-LM peuvent entraîner des frais généraux et des coûts de communications supplémentaires, ce qui peut affecter le temps et l’efficacité de la formation.

Quelques mois plus tard, Hugging Face a développé un modèle appelé DistilBERT (Aurélien et al., 2019). DistilBERT est une version allégée du modèle BERT. Il a été conçu pour fournir une alternative plus efficace et plus rapide à BERT, tout en conservant un haut niveau de performance sur une variété de tâches de TAL. Le modèle est capable de réduire la taille des modèles de 40 % et d’accélérer les temps d’inférence de 60 % par rapport à BERT, sans sacrifier la précision de ses performances. DistillBERT peut donner de bons résultats dans des tâches telles que l’analyse des sentiments, la réponse aux questions et la reconnaissance des entités nommées. Cependant, DistillBERT n’est pas aussi performant que BERT dans certaines tâches de NLP. En outre, il a été pré-entraîné sur un ensemble de données plus petit que BERT, ce qui limite sa capacité à transférer ses connaissances à de nouvelles tâches et à de nouveaux domaines.

Simultanément, Facebook AI a lancé BART (Denoising Autoencoder for Regularizing Translation) en juin 2019. BART (Lewis et al., 2019) est un modèle pré-entraîné de séquence à séquence (Seq2Seq) pour la génération, la traduction et la compréhension du langage naturel. BART est un auto encodeur de débruitage qui utilise une combinaison d’objectifs de débruitage dans le pré-entraînement. Les objectifs de débruitage aident le modèle à apprendre des représentations robustes. BART présente des limites pour la traduction multilingue, ses performances peuvent être sensibles au choix des hyperparamètres, et trouver les hyperparamètres optimaux peut s’avérer difficile. Par ailleurs, l’autoencodeur de BART présente des limites, telles que le manque de capacité à modéliser les dépendances à long terme entre les variables d’entrée et de sortie.

Enfin, nous avons analysé le modèle T5 (Transfer Learning with a Unified Text-to-Text Transformer), introduit par Google AI. T5 (Raffel et al., 2020) est un modèle basé sur un transformateur de séquence à séquence. Il utilise l’objectif MSP (Masked Span Prediction) dans le pré-entraînement, qui consiste à masquer aléatoirement des portions de texte de longueur arbitraire. Par la suite, le modèle prédit les espaces masqués. Bien que le T5 ait obtenu des résultats conformes à l’état de l’art, il est conçu pour être un modèle texte-à-texte polyvalent, ce qui peut parfois donner lieu à des prédictions qui ne sont pas directement pertinentes pour une tâche spécifique ou qui ne se présentent pas dans le format souhaité. En outre, le T5 est un modèle de grande taille, qui nécessite une utilisation importante de la mémoire et prend parfois beaucoup de temps pour l’inférence.

Dans cet article, nous avons abordé les avantages et les inconvénients des dix LLM révolutionnaires qui ont émergé au cours des cinq dernières années. Nous avons également approfondi les architectures sur lesquelles ces modèles ont été construits, en mettant en évidence les contributions significatives qu’ils ont apportées à l’avancement du domaine du NLP.

Anonymisation des données sensibles par l’approche couplée du NLP et des modèles neuronaux

L’exploitation des données est plus que jamais un enjeu majeur au sein de tout type d’organisation. Plusieurs cas d’usage sont traités, de l’exploration à l’extraction d’informations pertinentes et utilisables, afin de :

  • Comprendre l’environnement d’une organisation
  • Mieux connaître ses collaborateurs
  • Améliorer ses services, produits et process (cas d’utilisation des données de la production dans un environnement de test et/ou développement)

Manipuler ces masses d’informations n’est pas sans conséquence. On y trouve des informations sensibles dont la divulgation peut porter préjudice à des personnes morales et/ou physiques. C’est pourquoi le Parlement européen a adopté en mai 2016, le Règlement Général sur la Protection des Données (RGPD) visant à encadrer le traitement des données de manière égalitaire sur tout le territoire de l’Union Européenne. Ses objectifs : renforcer les droits des personnes, responsabiliser les acteurs traitant des données et favoriser la coopération entre les autorités de protection des données. La pseudonymisation/anonymisation apparaît ainsi comme une technique indispensable en matière de protection des données personnelles et favorisant la conformité avec la réglementation.

Qu’est-ce que la Pseudonymisation et l’Anonymisation ?

L’ENISA [1] (agence de l’Union Européenne pour la cybersécurité) définit la pseudonymisation comme étant un processus de dés identification. C’est un traitement de données sensibles réalisé de manière à ce que l’on ne puisse plus identifier une personne physique de manière directe sans avoir recours à des informations supplémentaires. Alors que l’anonymisation est un processus par lequel les données à caractère personnel sont modifiées de façon irréversible de telle façon que la personne concernée ne puisse plus être identifiée, directement ou indirectement, que ce soit par le responsable du traitement seul ou en collaboration avec d’autres tiers [1].

 Lorsque l’on considère le texte suivant : « Emmanuel MACRON est le huitième Président de la Vème République française. Fondateur du mouvement « En Marche ! », créé le 6 avril 2016, il l’a dirigé jusqu’à sa première victoire à l’élection présidentielle, le 7 mai 2017. ».

On distingue trois types d’informations :

  • les entités nommées : Emmanuel MACRON, 6 avril 2016, 7 mai 2017, En Marche, huitième
  • Les mentions : Président de la Vème République française, Fondateur
  • Autres morphèmes identifiants : première victoire, l’élection présidentielle

Le tableau suivant résume le résultat attendu lorsque l’on applique ces deux techniques

Une troisième catégorie d’approche de traitement de données sensibles se dégage avec les avancées des algorithmes neuronaux sur l’exploitation du langage naturel : la pseudonymisation avancée. Cette dernière est capable de traiter une grande majorité des informations sensibles « identifiants » dans un texte. Il reste cependant des cas à la marge qui peuvent être détectés si le contexte du sujet traités est connu. C’est l’exemple du texte suivant « LinkedIn est un réseau social. En France, en 2022, LinkedIn compte plus de 25 millions de membres et 12 millions de membres actifs mensuels estimés, ce qui en fait le 6ème réseau social. » où lorsque le terme 6ème réseau social, difficilement détectable peut permettre d’identifier LinkedIn lorsque l’on fait quelques recherches sur internet.

Qu’entend-on par « données sensibles » ?

Les données sensibles sont des informations permettant d’identifier une personne physique ou morale. C’est le cas des informations suivantes lorsqu’elles sont associées à une personne physique : nom complet (nom et prénom), lieux, organisation, date de naissance, adresses (email, logement), des numéros identifiants (carte bancaire, sécurité sociale, téléphone) …. ou des informations liées à une personne morale comme, le nom de l’entreprise, son adresse, ses identifiants SIREN et SIRET, ….

Comment pseudonymiser les données ?

La CNIL [2] décrit deux types de techniques de pseudonymisation : celles qui reposent sur la création de pseudonymes relativement basiques (compteur, générateur de nombre aléatoire) et celles qui s’appuient sur les techniques cryptographiques (chiffrement à clé secrète, fonction de hachage).

Toutes ces méthodes expliquent comment les données sensibles doivent être traitées dans le cadre de la pseudonymisation. Elle n’explique pas comment les identifier. Le processus d’identification peut être simple lorsque les données sont tabulaires. Il suffit alors de supprimer ou de chiffrer le contenu des colonnes concernées.

Chez Novelis, nous travaillons sur la pseudonymisation avancée des données sensibles contenues dans des textes libres. L’identification dans ce contexte est complexe et est souvent réalisée manuellement par des humains, ce qui impose un coût en temps et en ressources humaines qualifiées. L’intelligence Artificielle (IA) et les techniques du traitement automatique du langage (NLP) sont pourtant suffisamment robustes pour automatiser cette tâche . On distinguera ainsi généralement deux types d’approches d’extraction de données sensibles : les approches neuronales et les approches basées sur des règles. Bien qu’elles fournissent d’excellents résultats, surtout avec l’apparition des Transformers (modèle d’apprentissage profond), les approches neuronales nécessitent des jeux de données importants pour être pertinentes, ce qui n’est pas toujours le cas dans le monde industriel.  Elles nécessitent par ailleurs une tâche d’annotation par des experts afin de fournir aux modèles un jeu de données de qualité pour l’entraînement. Quant aux modèles basés sur des règles, ils souffrent de problèmes de généralisation. Un modèle basé sur des règles aura en effet tendance à avoir une bonne précision sur l’échantillon servant de base d’apprentissage mais sera plus difficilement applicable à un nouveau jeu de données non étudié dans les hypothèses de départ

L’approche proposée par l’équipe R&D du laboratoire Novelis

Nous proposons une approche hybride exploitant les points fort des techniques NLP et des modèles neuronaux. Tout d’abord nous avons construit un corpus contenant des adresses, pour entraîner un modèle neuronal capable de détecter une adresse dans un texte. Un benchmarking des modèles a été effectué afin de choisir le modèle adéquat. Le modèle est ensuite amélioré grâce à une stratégie de « fine-tuning ». Combiné à des librairies python NLP, le modèle offre une solution robuste d’extraction des adresses et des entités nommées telles que les noms des personnes, les lieux et les organisations. Des motifs (expressions régulières) ont été désignés, par les experts Novelis, pour l’extraction des autres données sensibles identifiés. Enfin, des heuristiques ont été utilisées pour désambiguïser et corriger les informations extraites.

Par cette approche, nous avons construit un système fiable et robuste permettant de traiter les informations sensibles contenues dans tout type de documents (pdf, word, email, …). Le but étant de supprimer les tâches à faible valeur ajouté des responsables du traitement des données par de l’assistance automatisée.

Références :

Génération de requêtes SQL à partir du NL : un modèle Seq2Seq – Transformers Architecture

Les experts techniques de Novelis ont une fois de plus atteint un nouvel état de l’art scientifique. Découvrez notre étude SQL Generation from Natural Language: A Sequence-to-Sequence Model Powered by the Transformers Architecture and Association Rules, publiée dans le Journal of Computer Science. Cette étude est en anglais.

Merci à l’équipe de recherche de Novelis pour son savoir-faire et son expertise.

Résumé

L’utilisation du langage naturel (NL) pour interagir avec les bases de données relationnelles permet aux utilisateurs de tous niveaux d’interroger et d’analyser facilement de grandes quantités de données. Cela nécessite un système qui comprend les questions des utilisateurs et les traduit automatiquement en langages de requêtes structurés (tels que SQL). Le système Text-to-SQL le plus performant utilise l’apprentissage supervisé (généralement exprimé sous la forme d’un problème de classification) et traite cette tâche comme un problème de remplissage de cases basé sur des croquis, ou convertit d’abord le problème en une forme logique intermédiaire (ILF), puis le convertit en la requête SQL correspondante. Cependant, la modélisation non supervisée qui traduit directement le problème en requêtes SQL s’est avérée plus difficile. Dans ce sens, nous proposons une méthode pour convertir directement les questions NL en requêtes SQL.

Dans cette recherche, nous proposons un modèle d’analyse syntaxique de séquence à séquence (Seq2Seq) pour les tâches NL vers SQL, soutenu par une architecture de convertisseur qui explore deux modèles de langage (LM) : le convertisseur de transfert de texte à texte (T5). Et le convertisseur texte-texte pré-entraîné multi-langue (mT5). En outre, nous utilisons des algorithmes d’apprentissage basés sur la transformation pour mettre à jour les prédictions d’agrégation basées sur les règles d’association. Le modèle résultant met en œuvre une nouvelle technologie de pointe sur le jeu de données WikiSQL pour la génération de SQL faiblement supervisée.

A propos de l’étude

“In this study, we treat the Text-to-SQL task with WikiSQL1 (Zhong et al., 2017). This DataSet is the first large-scale dataset for Text-to-SQL, with about 80 K human-annotated pairs of Natural Language question and SQL query. WikiSQL is very challenging because tables and questions are very diverse. This DataSet contains about 24K different tables.

There are two leaderboards for the WikiSQL challenge: Weakly supervised (without using logical form during training) and supervised (with logical form during training). On the supervised challenge, there are two results: Those with Execution Guided (EG) inference and those without EG inference.”


Lire l’article complet

Journal of Computer Science – Volume 17 n° 5, 2021, 480-489 (10 pages)

Le Journal of Computer Science a pour objectif de publier des articles de recherche sur les bases théoriques de l’information et de l’informatique, ainsi que sur les technologies pratiques de mise en œuvre et d’application dans les systèmes informatiques.

Novelis classée 2ème sur le challenge de recherche international SPIDER autour du NLP

Un pas de plus vers la démocratisation de l’Intelligence Artificielle et du NLP (Natural Language Processing)

A Paris, le 25 mars 2021 – Novelis, jeune entreprise innovante de conseil et de technologie, participe actuellement à deux challenges de recherche sur la scène internationale visant à générer des requêtes SQL automatiquement grâce au langage naturel. Suite à la publication récente de ses travaux, Novelis se positionne ainsi aux côtés des leaders en Intelligence Artificielle tels que Microsoft, Salesforce, Google et bien d’autres.

Le volume de données traitées quotidiennement dans le monde n’a jamais été aussi important et ces dernières sont majoritairement rassemblées dans ce que l’on appelle des bases de données relationnelles sur lesquelles la maîtrise d’un langage de requête structurée SQL (Structured Query Language) est nécessaire pour stocker ou manipuler les données en question. L’objectif des travaux de recherches menés par Novelis visent à démocratiser l’accès à ces données en générant automatiquement ces requêtes techniquement complexes à partir du langage humain, aussi appelé traitement naturel du langage ou NLP (Natural Language Processing).

Novelis participe ainsi à 2 grands challenges internationaux : SPIDER et WikiSQL

Le challenge Spider piloté par l’Université de Yale, regroupe un ensemble de données sémantiques complexes et inter-domaines à grande échelle et de requêtes SQL. L’objectif de Spider est la transformation du texte naturel en anglais vers des requêtes SQL exécutables (cette tâche est connue par son nom anglais “Text-to-SQL task”). Ce challenge se compose de 10 181 questions, 5 693 requêtes SQL complexes uniques sur 200 bases de données avec plusieurs tables couvrant 138 domaines différents. Suite à la publication de ses travaux et au moment de la publication de cet article, Novelis se place au 2ème rang mondial, aux côtés de Salesforce, à seulement 2.9 points d’écart du premier (Tel-Aviv University & Allen Institute for AI). Il faut savoir que ce type de challenge est évolutif et que les résultats peuvent changer. En savoir plus et découvrir les résultats : Spider: Yale Semantic Parsing and Text-to-SQL Challenge (yale-lily.github.io)

L’objectif du challenge WikiSQL est le même que pour Spider mais avec des contraintes et des contextes différents. On ne va traiter ici qu’une seule table à partir de modèles avec apprentissages non-supervisés (où la machine opère de façon indépendante) ou avec apprentissages supervisés (où la machine se base sur des annotations dont elle génère des prédictions). Des entreprises leaders en Intelligence Artificielle et NLP participent à ce challenge aux côtés des plus grandes universités  Microsoft, Google, Alibaba et Salesforce, les universités de California, Berkeley, Fudan… Dans le cadre de ses travaux, Novelis a réalisé un modèle d’apprentissage hybride qui la positionne à la 7ème place du classement sur 31 travaux scientifiques. En savoir plus et découvrir les résultats : GitHub – salesforce/WikiSQL: A large annotated semantic parsing corpus for developing natural language interfaces.

Novelis a fait de l’innovation et de la R&D une priorité stratégique dans son développement

Depuis sa création, Novelis a fait le choix d’investir massivement (30% de son chiffre d’affaires) dans la recherche et le développement. Pour Mehdi Nafe, CEO de Novelis « Au-delà des impacts sur la recherche fondamentale, notre volonté est de faire évoluer le modèle de conception des logiciels pour atteindre l’excellence opérationnelle, changer le rapport aux technologies et impacter durablement les processus d’innovation dans la société. Les avancées majeures de ces dernières années autour de la data science, de l’IA ou plus récemment du NLP, offrent un potentiel immense en termes d’usages et d’optimisation des processus métier. La création d’un Laboratoire de R&D est l’un des actes fondateurs de Novelis. En tant que société technologique, s’engager dans la recherche est pour nous un élément clé et nécessaire pour mieux servir nos clients. »

NL2Code : Un corpus et un parseur sémantique pour le passage du langage naturel au code

Découvrez notre article de conférence NL2Code : A Corpus and Semantic Parser for Natural Language to Code – Conférence internationale sur les technologies intelligentes de l’information et de la communication – Lecture Notes in Electrical Engineering, publié dans Springer Link. Cette étude est en anglais.

Merci à l’équipe de recherche de Novelis pour son savoir-faire et son expertise.

 

Résumé

Dans cette étude, nous présentons une nouvelle méthode d’analyse sémantique et de données permettant la génération automatique de code source à partir de spécifications et de descriptions écrites en langage naturel (NL2Code). Notre objectif à long terme est de permettre à tout utilisateur de créer une application à partir d’une spécification décrivant le besoin d’un système complet. Cela implique la réalisation d’une étude, la conception et l’implémentation d’un système intelligent permettant la génération automatique d’un projet informatique en répondant aux besoins de l’utilisateur (squelette, configuration, scripts d’initialisation, …) exprimés en langage naturel. Nous faisons un premier pas dans ce domaine en fournissant un nouveau jeu de données spécifique à notre entreprise Novelis et en mettant en place une approche permettant à la machine de comprendre le besoin de l’utilisateur, exprimé en langage naturel dans un domaine spécifique.

 

A propos de l’étude

“The dream of using Frensh or any other natural language to generate a code in a specific programming language has existed for almost as long as the task of programming itself. Although significantly less precise than a formal language, natural language as a programming medium would be universally accessible and would support the automation of an application. However, the diversity and ambiguity of the texts, the compositional nature of the code and the layered abstractions in the software make it difficult to generate this code from functional specifications (natural language). The use of artificial intelligence offers interesting potential for supporting new tools in almost all areas of software engineering and program analysis. This work presents new data and semantic parsing method on a novel and ambitious domain — the program synthesis. Our long-term goal is to enable any user to generate complete web applications frontend / backend based on Java / JEE technology and which respect a n-tier architecture (multilayer). For that, we take a first step in this direction by providing a dataset (Corpus) proposed by the company Novelis based on the dataset that contains questions / answers of the Java language of the various topics of the website ”Stack OverFlow” with a new semantic parsing method.”

Lire l’article complet

 Lecture Notes in Electrical Engineering (LNEE, volume 684)

SpringerLink fournit aux chercheurs l’accès à des millions de documents scientifiques provenant de revues, livres, séries, protocoles et ouvrages de référence.

Docteur en IA/ML/NLP – H/F

Lab R&D – CDI – Paris – Doctorat

Novelis présent à l’Ecole Polytechnique Féminine pour sa Journée Recherche

Journée Recherche à l’EPF : organisée depuis 20 ans, cette journée est dédiée à la recherche et à l’innovation.

C’est à l’occasion de la Journée Recherche de l’EPF que Novelis se rendra dans les locaux de l’école pour animer une table ronde sur l’innovation dans le numérique. A la suite de cette présentation, les élèves pourront rencontrer notre équipe sur son stand et en savoir davantage sur les travaux du Laboratoire de recherche et développement interne de Novelis en échangeant directement avec les membres de l’équipe recherche et de l’équipe recrutement.

Chez Novelis nous souhaitons véritablement utiliser les nouvelles technologies pour accéder aux besoins métiers de nos clients et ainsi leur proposer des solutions adaptées pour les accompagner dans leur transformation digitale.
Et c’est au travers de notre Lab R&D, dans lequel nous investissons plus de 25% de notre chiffre d’affaires, que cela se traduit. Nos chercheurs docteurs travaillent au quotidien sur la recherche fondamentale et expérimentale autour de l’IA (machine learning, traitement d’image et NLP) avec pour objectif de dépasser l’état de l’art en matière d’IA et de NLP.

Nous sommes très fiers de contribuer à la construction de notre futur en investissant dans la recherche scientifique, c’est pourquoi nous sommes ravis de pouvoir partager le fruit de nos travaux avec les élèves de l’école d’ingénieurs EPF.