Génération de requêtes SQL à partir du NL : un modèle Seq2Seq – Transformers Architecture

Les experts techniques de Novelis ont une fois de plus atteint un nouvel état de l’art scientifique. Découvrez notre étude SQL Generation from Natural Language: A Sequence-to-Sequence Model Powered by the Transformers Architecture and Association Rules, publiée dans le Journal of Computer Science. Cette étude est en anglais.

Merci à l’équipe de recherche de Novelis pour son savoir-faire et son expertise.

Résumé

L’utilisation du langage naturel (NL) pour interagir avec les bases de données relationnelles permet aux utilisateurs de tous niveaux d’interroger et d’analyser facilement de grandes quantités de données. Cela nécessite un système qui comprend les questions des utilisateurs et les traduit automatiquement en langages de requêtes structurés (tels que SQL). Le système Text-to-SQL le plus performant utilise l’apprentissage supervisé (généralement exprimé sous la forme d’un problème de classification) et traite cette tâche comme un problème de remplissage de cases basé sur des croquis, ou convertit d’abord le problème en une forme logique intermédiaire (ILF), puis le convertit en la requête SQL correspondante. Cependant, la modélisation non supervisée qui traduit directement le problème en requêtes SQL s’est avérée plus difficile. Dans ce sens, nous proposons une méthode pour convertir directement les questions NL en requêtes SQL.

Dans cette recherche, nous proposons un modèle d’analyse syntaxique de séquence à séquence (Seq2Seq) pour les tâches NL vers SQL, soutenu par une architecture de convertisseur qui explore deux modèles de langage (LM) : le convertisseur de transfert de texte à texte (T5). Et le convertisseur texte-texte pré-entraîné multi-langue (mT5). En outre, nous utilisons des algorithmes d’apprentissage basés sur la transformation pour mettre à jour les prédictions d’agrégation basées sur les règles d’association. Le modèle résultant met en œuvre une nouvelle technologie de pointe sur le jeu de données WikiSQL pour la génération de SQL faiblement supervisée.

A propos de l’étude

“In this study, we treat the Text-to-SQL task with WikiSQL1 (Zhong et al., 2017). This DataSet is the first large-scale dataset for Text-to-SQL, with about 80 K human-annotated pairs of Natural Language question and SQL query. WikiSQL is very challenging because tables and questions are very diverse. This DataSet contains about 24K different tables.

There are two leaderboards for the WikiSQL challenge: Weakly supervised (without using logical form during training) and supervised (with logical form during training). On the supervised challenge, there are two results: Those with Execution Guided (EG) inference and those without EG inference.”


Lire l’article complet

Journal of Computer Science – Volume 17 n° 5, 2021, 480-489 (10 pages)

Le Journal of Computer Science a pour objectif de publier des articles de recherche sur les bases théoriques de l’information et de l’informatique, ainsi que sur les technologies pratiques de mise en œuvre et d’application dans les systèmes informatiques.

Réseaux neuronaux artificiels pour les tâches de conversion de texte en langage SQL : État de l’art

Découvrez notre article de conférence Artificial Neural Networks for Text-to-SQL task: state of the art – Conférence internationale sur les technologies intelligentes de l’information et de la communication – Lecture Notes in Electrical Engineering, publié dans Springer Link. Cette étude est en anglais.

Merci à l’équipe de recherche de Novelis pour son savoir-faire et son expertise.

 

Résumé

Les bases de données stockent une quantité importante de données provenant du monde entier. Toutefois, pour accéder à ces données, les utilisateurs doivent comprendre un langage d’interrogation tel que SQL. Afin de faciliter cette tâche et de rendre l’interaction avec les bases de données possible pour le monde entier, des recherches sont récemment apparues pour approcher des systèmes qui comprennent les questions en langage naturel et les convertissent automatiquement en requêtes SQL. L’objectif de cet article est de fournir l’état de l’art de la tâche text-to-SQL dans lequel nous présentons les principaux modèles et solutions existants basés sur les réseaux de neurones artificiels (ANN), précisément sur le Deep Learning (DL) et le traitement du langage naturel (NLP). Nous précisons également les paramètres expérimentaux de chaque approche, leurs limites ainsi qu’une comparaison des meilleures existantes.

 

A propos de l’étude

“Text-to-SQL task is one of the most important subtask of semantic parsing in natural language processing (NLP). It maps natural language sentences to corresponding SQL queries. In recent years, some state-of-the-art methods with Seq2Seq encoder-decoder architectures (Ilya Sutskever, Oriol Vinyals, Quoc V. Le 2014) [1] are able to obtain more than 80% exact matching accuracy on some complex text-to-SQL benchmarks such as Atis (Price, 1990; Dahl and al., 1994) [2], GeoQuery (Zelle and Mooney, 1996) [3], Restaurants (Tang and Mooney, 2000; Popescu and al., 2003) [4], Scholar (Iyer and al., 2017) [5], Academic (Li and Jagadish, 2014) [6], Yelp (Yaghmazadeh and al., 2017) [7] and WikiSQL (Zhong and al., 2017) [8].These models seem to have already solved most problems in this area. However, as (Finegan-Dollak et al., 2018) [9] show, because of the problematic task definition in the traditional datasets, most of these mod- els just learn to match semantic parsing results, rather than truly learn to understand the meanings of inputs and generalize to new programs and databases, which led to low precisions on more generic dataset as the case of Spider (YU, Tao, ZHANG, Rui, YANG, Kai, and al. 2018) [10].”

Lire l’article complet

Lecture Notes in Electrical Engineering (LNEE, volume 684)

SpringerLink fournit aux chercheurs l’accès à des millions de documents scientifiques provenant de revues, livres, séries, protocoles et ouvrages de référence.

Génération de SQL à partir du langage naturel à l’aide de l’apprentissage supervisé et des réseaux neuronaux récurrents

Découvrez notre article de conférence SQL Generation from Natural Language Using Supervised Learning and Recurrent Neural Networks – Conférence internationale sur l’intelligence artificielle et les applications industrielles – Lecture Notes in Networks and Systems, publié dans Springer Link. Cette étude est en anglais.

Merci à l’équipe de recherche de Novelis pour son savoir-faire et son expertise.

 

Résumé

Les bases de données stockent une grande quantité de données et d’informations d’aujourd’hui, et pour accéder à ces données, les utilisateurs doivent maîtriser le langage SQL ou un langage d’interface équivalent. Par conséquent, l’utilisation d’un système capable de convertir une requête en langage naturel en requête SQL équivalente rendrait les données plus accessibles (SQL generation). Dans ce sens, la construction d’interfaces en langage naturel pour les bases de données relationnelles est un problème important et difficile dans le traitement du langage naturel (NLP) et un domaine largement étudié, qui a trouvé récemment un nouvel élan en raison de l’introduction d’ensembles de données à grande échelle. Dans cet article, nous présentons notre approche basée sur l’intégration de mots et les réseaux neuronaux récurrents (RNN), plus précisément sur les cellules de mémoire à long terme (LSTM) et les unités récurrentes à déclenchement (GRU). Nous présentons également le jeu de données utilisé pour l’entraînement et le test de nos modèles, basé sur WikiSQL, et enfin nous montrons où nous sommes arrivés en termes de précision.

 

A propos de l’étude

“Vast amount of today’s information is stored in relational database and provide the foundation of applications such as medical records [1], financial markets [2], and cus- tomer relations management [3]. However, accessing relational databases requires an understanding of query languages such as SQL, which, while powerful, is difficult to master for non-technical users. Even for an expert, writing SQL queries can be chal- lenging, as it requires knowing the exact schema of the database and the roles of various entities in the query. Hence, researches has recently appeared to approach systems that map natural language to SQL query, and a long-standing goal has been to allow users to interact with the database through natural language [4,5]. We refer to this task as Text-to-SQL.”

Lire l’article complet

Lecture Notes in Networks and Systems (LNNS, volume 144)

SpringerLink fournit aux chercheurs l’accès à des millions de documents scientifiques provenant de revues, livres, séries, protocoles et ouvrages de référence.

Text2SQLNet: Syntax Type-Aware Tree Networks pour la conversion de texte en SQL

Découvrez notre article de conférence Text2SQLNet : Syntax Type-Aware Tree Networks for Text-to-SQL – Conférence internationale Europe Moyen-Orient & Afrique du Nord Systèmes d’information et technologies pour soutenir l’apprentissage –  Learning and Analytics in Intelligent Systems, publié dans Springer Link. Cette étude est en anglais.

Merci à l’équipe de recherche de Novelis pour son savoir-faire et son expertise.

Résumé

La construction d’interfaces en langage naturel avec des bases de données relationnelles est un challenge important dans le domaine du traitement du langage naturel (NLP). Elle nécessite un système capable de comprendre les questions en langage naturel et de générer les requêtes SQL correspondantes. Dans cet article, nous présentons notre idée d’utiliser les informations de type et le contenu de la base de données pour mieux comprendre les entités rares et les nombres dans les questions en langage naturel, afin d’améliorer le modèle SyntaxSQLNet qui est l’état de l’art dans la tâche Text-to-SQL. Nous présentons également l’architecture globale et les techniques qui peuvent être utilisées dans la mise en œuvre de notre modèle de réseau neuronal (NN) Text2SQLNet, avec l’intégration de notre idée qui consiste à utiliser les informations sur les types pour mieux comprendre les entités rares et les nombres dans les questions en langage naturel. Nous pouvons également utiliser le contenu de la base de données pour mieux comprendre la requête de l’utilisateur si elle n’est pas bien formée. L’implémentation de cette idée peut encore améliorer les performances de la tâche Text-to-SQL.

A propos de l’étude

“Relational databases store a vast amount of today’s information and provide the foundation of applications such as medical records (Hillestad et al., 2005)[1], financial markets (Beck and al., 2000)[2], and customer relations management (Ngai et al., 2009)[3]. However, accessing relational databases requires an understanding of query languages such as SQL, which, while powerful, is difficult to master. Natural language interfaces (NLI), a research area at the intersection of natural language processing and human- computer interactions, seeks to provide means for humans to interact with computers through the use of natural language (Androutsopoulos et al., 1995)[4]. Natural language always contains ambiguities, each user can express himself in his own way.”

Lire l’article complet

Learning and Analytics in Intelligent Systems (LAIS, volume 7)

SpringerLink fournit aux chercheurs l’accès à des millions de documents scientifiques provenant de revues, livres, séries, protocoles et ouvrages de référence.