Les experts techniques de Novelis ont une fois de plus atteint un nouvel état de l’art scientifique. Découvrez notre étude SQL Generation from Natural Language: A Sequence-to-Sequence Model Powered by the Transformers Architecture and Association Rules, publiée dans le Journal of Computer Science. Cette étude est en anglais.
Merci à l’équipe de recherche de Novelis pour son savoir-faire et son expertise.
L’utilisation du langage naturel (NL) pour interagir avec les bases de données relationnelles permet aux utilisateurs de tous niveaux d’interroger et d’analyser facilement de grandes quantités de données. Cela nécessite un système qui comprend les questions des utilisateurs et les traduit automatiquement en langages de requêtes structurés (tels que SQL). Le système Text-to-SQL le plus performant utilise l’apprentissage supervisé (généralement exprimé sous la forme d’un problème de classification) et traite cette tâche comme un problème de remplissage de cases basé sur des croquis, ou convertit d’abord le problème en une forme logique intermédiaire (ILF), puis le convertit en la requête SQL correspondante. Cependant, la modélisation non supervisée qui traduit directement le problème en requêtes SQL s’est avérée plus difficile. Dans ce sens, nous proposons une méthode pour convertir directement les questions NL en requêtes SQL.
Dans cette recherche, nous proposons un modèle d’analyse syntaxique de séquence à séquence (Seq2Seq) pour les tâches NL vers SQL, soutenu par une architecture de convertisseur qui explore deux modèles de langage (LM) : le convertisseur de transfert de texte à texte (T5). Et le convertisseur texte-texte pré-entraîné multi-langue (mT5). En outre, nous utilisons des algorithmes d’apprentissage basés sur la transformation pour mettre à jour les prédictions d’agrégation basées sur les règles d’association. Le modèle résultant met en œuvre une nouvelle technologie de pointe sur le jeu de données WikiSQL pour la génération de SQL faiblement supervisée.
“In this study, we treat the Text-to-SQL task with WikiSQL1 (Zhong et al., 2017). This DataSet is the first large-scale dataset for Text-to-SQL, with about 80 K human-annotated pairs of Natural Language question and SQL query. WikiSQL is very challenging because tables and questions are very diverse. This DataSet contains about 24K different tables.
There are two leaderboards for the WikiSQL challenge: Weakly supervised (without using logical form during training) and supervised (with logical form during training). On the supervised challenge, there are two results: Those with Execution Guided (EG) inference and those without EG inference.”
Journal of Computer Science – Volume 17 n° 5, 2021, 480-489 (10 pages)
Le Journal of Computer Science a pour objectif de publier des articles de recherche sur les bases théoriques de l’information et de l’informatique, ainsi que sur les technologies pratiques de mise en œuvre et d’application dans les systèmes informatiques.