GPT-3.5 vs GPT-4 : évaluation des performances de raisonnement de ChatGPT dans le cadre de l’apprentissage à partir de zéro

Découvrez la première version de notre publication scientifique « GPT-3.5 vs GPT-4: Evaluating ChatGPT’s Reasoning Performance in Zero-shot Learning » publié dans arxiv, plateforme largement reconnue pour le partage de préprints et d’articles scientifiques. Cet article rédigé en anglais fait actuellement l’objet d’un processus de révision rigoureux.

Merci à l’équipe de recherche de Novelis – notamment Jessica López Espejel, Mahaman Sanoussi Yahaya Alassan, El Mehdi Chouham, El Hassane Ettifouri, Walid Dahhane – pour son savoir-faire et son expertise.

A propos

“Large Language Models (LLMs) have exhibited remarkable performance on various Natural Language Processing (NLP) tasks. However, there is a current hot debate regarding their reasoning capacity. In this paper, we examine the performance of GPT-3.5 and GPT-4 models, by performing a thorough technical evaluation on different reasoning tasks across eleven distinct datasets. Our findings show that GPT-4 outperforms GPT-3.5 in zero-shot learning throughout almost all evaluated tasks. In addition, we note that both models exhibit limited performance in Inductive, Mathematical, and Multi-hop Reasoning Tasks. While it may seem intuitive that the GPT-4 model would outperform GPT-3.5 given its size and efficiency in various NLP tasks, our paper offers empirical evidence to support this claim. We provide a detailed and comprehensive analysis of the results from both models to further support our findings. In addition, we propose a set of engineered prompts that improves performance of both models on zero-shot learning.”

arXiv est une archive ouverte de prépublications électroniques d’articles scientifiques dans différents domaines techniques, tels que la physique, les mathématiques, l’informatique et bien plus encore, gratuitement accessible par Internet.

L’université Cornell est une université privée américaine située principalement dans la ville d’Ithaca dans l’État de New York.

10 premiers grands modèles de langage qui ont transformé le NLP au cours des 5 dernières années

GPT-4, publié par OpenAI en 2023, est le modèle de langage qui détient l’un des plus grands réseaux neuronal jamais créé, bien au-delà des modèles de langage qui l’ont précédé. Il est également le plus récent des grands modèles multimodaux capables de traiter des images et des textes en entrée et de produire des textes en sortie. Non seulement GPT-4 surpasse les modèles existants par une marge considérable en anglais, mais il fait également preuve d’une grande performance dans d’autres langues. GPT-4 est un modèle encore plus puissant et sophistiqué que GPT-3.5, montrant des performances inégalées dans de nombreuses tâches de NLP (traitement du langage naturel), y compris la traduction et les questions-réponses.

Dans cet article, nous présentons dix grands modèles de langage (LLM) ayant eu un impact significatif sur l’évolution du NLP ces dernières années. Ces modèles ont été spécialement conçus pour s’attaquer à diverses tâches dans le domaine du traitement du langage naturel (NLP), telles que la réponse aux questions, le résumé automatique, la génération de texte à partir de code, etc. Pour chaque modèle, vous trouverez un aperçu de ses forces et faiblesses par rapport aux autres modèles de sa catégorie.

Un modèle LLM (Large Language Model) est entraîné sur un grand corpus de données textuelles et est conçu pour générer du texte comme le ferait un humain. L’émergence des LLM tels que GPT-1 (Radford et al., 2018) et BERT (Devlin et al., 2018) a représenté une percée dans le domaine de l’intelligence artificielle.

Le premier LLM, développé par OpenAI, est le GPT-1 (Generative Pretrained Transformer) en 2018 (Radford et al., 2018). Il est basé sur le réseau neuronal Transformer (Vaswani et al., 2017) et comporte 12 couches et 768 unités cachées par couche. Le modèle a été entraîné à prédire le l’élément suivant d’une séquence, compte tenu du contexte des éléments précédents. Le GPT-1 est capable d’effectuer un large éventail de tâches linguistiques, notamment de répondre à des questions, de traduire des textes et de produire des écrits créatifs. Étant donné qu’il s’agit du premier LLM, le GPT-1 présente certaines limites, par exemple :

  1. Risque de biais : le GPT-1 est entraîné sur un vaste corpus de données textuelles, ce qui peut introduire des biais dans le modèle ;
  2. Manque de « bon sens » : en étant formé à partir de textes il a des difficultés à lier les connaissances à une forme de compréhension ;
  3. Interprétabilité limitée : étant donné qu’il a des millions de paramètres, il est difficile d’interpréter la façon dont il prend des décisions et pourquoi il génère certains résultats.

La même année que GPT-1, Google IA a introduit BERT (Bidirectional Encoder Representations from Transformers). Contrairement à GPT-1, BERT (Devlin et al., 2018) s’est concentré sur le pré-entraînement du modèle à partir d’une une tâche de modélisation du langage masqué, où le modèle a été entraîné à prédire les mots manquants dans une phrase compte tenu du contexte. Cette approche a permis à BERT d’apprendre des représentations contextuelles riches des mots, ce qui a conduit à une amélioration des performances sur une gamme de tâches NLP, telles que l’analyse des sentiments et la reconnaissance des entités nommées. BERT partage avec GPT-1 certaines limitations, par exemple, l’absence de connaissances de sens commun sur le monde, et la limitation de l’interprétabilité pour savoir comment il prend des décisions et la raison le poussant à générer certains résultats. En outre, BERT n’utilise qu’un contexte limité pour faire des prédictions, ce qui peut donner lieu à des résultats inattendus ou absurdes lorsque le modèle est confronté à des informations nouvelles ou non conventionnelles.

Au début de l’année 2019,  le troisième LLM introduit par OpenAI, connu sous le nom de GPT-2 (Generative Pretrained Transformer 2) est apparu. GPT-2 (Radford et al., 2019) a été conçu pour générer des textes cohérents et de type humain en prédisant le mot suivant dans une phrase en fonction des mots précédents. Son architecture est basée sur un réseau neuronal transformateur, similaire à son prédécesseur GPT-1, qui utilise l’auto-attention pour traiter les séquences d’entrée. Cependant, GPT-2 est un modèle beaucoup plus large que GPT-1, avec 1,5 milliard de paramètres par rapport aux 117 millions de paramètres de GPT-1. Cette taille accrue permet à GPT-2 de générer des textes de meilleure qualité et d’obtenir des résultats améliorés dans un large éventail de tâches de traitement du langage naturel. En outre, le GPT-2 peut effectuer un plus grand nombre de tâches, telles que le résumé, la traduction et la complétion de texte, par rapport à GPT-1. Cependant, l’une des limites de GPT-2 réside dans ses exigences en matière de ressources pour le calcul, ce qui peut rendre difficile sa formation et son déploiement sur certains matériels. En outre, certains chercheurs se sont inquiétés de l’utilisation potentiellement abusive du GPT-2 pour générer des fausses nouvelles ou des informations trompeuses, ce qui a conduit l’OpenAI à limiter sa diffusion dans un premier temps.

GPT-2 a été suivi par d’autres modèles tels que XLNet et RoBERTa. XLNet (Generalized Autoregressive Pretraining for Language Understanding) a été introduit par Google IA. XLNet (Yang et al., 2019) est une variante de l’architecture basée sur Transformer. XLNet est différent des modèles traditionnels.

Transformer, tels que BERT et RoBERTa, utilise une méthode d’apprentissage basée sur la permutation qui permet au modèle de prendre en compte tous les ordres de mots possibles dans une séquence, plutôt qu’un ordre fixe de gauche à droite ou de droite à gauche. Cette approche permet d’améliorer les performances dans les tâches de NLP telles que la classification des textes, la réponse aux questions et l’analyse des sentiments. Ce modèle a obtenu des résultats de pointe sur des ensembles de données de référence en matière de NLP, mais, comme tout autre modèle, il présente certaines limites. Par exemple, son algorithme d’apprentissage est complexe (il utilise un algorithme d’apprentissage basé sur la permutation) et il a besoin d’une grande quantité de données d’apprentissage diversifiées et de haute qualité pour obtenir de bons résultats.

Simultanément, RoBERTa (Robustly Optimized BERT Pretraining Approach) a également été introduit en 2019, mais par Facebook AI. RoBERTa (Liu et al., 2019) améliore BERT en s’entraînant sur un plus grand corpus de données, un masquage dynamique, et en s’entraînant avec la phrase entière, plutôt qu’avec les seuls tokens masqués. Ces modifications conduisent à une amélioration des performances sur un large éventail de tâches NLP, telles que la réponse aux questions, l’analyse des sentiments et la classification des textes. RoBERTa est un LLM très performant, mais il présente également certaines limites. Par exemple, comme RoBERTa a un grand nombre de paramètres, l’inférence peut être lente ; le modèle est plus performant en anglais, mais il n’a pas les mêmes performances dans d’autres langues.

Quelques mois plus tard, l’équipe de recherche de Salesforce a publié CTRL (Conditional Transformer Language Model). CTRL (Keskar et al., 2019) est conçu pour générer du texte conditionné par des sujets spécifiques, ce qui lui permet de générer un texte cohérent et pertinent pour des tâches ou des domaines spécifiques. CTRL est basé sur un réseau neuronal transformateur, similaire à d’autres grands modèles de langage tels que GPT-2 et BERT. Cependant, il comprend également un nouveau mécanisme de conditionnement, qui permet au modèle d’être finement ajusté pour des tâches ou des domaines spécifiques. L’un des avantages de CTRL est sa capacité à générer des textes hautement pertinents et cohérents pour des tâches ou des domaines spécifiques, grâce à son mécanisme de conditionnement. Cependant, l’une de ses limites est qu’il peut ne pas être aussi performant que des modèles linguistiques plus généraux pour des tâches plus diverses ou plus ouvertes. En outre, le mécanisme de conditionnement utilisé par CTRL peut nécessiter des étapes de prétraitement supplémentaires ou des connaissances spécialisées pour être mis en place efficacement.

Le même mois que le modèle CTRL, NVIDIA a présenté MEGATRON-LM (Shoeybi et al., 2019). MEGATRON-LM est conçu pour être très efficace et évolutif, permettant aux chercheurs et aux développeurs de former des modèles de langage massifs avec des milliards de paramètres en utilisant des techniques de calcul distribué. Son architecture est similaire à celle d’autres grands modèles de langage tels que GPT-2 et BERT. Cependant, Megatron-LM utilise une combinaison de parallélisme de modèles et de parallélisme de données pour distribuer la charge de travail sur plusieurs GPU, ce qui lui permet d’entraîner des modèles comportant jusqu’à 8 milliards de paramètres. Néanmoins, l’une des limites de Megatron-LM est sa complexité et ses exigences élevées en matière de calcul, qui peuvent compliquer sa mise en place et son utilisation efficace. En outre, les techniques de calcul distribué utilisées par Megatron-LM peuvent entraîner des frais généraux et des coûts de communications supplémentaires, ce qui peut affecter le temps et l’efficacité de la formation.

Quelques mois plus tard, Hugging Face a développé un modèle appelé DistilBERT (Aurélien et al., 2019). DistilBERT est une version allégée du modèle BERT. Il a été conçu pour fournir une alternative plus efficace et plus rapide à BERT, tout en conservant un haut niveau de performance sur une variété de tâches de TAL. Le modèle est capable de réduire la taille des modèles de 40 % et d’accélérer les temps d’inférence de 60 % par rapport à BERT, sans sacrifier la précision de ses performances. DistillBERT peut donner de bons résultats dans des tâches telles que l’analyse des sentiments, la réponse aux questions et la reconnaissance des entités nommées. Cependant, DistillBERT n’est pas aussi performant que BERT dans certaines tâches de NLP. En outre, il a été pré-entraîné sur un ensemble de données plus petit que BERT, ce qui limite sa capacité à transférer ses connaissances à de nouvelles tâches et à de nouveaux domaines.

Simultanément, Facebook AI a lancé BART (Denoising Autoencoder for Regularizing Translation) en juin 2019. BART (Lewis et al., 2019) est un modèle pré-entraîné de séquence à séquence (Seq2Seq) pour la génération, la traduction et la compréhension du langage naturel. BART est un auto encodeur de débruitage qui utilise une combinaison d’objectifs de débruitage dans le pré-entraînement. Les objectifs de débruitage aident le modèle à apprendre des représentations robustes. BART présente des limites pour la traduction multilingue, ses performances peuvent être sensibles au choix des hyperparamètres, et trouver les hyperparamètres optimaux peut s’avérer difficile. Par ailleurs, l’autoencodeur de BART présente des limites, telles que le manque de capacité à modéliser les dépendances à long terme entre les variables d’entrée et de sortie.

Enfin, nous avons analysé le modèle T5 (Transfer Learning with a Unified Text-to-Text Transformer), introduit par Google AI. T5 (Raffel et al., 2020) est un modèle basé sur un transformateur de séquence à séquence. Il utilise l’objectif MSP (Masked Span Prediction) dans le pré-entraînement, qui consiste à masquer aléatoirement des portions de texte de longueur arbitraire. Par la suite, le modèle prédit les espaces masqués. Bien que le T5 ait obtenu des résultats conformes à l’état de l’art, il est conçu pour être un modèle texte-à-texte polyvalent, ce qui peut parfois donner lieu à des prédictions qui ne sont pas directement pertinentes pour une tâche spécifique ou qui ne se présentent pas dans le format souhaité. En outre, le T5 est un modèle de grande taille, qui nécessite une utilisation importante de la mémoire et prend parfois beaucoup de temps pour l’inférence.

Dans cet article, nous avons abordé les avantages et les inconvénients des dix LLM révolutionnaires qui ont émergé au cours des cinq dernières années. Nous avons également approfondi les architectures sur lesquelles ces modèles ont été construits, en mettant en évidence les contributions significatives qu’ils ont apportées à l’avancement du domaine du NLP.

Novelis a développé un connecteur ChatGPT pour SS&C Blue Prism 

Avec l’avancée rapide de la technologie, les entreprises cherchent constamment à rationaliser leurs processus et à minimiser les ressources et le temps nécessaires pour les tâches répétitives. L’automatisation des processus robotiques (RPA) est devenue une solution populaire pour aider à atteindre ces objectifs, et Novelis, une entreprise leader dans l’intégration de systèmes, a développé un connecteur ChatGPT qui améliore considérablement les capacités des logiciels RPA, en particulier SS&C Blue Prism. 

Comment le connecteur ChatGPT améliore-t-il SS&C Blue Prism ? 

Le connecteur ChatGPT, une technologie de pointe développée par Novelis, offre à SS&C Blue Prism la possibilité d’interagir avec ChatGPT et d’utiliser ses capacités avancées de traitement du langage naturel. Avec cette intégration, SS&C Blue Prism peut automatiser des processus plus complexes qui nécessitent des interactions basées sur le langage, telles que le service client ou l’analyse de données. En exploitant la puissance de ChatGPT, SS&C Blue Prism peut fournir des réponses plus rapides et plus précises aux demandes des clients, ce qui entraîne une plus grande satisfaction des clients et de meilleurs résultats commerciaux. Cette solution innovante permet à SS&C Blue Prism de rester à la pointe dans le paysage en évolution rapide de la technologie d’automatisation. 

Use Cases et Usages 

Il existe de nombreux use cases pour le connecteur ChatGPT dans SS&C Blue Prism, notamment : 

  1. Service client : Avec le connecteur ChatGPT, SS&C Blue Prism peut automatiser les interactions de service client en comprenant le langage naturel et en répondant de manière appropriée. Cela peut réduire considérablement la charge de travail des agents de service client, leur permettant de se concentrer sur des demandes plus complexes. 
  2. Analyse de données : ChatGPT peut analyser des données non structurées telles que les commentaires des clients, les publications sur les réseaux sociaux ou les avis, et fournir des informations qui peuvent être utilisées pour améliorer les processus métier. SS&C Blue Prism peut utiliser le connecteur ChatGPT pour automatiser l’analyse de ces données, fournissant des informations précieuses en temps réel. 
  3. Automatisation des flux de travail : Blue Prism peut utiliser le connecteur ChatGPT pour automatiser des flux de travail complexes qui nécessitent des interactions basées sur le langage, telles que le traitement de documents ou la gestion de contrats. Cela peut réduire considérablement le temps et les ressources nécessaires pour ces processus, améliorant ainsi l’efficacité et la productivité. 

Le connecteur ChatGPT développé par Novelis est un outil précieux pour les entreprises qui utilisent SS&C Blue Prism pour automatiser leurs processus. En donnant à SS&C Blue Prism un accès aux capacités avancées de traitement du langage naturel, les entreprises peuvent rationaliser leurs flux de travail et améliorer leur efficacité. Que ce soit pour automatiser les interactions de service client, analyser des données non structurées ou rationaliser des flux de travail complexes, le connecteur ChatGPT est un outil puissant pour les entreprises cherchant à accroître l’automatisation et à réduire la charge de travail. 

À propos de SS&C Blue Prism 

SS&C Blue Prism est le leader mondial de l’automatisation intelligente pour les entreprises, transformant la manière dont le travail est effectué. SS&C Blue Prism compte des utilisateurs dans plus de 170 pays et plus de 1 800 entreprises, y compris des entreprises du Fortune 500 et des organisations du secteur public, qui créent de la valeur grâce à de nouvelles façons de travailler, déverrouillant des efficacités et retournant des millions d’heures de travail dans leurs entreprises. Leur force de travail numérique intelligente est intelligente, sécurisée, évolutive et accessible à tous ; libérant les humains pour réinventer le travail. 

À propos de ChatGPT 

ChatGPT est un modèle de langage développé par OpenAI. L’objectif est de fournir une assistance de qualité en répondant aux questions et en générant des réponses semblables à celles des humains pour faciliter la communication et l’échange d’informations. ChatGPT a été formé sur un vaste corpus de données textuelles et a la capacité de comprendre et de répondre à un large éventail de sujets et de sujets.