OpenAI a annoncé la sortie de son dernier grand modèle de langage, GPT-4. Ce modèle est un grand modèle multimodal qui peut accepter à la fois des entrées d'image et de texte et générer des sorties de texte.
La sortie récente de GPT-4 marque une étape importante dans le domaine de l'intelligence artificielle, en particulier dans le traitement du langage naturel. Dans cet article, nous proposons une analyse approfondie de ses capacités avancées et plongeons dans l'histoire et le développement des transformateurs pré-formés génératifs (GPT), et quelles nouvelles capacités débloquent GPT-4.
Que sont les transformateurs pré-formés génératifs ?
Les transformateurs pré-formés génératifs (GPT) sont un type de modèle d'apprentissage en profondeur utilisé pour générer du texte de type humain. Les utilisations courantes incluent
- répondre à des questions
- texte de synthèse
- traduire un texte dans d'autres langues
- génération de code
- générer des articles de blog, des histoires, des conversations et d'autres types de contenu.
Il existe une infinité d'applications pour les modèles GPT, et vous pouvez même les affiner sur des données spécifiques pour créer des résultats encore meilleurs. En utilisant des transformateurs, vous économiserez des coûts de calcul, de temps et d'autres ressources.
Avant les tags Google Publisher Tag
La révolution actuelle de l'IA pour le langage naturel n'est devenue possible qu'avec l'invention des modèles de transformateur, à commencer par le BERT de Google en 2017. Avant cela, la génération de texte était effectuée avec d'autres modèles d'apprentissage en profondeur, tels que les réseaux de neurones récursifs (RNN) et les longs à court terme. réseaux de neurones à mémoire (LSTM). Ceux-ci ont bien fonctionné pour produire des mots simples ou des phrases courtes, mais n'ont pas pu générer de contenu plus long et réaliste.
L'approche du transformateur de BERT a été une percée majeure car il ne s'agit pas d'une technique d'apprentissage supervisé. C'est-à-dire qu'il n'a pas besoin d'un jeu de données annoté coûteux pour l'entraîner. BERT a été utilisé par Google pour interpréter les recherches en langage naturel, cependant, il ne peut pas générer de texte à partir d'une invite.
GPT-1
En 2018, OpenAI a publié un article ( Improving Language Understanding by Generative Pre-Training ) sur l'utilisation de la compréhension du langage naturel à l'aide de son modèle de langage GPT-1. Ce modèle était une preuve de concept et n'a pas été rendu public.
GPT-2
L'année suivante, OpenAI publie un autre article ( Language Models are Unsupervised Multitask Learners ) à propos de son dernier modèle, GPT-2. Cette fois, le modèle a été mis à la disposition de la communauté de l'apprentissage automatique et a trouvé une certaine adoption pour les tâches de génération de texte. GPT-2 peut souvent générer quelques phrases avant de s'effondrer. C'était à la pointe de la technologie en 2019.
GPT-3
En 2020, OpenAI a publié un autre article ( Language Models are Few-Shot Learners ) sur leur modèle GPT-3. Le modèle avait 100 fois plus de paramètres que GPT-2 et a été formé sur un ensemble de données textuelles encore plus grand, ce qui a entraîné de meilleures performances du modèle. Le modèle a continué à être amélioré avec diverses itérations connues sous le nom de série GPT-3.5, y compris le ChatGPT axé sur la conversation.
Cette version a pris d'assaut le monde après avoir surpris le monde avec sa capacité à générer des pages de texte de type humain. ChatGPT est devenu l'outil à la croissance la plus rapide application Web à la croissance la plus rapide de tous les temps , atteignant 100 millions d'utilisateurs en seulement deux mois.
Quoi de neuf dans GPT-4 ?
GPT-4 a été développé pour améliorer "l'alignement" du modèle - la capacité de suivre les intentions de l'utilisateur tout en le rendant plus véridique et en générant moins de résultats offensants ou dangereux.
Amélioration des performances
Comme vous vous en doutez, GPT-4 améliore les modèles GPT-3.5 en ce qui concerne l'exactitude factuelle des réponses. Le nombre d'"hallucinations", où le modèle fait des erreurs factuelles ou de raisonnement, est plus faible, GPT-4 obtenant un score de 40 % supérieur à GPT-3.5 sur l'indice de référence de performance factuelle interne d'OpenAI.
Il améliore également la "steerability", c'est-à-dire la possibilité de modifier son comportement en fonction des demandes des utilisateurs. Par exemple, vous pouvez lui commander d'écrire dans un style, un ton ou une voix différents. Essayez de démarrer les invites avec "Vous êtes un expert en données bavard" ou "Vous êtes un expert en données laconique" et demandez-lui de vous expliquer un concept de science des données. Vous pouvez en savoir plus sur la conception de superbes invites pour les modèles GPT ici .
Une autre amélioration réside dans l'adhérence du modèle aux garde-corps. Si vous lui demandez de faire quelque chose d'illégal ou de peu recommandable, il vaut mieux refuser la demande.
Utilisation des entrées visuelles dans GPT-4
Un changement majeur est que GPT-4 peut utiliser des entrées d'image (aperçu de recherche uniquement ; pas encore disponible au public) et du texte. Les utilisateurs peuvent spécifier n'importe quelle vision ou tâche linguistique en saisissant du texte et des images intercalés.
Les exemples présentés mettent en évidence GPT-4 interprétant correctement des images complexes telles que des graphiques, des mèmes et des captures d'écran d'articles universitaires.
Vous pouvez voir des exemples d'entrée de vision ci-dessous.
Benchmarks de performances GPT-4
OpenAI a évalué GPT-4 en simulant des examens conçus pour les humains, tels que l'examen uniforme du barreau et le LSAT pour les avocats, et le SAT pour l'admission à l'université. Les résultats ont montré que GPT-4 a atteint des performances de niveau humain sur divers critères professionnels et académiques.
OpenAI a également évalué GPT-4 sur des benchmarks traditionnels conçus pour les modèles d'apprentissage automatique, où il a surpassé les grands modèles de langage existants et la plupart des modèles de pointe qui peuvent inclure un artisanat spécifique à un benchmark ou des protocoles de formation supplémentaires. Ces points de repère comprenaient des questions à choix multiples dans 57 matières, un raisonnement de bon sens autour d'événements quotidiens, des questions scientifiques à choix multiples à l'école primaire, etc.
OpenAI a testé la capacité de GPT-4 dans d'autres langues en traduisant le benchmark MMLU, une suite de 14 000 problèmes à choix multiples couvrant 57 sujets, dans différentes langues à l'aide d'Azure Translate. Dans 24 des 26 langues testées, GPT-4 a surpassé les performances en anglais de GPT-3.5 et d'autres grands modèles de langue.
Dans l'ensemble, les résultats plus fondés de GPT-4 indiquent des progrès significatifs dans les efforts d'OpenAI pour développer des modèles d'IA avec des capacités de plus en plus avancées.
Comment accéder à GPT-4
OpenAI libère la capacité de saisie de texte de GPT-4 via ChatGPT. Il est actuellement disponible pour les utilisateurs de ChatGPT Plus. Il existe une liste d'attente pour l'API GPT-4.
La disponibilité publique de la capacité d'entrée d'image n'a pas encore été annoncée.
OpenAI a open-source OpenAI Evals , un cadre d'évaluation automatisée des performances des modèles d'IA, pour permettre à quiconque de signaler les lacunes de ses modèles et de guider d'autres améliorations.
Prenez-le au prochain niveau
En attendant, vous pouvez lire plus de ressources sur GPT-4, ChatGPT et AI dans les ressources suivantes :
- Apprenez à utiliser efficacement ChatGPT dans l' introduction à ChatGPT .
- Apprenez à créer vos propres modèles de génération de texte d'apprentissage en profondeur dans le cours Génération de langage naturel en Python .
- Téléchargez cette feuille de triche de référence pratique des invites ChatGPT pour la science des données .
- Écoutez cet épisode de podcast sur Comment ChatGPT et GPT-3 améliorent les flux de travail pour comprendre comment ChatGPT peut bénéficier à votre entreprise.