18 mai 2022

Transformer les transformateurs : la famille GPT et autres tendances en matière d'IA et de traitement du langage naturel

Séance de conseil gratuite en IA

Obtenez un devis de service gratuit

Parlez-nous de votre projet - nous vous répondrons avec un devis personnalisé

Au moins quatre projets open source de traitement du langage naturel qui exploitent d'énormes réseaux de neurones défient actuellement le seul grand projet commercial de PNL : GPT-3 de OpenAI.

Les initiatives open source visent à démocratiser l’IA et à accélérer son évolution. Tous ces projets sont basés sur transformateurs: un type particulier de réseaux de neurones qui se sont révélés les plus efficaces pour travailler avec les structures du langage humain.

Que sont les transformateurs et pourquoi les évolutions récentes de leur paysage sont-elles si importantes ?

Que sont les transformateurs dans le traitement du langage naturel ?

Sur leur long chemin vers le succès, les chercheurs ont essayé différents réseaux de neurones pour le traitement du langage naturel. Enfin, ils sont arrivés avec attention à deux modèles basés soit sur des réseaux de neurones convolutifs (CNN), soit sur des réseaux de neurones récurrents (RNN).

Sur un exemple de tâche de traduction, la différence entre les deux est la suivante. Bien que les deux types prennent en compte ce qu’ils ont appris sur une phrase donnée en traduisant les mots précédents, ils passeraient au mot suivant de la rangée en utilisant des approches différentes.

Un CNN traiterait chaque mot de la phrase dans des fils parallèles, tandis qu'un RNN attentif veillerait à pondérer chaque mot précédent de la phrase en fonction de son influence sur la signification du mot suivant, traitant ainsi les mots les uns après les autres. Un CNN ne résout pas parfaitement le problème de trouver le sens correct de chaque mot mais peut fonctionner plus rapidement ; un RNN produit des résultats plus corrects mais fonctionne lentement.

En un mot, un transformateur est une combinaison des deux. Il utilise la technique de l’attention évaluant l’influence mutuelle des mots d’une phrase les uns sur les autres. D'autre part, cela fonctionne plus rapidement grâce aux multiples « threads » : des paires de soi-disant encodeurs et décodeurs qui aident à apprendre, à appliquer ce qui a été appris et à propager les connaissances obtenues à l'itération suivante.

Que peuvent faire les transformateurs ?

Outre la traduction, les transformateurs peuvent prédire quel mot utiliser ensuite dans une phrase, générant ainsi des phrases entières d'un discours d'apparence humaine.

Cela nous permet de les utiliser à diverses fins.

Les capacités de création de contenu de Transformers peuvent être utilisées pour concevoir de meilleurs chatbots, rédiger du contenu Web et libérer les mains du personnel d'assistance technique. Le dernier cas d'utilisation est associé aux compétences des transformateurs en matière de recherche d'informations qui promettent un large éventail d'applications dans la vie réelle.

Outre les langages purement humains, certains transformateurs sont capables de gérer des langages de programmation et même de créer des scripts pour d'autres modèles d'apprentissage profond. Les compétences en codage et la capacité de comprendre la parole humaine permettent aux transformateurs de devenir des développeurs front-end. Ils peuvent être informés de la même manière qu’un développeur humain et proposer une mise en page Web.

Dans le cadre d'une autre expérience, des transformateurs ont été intégrés à Excel et ont réussi à remplir les cellules vides d'une feuille de calcul en prédisant des valeurs basées sur les données existantes dans la même feuille de calcul. Cela nous permettrait de remplacer les fonctions Excel volumineuses par une seule formule de transformateur qui imite le comportement de tout un algorithme.

À l’avenir, les transformateurs pourraient remplacer les ingénieurs d’exploitation du développement humain, car ils doivent être capables de configurer eux-mêmes les systèmes et de fournir les infrastructures.

On dirait wow ! En fait, 2022 a apporté quelques mises à jour inspirantes dans le domaine.

Performances des transformateurs et ressources requises

Imiter l’art humain du traitement du langage est devenu un cas très compétitif.

Mesurer le succès n’est pas une chose évidente. En effet, le gagnant est le plus rapide et le plus précis. Mais vous pouvez atteindre une vitesse et une précision élevées grâce à une combinaison de deux facteurs principaux :

Votre architecture de réseau neuronal ; bien que l'architecture du transformateur domine actuellement ;
Le nombre de paramètres dans votre réseau neuronal.

Avec ce dernier, on comprend le nombre de Connexions entre les nœuds d'un réseau. Ce nombre n’a pas nécessairement une relation linéaire avec le nombre de nœuds, qui correspondrait à la taille du réseau.

Plus important encore, pour les entreprises, les groupes de recherche et les individus, les principaux facteurs qui influencent la réussite de leur enfant sont – apparemment – la taille de l'investissement dont ils disposent, la taille des données de formation et l'accès au talent humain pour développer le modèle.

Les projets d'IA les plus puissants au monde

Compte tenu des facteurs mentionnés ci-dessus, regardons qui mène la compétition en matière d'IA.

GPT-3

OpenAI GPT-3 (Generative Pre-Trained Transformer) était autrefois le leader de la course. Il contient 175 milliards de paramètres et peut apprendre seul de nouvelles tâches liées au langage. Il peut faire plus que simplement traduire : l’une de ses applications importantes consiste à répondre aux questions et à classer les informations.

Il a été formé sur 570 Go de données propres provenant de 45 To de données organisées, ce qui est beaucoup. Son principal inconvénient est qu’OpenAI ne permet un accès libre ni au modèle pour l’utiliser, ni à son code pour l’enrichir. Il propose uniquement une API commerciale pour obtenir les résultats du modèle. Par conséquent, seuls les chercheurs d'OpenAI peuvent y contribuer.

Comme beaucoup d’autres, GPT-3 « parle » uniquement l’anglais.

Wu Dao 2.0.

D'un point de vue quantitatif, Wu Dao 2.0. bat GPT-3 car il a été formé sur 1,2 To de données texte chinoises, 2,5 To de chinois graphique données et 1,2 To de données texte en anglais. Il comporte également 1,75 billion de paramètres, soit 10 fois plus que GPT-3.

Wu Dao 2.0. peut travailler dans différents modes multimédias et même créer des structures 3D. Il a été annoncé que l'open source n'est toujours pas arrivé sur GitHub pour une raison quelconque.

Métaseq/OPT-175B

Meta, anciennement connu sous le nom de Facebook, a souvent été confronté à des accusations de dissimulation d'importants résultats de recherche auxquels l'humanité aurait pu contribuer. Leur récente tentative de rendre les modèles de transformateurs plus disponibles pourrait les aider à réparer leur réputation ruinée.

Comme son nom l’indique, le transformateur possède 175 milliards de paramètres. Il a été créé comme une copie de GPT-3, pour correspondre à ses performances et à ses capacités.

Un autre avantage de Metaseq est que son dépôt GitHub héberge des modèles avec moins de paramètres, permettant aux scientifiques de les affiner uniquement pour des tâches spécifiques et d'éviter les coûts élevés de maintenance et de formation associés aux modèles de transformateurs plus gros.

Cependant, il n'est pas entièrement open source : l'accès est limité aux groupes de recherche et doit être demandé par eux et approuvé par Meta au cas par cas.

Ouvrir GPT-X

Il est toujours dommage qu'un projet scientifique naisse par peur de passer à côté et non parce qu'il y a juste assez d'inspiration pour le réaliser. C'est le cas du Projet GPT-X: il est développé en Europe et présenté comme une réponse au GPT-3 et un outil pour établir la « souveraineté numérique » de l'Europe. L'Institut allemand Frauenhofer est le principal moteur de son développement, soutenu par ses partenaires de coopération de longue date issus du monde industriel et universitaire allemand et européen.

GPT-X a démarré récemment et il n'y a pas beaucoup d'informations sur ses progrès.

GPT-J et GPT-NEO

Éleuther IA est un groupe de recherche indépendant qui poursuit l’objectif de démocratisation de l’IA. Ils proposent deux modèles plus petits : GPT-X avec 60 milliards de paramètres et GPT-NEO avec seulement 6 milliards. Curieusement, GPT-X surpasse GPT-3 dans les tâches de codage et est tout aussi performant en matière de narration, de récupération d'informations et de traduction, ce qui en fait une machine parfaite pour les chatbots.

Transformateur de commutateur Google

Il a été difficile de décider quels noms devraient figurer sur cette liste et lesquels ne devraient pas figurer sur cette liste, mais Google mérite certainement d'être mentionné, au moins pour deux raisons.

La première est que le géant de l’Internet a rendu son transformateur open source.

La seconde est que le Transformateur de commutation a reçu une nouvelle architecture. Il possède des réseaux de neurones imbriqués dans les couches de son réseau de neurones principal. Cela permet d’augmenter ses performances sans augmenter la puissance de calcul nécessaire.

Le Switch Transformer contient 1 600 milliards de paramètres. Néanmoins, cela ne lui a pas encore permis de renverser GPT-3 en termes de précision et de flexibilité ; très probablement, en raison de la moindre étendue de la formation du Switch Transformer.

Conclusion

D’ailleurs, la formation est un enjeu pressant dans le domaine : les chercheurs ont déjà utilisé tous les textes anglais disponibles dans ce monde ! Ils devront probablement suivre l'exemple de Wu Dao et passer bientôt à d'autres langues.

Un autre problème est celui que le Switch Transformer a déjà résolu : plus de paramètres réseau avec moins de calculs. Le fonctionnement des réseaux de neurones provoque des émissions de dioxyde de carbone en grande quantité. Par conséquent, l’amélioration des performances doit rester l’objectif principal non seulement pour des raisons commerciales, mais aussi pour des raisons environnementales.

Et cela devient possible grâce aux projets open source : ils fournissent à ce domaine de recherche de nouveaux cerveaux (humains), de nouvelles connaissances et idées.

L’IA et le traitement du langage naturel doivent s’inspirer de la pratique. Chez AI Superior, nous suivons les mises à jour et sommes impatients de mettre en œuvre les résultats des projets open source pour nos clients de l'industrie et leurs besoins. Nous vous invitons à tirer parti de notre expertise en matière d'IA et de traitement du langage naturel pour tout cas d'utilisation, des boutiques en ligne et des études de marketing au soutien des industries d'ingénierie.

Travaillons ensemble!

Abonnez-vous à notre lettre d'information

Restez informé de nos dernières mises à jour et offres exclusives en vous inscrivant à notre newsletter.