Blog

Mai 18, 2022
KI, Datenwissenschaft und maschinelles Lernen

Die Transformation der Transformatoren: Die GPT-Familie und andere Trends in KI und natürlicher Sprachverarbeitung

Mindestens vier Open-Source-Projekte zur Verarbeitung natürlicher Sprache, die riesige neuronale Netze nutzen, fordern derzeit das einzige große kommerzielle NLP-Projekt heraus: GPT-3 von OpenAI

Die Open-Source-Initiativen zielen darauf ab, die KI zu demokratisieren und ihre Entwicklung voranzutreiben. Alle diese Projekte basieren auf Transformatoren: eine besondere Art von neuronalen Netzen, die sich für die Arbeit mit menschlichen Sprachstrukturen als besonders effizient erwiesen haben.

Was sind Transformatoren und warum sind die jüngsten Entwicklungen in ihrem Umfeld so wichtig?

Was sind Transformatoren in der natürlichen Sprachverarbeitung?

Auf ihrem langen Weg zum Erfolg haben die Forscher verschiedene neuronale Netze für die Verarbeitung natürlicher Sprache ausprobiert. Schließlich kamen sie zu zwei Modellen, die entweder auf Faltungsneuronalen Netzen (CNN) oder rekurrenten Neuronalen Netzen (RNN) mit Aufmerksamkeit basieren. 

Bei einem Beispiel für eine Übersetzungsaufgabe besteht der Unterschied zwischen den beiden Typen in Folgendem. Obwohl beide Typen berücksichtigen, was sie durch die Übersetzung der vorangegangenen Wörter über einen bestimmten Satz gelernt haben, würden sie mit dem nächsten Wort in der Reihe mit unterschiedlichen Ansätzen fortfahren.

Ein CNN würde jedes Wort im Satz in parallelen Threads verarbeiten, wohingegen ein RNN mit Aufmerksamkeit dafür sorgt, dass es jedes vorherige Wort im Satz im Hinblick auf seinen Einfluss auf die Bedeutung des nächsten Wortes gewichtet, also Wörter nacheinander verarbeitet. Ein CNN löst das Problem, die richtige Bedeutung für jedes Wort zu finden, nicht perfekt, kann aber schneller arbeiten; ein RNN liefert mehr richtige Ergebnisse, arbeitet aber langsam.

Kurz gesagt, ein Transformator ist eine Kombination aus beidem. Er nutzt die Aufmerksamkeitstechnik, die den gegenseitigen Einfluss der einzelnen Wörter in einem Satz bewertet. Andererseits arbeitet er dank mehrerer "Threads" schneller: Paare von so genannten Kodierern und Dekodierern, die dabei helfen, zu lernen, das Gelernte anzuwenden und das gewonnene Wissen an die nächste Iteration weiterzugeben.

Was können Transformatoren tun?

Neben der Übersetzung können Transformatoren auch vorhersagen, welches Wort als nächstes in einem Satz verwendet wird, und so ganze Sätze mit menschlich anmutender Sprache erzeugen.

So können wir sie für verschiedene Zwecke nutzen.

Die Fähigkeiten der Transformatoren zur Erstellung von Inhalten können für die Entwicklung besserer Chatbots, das Schreiben von Webinhalten und die Entlastung des technischen Supportpersonals genutzt werden. Der letzte Anwendungsfall ist mit der Fähigkeit der Transformatoren zur Informationssuche gekoppelt, die eine breite Palette von Anwendungen im echten Leben verspricht.

Abgesehen von rein menschlichen Sprachen sind einige Transformatoren in der Lage, Programmiersprachen zu beherrschen und sogar Skripte für andere Deep-Learning-Modelle zu erstellen. Programmierkenntnisse und die Fähigkeit, menschliche Sprache zu verstehen, ermöglichen es Transformatoren, Frontend-Entwickler zu werden. Sie können auf die gleiche Weise wie ein menschlicher Entwickler instruiert werden und würden ein Web-Layout erstellen. 

Im Rahmen eines anderen Experiments wurden Transformatoren in Excel integriert und konnten leere Zellen in einem Arbeitsblatt ausfüllen, indem sie Werte auf der Grundlage der vorhandenen Daten im selben Arbeitsblatt vorhersagten. Dies würde es uns ermöglichen, sperrige Excel-Funktionen durch eine einzige Transformatorformel zu ersetzen, die das Verhalten eines ganzen Algorithmus nachahmt.

Künftig könnten Transformatoren menschliche Entwicklungsingenieure ersetzen, da diese in der Lage sein müssen, Systeme zu konfigurieren und Infrastrukturen selbständig bereitzustellen.

Klingt wie "wow"! In der Tat brachte das Jahr 2022 einige inspirierende Neuerungen auf dem Gebiet.

Leistung der Transformatoren und erforderliche Ressourcen

Die Nachahmung der menschlichen Kunst der Sprachverarbeitung wurde zu einem hart umkämpften Fall. 

Die Messung des Erfolgs ist keine Selbstverständlichkeit. In der Tat gewinnt derjenige, der am schnellsten und am genauesten arbeitet. Aber man kann eine hohe Geschwindigkeit und Genauigkeit durch eine Kombination von zwei Hauptfaktoren erreichen:

  • Ihre Architektur des neuronalen Netzes; allerdings dominiert derzeit die Transformer-Architektur;
  • Die Anzahl der Parameter in Ihrem neuronalen Netz.

Unter letzterem versteht man die Anzahl der Verbindungen zwischen den Knoten in einem Netz. Diese Zahl steht nicht unbedingt in einem linearen Verhältnis zur Anzahl der Knoten, die die Größe des Netzes darstellen würde.

Für Unternehmen, Forschungsgruppen und Einzelpersonen sind die wichtigsten Faktoren, die den Erfolg ihres Kindes beeinflussen, offenbar die Höhe der Investitionen, die ihnen zur Verfügung stehen, der Umfang der Trainingsdaten und der Zugang zu den menschlichen Talenten, die das Modell entwickeln.

Die leistungsfähigsten KI-Projekte der Welt

In Anbetracht der oben genannten Faktoren sollten wir uns ansehen, wer den KI-Wettbewerb anführt. 

GPT-3

Der GPT-3 (Generative Pre-Trained Transformer) von OpenAI war bisher der Spitzenreiter im Rennen. Er enthält 175 Milliarden Parameter und kann neue sprachbezogene Aufgaben selbständig erlernen. Er kann mehr als nur übersetzen: Eine seiner wichtigsten Anwendungen ist die Beantwortung von Fragen und die Klassifizierung von Informationen.

Es wurde auf 570 GB sauberer Daten aus 45 TB kuratierter Daten trainiert, was eine Menge ist. Der größte Nachteil ist, dass OpenAI weder freien Zugang zum Modell noch zu seinem Code gewährt, um es zu verbessern. Es bietet lediglich eine kommerzielle API an, um Ergebnisse des Modells zu erhalten. Folglich können nur die Forscher von OpenAI dazu beitragen.

Wie viele andere auch, "spricht" GPT-3 nur Englisch.

Wu Dao 2.0.

In quantitativer Hinsicht übertrifft Wu Dao 2.0. GPT-3, da es auf 1,2 TB chinesischen Textdaten, 2,5 TB chinesischen Grafikdaten und 1,2 TB englischen Textdaten trainiert wurde. Außerdem verfügt es über 1,75 Billionen Parameter, 10 Mal mehr als GPT-3 hat.

Wu Dao 2.0. kann in verschiedenen Medienmodi arbeiten und sogar 3D-Strukturen entwerfen. Es wurde als Open-Source angekündigt hat noch nicht auf GitHub aus irgendeinem Grund angekommen. 

Metaseq/OPT-175B

Meta, früher bekannt als Facebook, wurde oft mit dem Vorwurf konfrontiert, wichtige Forschungsergebnisse zu verheimlichen, zu denen die Menschheit hätte beitragen können. Ihr jüngster Versuch, Transformatormodelle besser zugänglich zu machen, könnte ihnen helfen, ihren ruinierten Ruf wiederherzustellen.

Wie sein Name schon sagt, hat der Transformator 175 Milliarden Parameter. Er wurde als Kopie des GPT-3 erstellt, um dessen Leistung und Fähigkeiten zu entsprechen.

Ein weiterer Vorteil von Metaseq ist, dass das GitHub-Repository Modelle mit weniger Parametern enthält, so dass die Wissenschaftler sie nur für bestimmte Aufgaben fein abstimmen und hohe Wartungs- und Schulungskosten vermeiden können, die mit größeren Transformer-Modellen verbunden sind.

Es ist jedoch nicht vollständig quelloffen: Der Zugang ist auf Forschungsgruppen beschränkt und muss von diesen beantragt und von Meta von Fall zu Fall genehmigt werden.  

GPT-X öffnen

Es ist immer schade, wenn ein wissenschaftliches Projekt aus der Angst heraus entsteht, etwas zu verpassen, und nicht, weil es gerade genug Inspiration dafür gibt. Das ist beim GPT-X-Projekt der Fall: Es wurde in Europa ins Leben gerufen und als Antwort auf GPT-3 und als Instrument zur Schaffung der "digitalen Souveränität" Europas gebrandmarkt. Das deutsche Frauenhofer-Institut ist der Hauptmotor seiner Entwicklung, unterstützt von seinen langjährigen Kooperationspartnern aus der deutschen und europäischen Industrie und Wissenschaft.

GPT-X wurde erst vor kurzem ins Leben gerufen und es gibt noch nicht viele Informationen über seine Fortschritte.

GPT-J und GPT-NEO

Eleuther AI ist eine unabhängige Forschungsgruppe, die das Ziel der Demokratisierung der KI verfolgt. Sie bieten zwei kleinere Modelle an: GPT-X mit 60 Milliarden Parametern und GPT-NEO mit nur 6 Milliarden. Seltsamerweise übertrifft GPT-X GPT-3 bei Codierungsaufgaben und ist genauso gut beim Geschichtenerzählen, bei der Informationsbeschaffung und bei der Übersetzung, was es zu einer perfekten Maschine für Chatbots macht.

Google Switch Transformer

Es war schwierig zu entscheiden, welche Namen auf dieser Liste landen sollten und welche nicht, aber Google verdient sicherlich eine Erwähnung, zumindest aus zwei Gründen. 

Der erste ist, dass der Internet-Gigant seinen Transformator als Open Source zur Verfügung stellt.

Zweitens wurde der Switch Transformer mit einer neuartigen Architektur ausgestattet. Er verfügt über neuronale Netze, die in den Schichten seines Hauptnetzes verschachtelt sind. Dadurch kann seine Leistung gesteigert werden, ohne die erforderliche Rechenleistung zu erhöhen.

Der Switch Transformer enthält 1.600 Milliarden Parameter. Dennoch konnte er GPT-3 in puncto Genauigkeit und Flexibilität noch nicht überflügeln, was höchstwahrscheinlich auf den geringeren Trainingsumfang des Switch Transformer zurückzuführen ist. 

Schlussfolgerung

Übrigens ist die Ausbildung ein dringendes Problem in diesem Bereich: Die Forscher haben bereits alle auf der Welt verfügbaren englischen Texte verwendet! Wahrscheinlich müssen sie dem Beispiel von Wu Dao folgen und bald auf andere Sprachen umsteigen.

Ein weiteres Problem ist das, das der Switch Transformer bereits angesprochen hat: mehr Netzwerkparameter mit weniger Berechnungen. Der Betrieb neuronaler Netze verursacht große Mengen an Kohlendioxidemissionen. Daher muss eine bessere Leistung das Hauptziel bleiben, nicht nur aus wirtschaftlichen, sondern auch aus ökologischen Gründen. 

Und dies wird dank der Open-Source-Projekte möglich: Sie versorgen diesen Forschungsbereich mit neuen (menschlichen) Köpfen, neuem Wissen und Ideen.

KI und natürliche Sprachverarbeitung brauchen Inspiration aus der Praxis. Wir bei AI Superior verfolgen die Aktualisierungen und freuen uns darauf, die Ergebnisse von Open-Source-Projekten für unsere Kunden aus der Industrie und deren Bedürfnisse umzusetzen. Wir laden Sie ein, unsere Expertise in KI und natürlicher Sprachverarbeitung für jeden Anwendungsfall zu nutzen, von Online-Shops und Marketingforschung bis hin zur Unterstützung von Ingenieurbranchen.

Haben Sie eine Frage?