Minstens vier open-source natuurlijke taalverwerkingsprojecten die enorme neurale netwerken exploiteren, dagen momenteel het enige grote commerciële NLP-project uit: GPT-3 van Open AI.
De open-sourceinitiatieven zijn bedoeld om AI te democratiseren en de evolutie ervan te stimuleren. Al deze projecten zijn gebaseerd op transformatoren: een speciaal type neurale netwerken die het meest efficiënt zijn gebleken voor het werken met menselijke taalstructuren.
Wat zijn transformatoren en waarom zijn de recente ontwikkelingen in hun landschap zo belangrijk?
Wat zijn transformatoren in natuurlijke taalverwerking?
Op hun lange weg naar succes hebben onderzoekers verschillende neurale netwerken geprobeerd voor natuurlijke taalverwerking. Uiteindelijk kwamen ze met aandacht tot twee modellen gebaseerd op convolutionele neurale netwerken (CNN) of terugkerende neurale netwerken (RNN).
Bij een voorbeeld van een vertaaltaak is het verschil tussen beide als volgt. Hoewel beide typen rekening houden met wat ze over een bepaalde zin hebben geleerd door de voorgaande woorden erin te vertalen, gingen ze op verschillende manieren verder met het volgende woord in de rij.
Een CNN zou elk woord in de zin in parallelle threads verwerken, terwijl een RNN met aandacht ervoor zal zorgen dat elk vorig woord in de zin een gewicht krijgt in termen van zijn invloed op de betekenis van het volgende woord, en dus de woorden na elkaar behandelt. Een CNN lost het probleem van het vinden van de juiste betekenis voor elk woord niet perfect op, maar kan sneller werken; een RNN levert correctere resultaten op, maar werkt langzaam.
Kort gezegd is een transformator een combinatie van beide. Het maakt gebruik van de aandachtstechniek die de wederzijdse invloed van de afzonderlijke woorden in een zin op elkaar evalueert. Aan de andere kant werkt het sneller dankzij de meerdere ‘threads’: paren zogenaamde encoders en decoders die helpen bij het leren, toepassen van het geleerde en het doorgeven van de verkregen kennis aan de volgende iteratie.
Wat kunnen transformatoren doen?
Naast de vertaling kunnen transformatoren voorspellen welk woord ze als volgende in een zin moeten gebruiken, waardoor hele zinnen met menselijk ogende spraak worden gegenereerd.
Hierdoor kunnen we ze voor verschillende doeleinden gebruiken.
De capaciteiten van Transformers voor het creëren van inhoud kunnen worden gebruikt voor het ontwerpen van betere chatbots, het schrijven van webinhoud en het vrijmaken van de handen van technisch ondersteunend personeel. De laatste use case gaat gepaard met de vaardigheid van de transformatoren voor het zoeken naar informatie, wat een breed scala aan toepassingen in het echte leven belooft.
Afgezien van puur menselijke talen, kunnen sommige transformatoren overweg met programmeertalen en zelfs scripts maken voor andere deep learning-modellen. Dankzij codeervaardigheden en het vermogen om menselijke spraak te begrijpen, kunnen transformatoren frontend-ontwikkelaars worden. Ze kunnen op dezelfde manier worden geïnformeerd als een menselijke ontwikkelaar en komen met een weblay-out.
Als onderdeel van een ander experiment zijn transformatoren in Excel geïntegreerd en zijn ze erin geslaagd lege cellen in een spreadsheet in te vullen en waarden te voorspellen op basis van de bestaande gegevens in dezelfde spreadsheet. Dat zou ons in staat stellen omvangrijke Excel-functies te vervangen door slechts één transformatorformule die het gedrag van een heel algoritme nabootst.
In de toekomst kunnen transformatoren de technici van menselijke ontwikkelingsoperaties vervangen, omdat zij in staat moeten zijn zelf systemen te configureren en infrastructuren in te richten.
Klinkt als wauw! Sterker nog, 2022 bracht een paar inspirerende updates op het terrein.
Prestaties van transformatoren en vereiste middelen
Het imiteren van de menselijke kunst van taalverwerking werd een zeer competitieve zaak.
Het meten van succes is niet vanzelfsprekend. De winnaar is inderdaad de snelste en meest nauwkeurige. Maar u kunt hoge snelheid en nauwkeurigheid bereiken door een combinatie van twee belangrijke factoren:
- Uw neurale netwerkarchitectuur; hoewel de transformatorarchitectuur momenteel domineert;
- Het aantal parameters in uw neurale netwerk.
Met dat laatste begrijpen we het aantal verbindingen tussen de knooppunten in een netwerk. Dit aantal heeft niet noodzakelijkerwijs een lineaire relatie met het aantal knooppunten, wat de grootte van het netwerk zou zijn.
Wat nog belangrijker is: voor bedrijven, onderzoeksgroepen en individuen zijn de belangrijkste factoren die het succes van hun kind beïnvloeden – blijkbaar – de omvang van de investeringen die ze tot hun beschikking hebben, de omvang van de trainingsgegevens en de toegang tot het menselijk talent om de vaardigheden te ontwikkelen. model.
Meest krachtige AI-projecten ter wereld
Laten we, rekening houdend met de hierboven genoemde factoren, eens kijken wie de AI-competitie leidt.
GPT-3
OpenAI's GPT-3 (Generative Pre-Trained Transformer) was vroeger de leider in de race. Het bevat 175 miljard parameters en kan zelfstandig nieuwe taalgerelateerde taken leren. Het kan meer dan alleen vertalen: een van de belangrijke toepassingen ervan is het beantwoorden van vragen en het classificeren van informatie.
Het is getraind op 570 GB aan schone gegevens uit 45 TB aan samengestelde gegevens, wat veel is. Het belangrijkste nadeel is dat OpenAI vrije toegang biedt, noch tot het model om het te gebruiken, noch tot de code om het te verbeteren. Het biedt alleen een commerciële API om resultaten van het model te verkrijgen. Daarom kunnen alleen de onderzoekers van OpenAI hieraan bijdragen.
Net als vele anderen ‘spreekt’ GPT-3 alleen Engels.
Wu Dao 2.0.
In kwantitatieve zin is Wu Dao 2.0. verslaat GPT-3 omdat het is getraind op 1,2 TB Chinese tekstgegevens, 2,5 TB Chinese afbeeldingen gegevens en 1,2 TB aan Engelse tekstgegevens. Het heeft ook 1,75 biljoen parameters, 10 keer meer dan GPT-3.
Wu Dao 2.0. kan in verschillende mediamodi werken en zelfs 3D-structuren opstellen. Het werd aangekondigd omdat een open-source om de een of andere reden nog steeds niet bij GitHub is aangekomen.
Metaseq/OPT-175B
Meta, voorheen bekend als Facebook, is vaak geconfronteerd met beschuldigingen van het verbergen van belangrijke onderzoeksresultaten waaraan de mensheid had kunnen bijdragen. Hun recente poging om transformatormodellen beter beschikbaar te maken, kan hen helpen hun geruïneerde reputatie te herstellen.
Zoals de naam al doet vermoeden, heeft de transformator 175 miljard parameters. Het is gemaakt als een kopie van GPT-3, om de prestaties en mogelijkheden ervan te evenaren.
Een ander voordeel van Metaseq is dat zijn GitHub-repository herbergt modellen met minder parameters, waardoor wetenschappers ze alleen voor specifieke taken kunnen afstemmen en hoge onderhouds- en trainingskosten kunnen vermijden die gepaard gaan met grotere transformatormodellen.
Het is echter niet geheel open source: de toegang is beperkt tot onderzoeksgroepen en moet per geval door hen worden aangevraagd en door Meta worden goedgekeurd.
Open GPT-X
Het is altijd jammer als een wetenschappelijk project ontstaat uit angst om iets te missen en niet omdat er net genoeg inspiratie voor is. Dat is het geval bij de GPT-X-project: het wordt in Europa gepromoot en gebrandmerkt als een reactie op GPT-3 en als een instrument voor de oprichting ervan Europa's “digitale soevereiniteit”. Het Duitse Frauenhofer Instituut is de belangrijkste motor van zijn ontwikkeling, ondersteund door zijn langetermijnsamenwerkingspartners uit de Duitse en Europese industrie en academische gemeenschap.
GPT-X is onlangs gestart en er is niet zo veel informatie over de voortgang ervan.
GPT-J en GPT-NEO
Eleuther AI is een onafhankelijke onderzoeksgroep die het doel van AI-democratisering nastreeft. Ze bieden twee kleinere modellen: GPT-X met 60 miljard parameters en GPT-NEO met slechts 6 miljard. Vreemd genoeg presteert GPT-X beter dan GPT-3 op het gebied van codeertaken en is het net zo goed in het vertellen van verhalen, het ophalen van informatie en het vertalen, waardoor het een perfecte machine is voor chatbots.
Google Switch-transformator
Het was moeilijk om te beslissen welke namen op deze lijst zouden moeten verschijnen en welke niet, maar Google verdient zeker een vermelding, tenminste om twee redenen.
De eerste is dat de internetgigant zijn transformator open-source heeft gemaakt.
Het tweede is dat de Schakeltransformator kreeg een nieuwe architectuur. Het heeft neurale netwerken die zijn genest in de lagen van het belangrijkste neurale netwerk. Dat maakt het mogelijk om de prestaties te verbeteren zonder de hoeveelheid benodigde rekenkracht te vergroten.
De Switch Transformer bevat 1,600 miljard parameters. Niettemin kon hij GPT-3 qua nauwkeurigheid en flexibiliteit nog niet omverwerpen; hoogstwaarschijnlijk vanwege de geringere omvang van de training van de Switch Transformer.
Conclusie
Overigens is opleiding een urgent vraagstuk in het veld: de onderzoekers hebben al alle Engelse teksten gebruikt die ter wereld beschikbaar zijn! Waarschijnlijk moeten ze het voorbeeld van Wu Dao volgen en binnenkort naar andere talen overstappen.
Een ander probleem is het probleem dat de Switch Transformer al heeft aangepakt: meer netwerkparameters met minder berekeningen. Het runnen van neurale netwerken veroorzaakt een grote uitstoot van kooldioxide. Daarom moeten betere prestaties het hoofddoel blijven, niet alleen om commerciële, maar ook om milieuredenen.
En dat wordt mogelijk dankzij de open-sourceprojecten: zij voorzien dit onderzoeksveld van nieuwe (menselijke) hersenen, nieuwe kennis en ideeën.
AI en natuurlijke taalverwerking hebben inspiratie uit de praktijk nodig. Bij AI Superior volgen we de updates en kijken we uit naar de implementatie van de bevindingen van open-sourceprojecten voor onze industriële klanten en hun behoeften. We nodigen u uit om gebruik te maken van onze expertise op het gebied van AI en natuurlijke taalverwerking voor elk gebruik, van online winkels en marketingonderzoek tot ondersteunende technische industrieën.