Al menos cuatro proyectos de procesamiento de lenguaje natural de código abierto que explotan enormes redes neuronales están desafiando actualmente al único gran proyecto comercial de PNL: GPT-3 de Abierto AI.
Las iniciativas de código abierto tienen como objetivo democratizar la IA e impulsar su evolución. Todos esos proyectos se basan en transformadores: un tipo especial de redes neuronales que han demostrado ser las más eficientes para trabajar con estructuras del lenguaje humano.
¿Qué son los transformadores y por qué son tan importantes los recientes avances en su panorama?
¿Qué son los transformadores en el procesamiento del lenguaje natural?
En su largo camino hacia el éxito, los investigadores han probado diferentes redes neuronales para el procesamiento del lenguaje natural. Finalmente, llegaron con atención a dos modelos basados en redes neuronales convolucionales (CNN) o redes neuronales recurrentes (RNN).
En un ejemplo de una tarea de traducción, la diferencia entre las dos es la siguiente. Aunque ambos tipos tienen en cuenta lo que aprendieron sobre una oración determinada al traducir las palabras anteriores, continuarían con la siguiente palabra de la fila utilizando enfoques diferentes.
Una CNN procesaría cada palabra de la oración en hilos paralelos, mientras que una RNN con atención se asegurará de ponderar cada palabra anterior de la oración con respecto a su influencia sobre el significado de la siguiente palabra, manejando así las palabras una tras otra. Una CNN no resuelve perfectamente el problema de encontrar el significado correcto de cada palabra, pero puede funcionar más rápido; un RNN produce resultados más correctos pero funciona lentamente.
En pocas palabras, un transformador es una combinación de ambos. Utiliza la técnica de la atención para evaluar la influencia mutua de las palabras individuales de una oración entre sí. Por otro lado, funciona más rápido gracias a los múltiples “hilos”: pares de los llamados codificadores y decodificadores que ayudan a aprender, aplicar lo aprendido y propagar el conocimiento obtenido a la siguiente iteración.
¿Qué pueden hacer los transformadores?
Además de la traducción, los transformadores pueden predecir qué palabra usar a continuación en una oración, generando así oraciones completas de habla de apariencia humana.
Eso nos permite utilizarlos para diversos fines.
Las capacidades de creación de contenido de Transformers se pueden utilizar para diseñar mejores chatbots, escribir contenido web y liberar las manos del personal de soporte técnico. El último caso de uso se combina con la habilidad de los transformadores para buscar información que promete una amplia gama de aplicaciones en la vida real.
Además de los lenguajes puramente humanos, algunos transformadores pueden manejar lenguajes de programación e incluso crear scripts para otros modelos de aprendizaje profundo. Las habilidades de codificación y la capacidad de comprender el habla humana permiten a los transformadores convertirse en desarrolladores frontend. Se les puede informar de la misma manera que un desarrollador humano y crearán un diseño web.
Como parte de otro experimento, los transformadores se integraron en Excel y lograron completar celdas vacías en una hoja de cálculo prediciendo valores basados en los datos existentes en la misma hoja de cálculo. Eso nos permitiría reemplazar funciones voluminosas de Excel con una sola fórmula transformadora que imita el comportamiento de un algoritmo completo.
En el futuro, los transformadores pueden reemplazar a los ingenieros de operaciones de desarrollo humano, ya que deben poder configurar sistemas y aprovisionar infraestructuras por sí mismos.
¡Suena guau! De hecho, 2022 trajo algunas actualizaciones inspiradoras en el campo.
Rendimiento de los transformadores y recursos necesarios
La imitación del arte humano del procesamiento del lenguaje se convirtió en un caso muy competitivo.
Medir el éxito no es algo obvio. De hecho, el ganador es el más rápido y preciso. Pero se puede lograr alta velocidad y precisión mediante una combinación de dos factores principales:
- La arquitectura de su red neuronal; aunque actualmente domina la arquitectura transformadora;
- La cantidad de parámetros en su red neuronal.
Con este último entendemos el número de conexiones entre los nodos de una red. Este número no necesariamente tiene una relación lineal con el número de nodos, que sería el tamaño de la red.
Más importante aún, para las empresas, los grupos de investigación y los individuos, los principales factores que influyen en el éxito de sus hijos son –aparentemente– el tamaño de la inversión que tienen a su disposición, el tamaño de los datos de capacitación y el acceso al talento humano para desarrollar el talento. modelo.
Los proyectos de IA más potentes del mundo
Teniendo en cuenta los factores mencionados anteriormente, veamos quién lidera la competencia de IA.
GPT-3
OpenAI GPT-3 (Generative Pre-Trained Transformer) solía ser el líder de la carrera. Contiene 175 mil millones de parámetros y puede aprender nuevas tareas relacionadas con el idioma por sí solo. Puede hacer más que simplemente traducir: una de sus aplicaciones importantes es responder preguntas y clasificar información.
Se entrenó con 570 GB de datos limpios a partir de 45 TB de datos seleccionados, lo cual es mucho. Su principal inconveniente es que OpenAI no permite el acceso gratuito ni al modelo para utilizarlo ni a su código para mejorarlo. Sólo ofrece una API comercial para obtener resultados del modelo. En consecuencia, sólo los investigadores de OpenAI pueden contribuir a ello.
Como muchos otros, GPT-3 sólo “habla” inglés.
Wu Dao 2.0.
En sentido cuantitativo, Wu Dao 2.0. supera a GPT-3 ya que ha sido entrenado con 1,2 TB de datos de texto en chino, 2,5 TB de datos en chino gráficos datos y 1,2 TB de datos de texto en inglés. También tiene 1,75 billones de parámetros, 10 veces más que GPT-3.
Wu Dao 2.0. Puede trabajar en varios modos de medios e incluso dibujar estructuras 3D. Se anunció como código abierto y aún no ha llegado a GitHub por alguna razón.
Metaseq/OPT-175B
Meta, anteriormente conocida como Facebook, se ha enfrentado a menudo a acusaciones de ocultar importantes resultados de investigaciones a los que la humanidad podría haber contribuido. Su reciente intento de hacer que los modelos de transformadores estén más disponibles puede ayudarlos a reparar su reputación arruinada.
Como su nombre indica, el transformador tiene 175 mil millones de parámetros. Ha sido creado como una copia de GPT-3, para igualar su rendimiento y capacidad.
Otra ventaja de Metaseq es que su repositorio de GitHub aloja modelos con menos parámetros, lo que permite a los científicos ajustarlos solo para tareas específicas y evitar altos costos de mantenimiento y capacitación asociados con modelos de transformadores más grandes.
Sin embargo, no es totalmente de código abierto: el acceso está limitado a grupos de investigación y debe ser solicitado por ellos y aprobado por Meta caso por caso.
Abrir GPT-X
Siempre es una lástima que un proyecto científico surja por miedo a perderse algo y no porque haya suficiente inspiración para ello. Ese es el caso con el Proyecto GPT-X: se cultiva en Europa y se califica como una respuesta a GPT-3 y una herramienta para establecer La “soberanía digital” de Europa. El Instituto Alemán Frauenhofer es el principal motor de su desarrollo, con el apoyo de sus socios de cooperación a largo plazo de la comunidad industrial y académica alemana y europea.
GPT-X comenzó recientemente y no hay tanta información sobre su progreso.
GPT-J y GPT-NEO
Eleuther AI es un grupo de investigación independiente que persigue el objetivo de la democratización de la IA. Ofrecen dos modelos más pequeños: GPT-X con 60 mil millones de parámetros y GPT-NEO con sólo 6 mil millones. Curiosamente, GPT-X supera a GPT-3 en tareas de codificación y es exactamente igual de bueno en narración, recuperación de información y traducción, lo que la convierte en una máquina perfecta para chatbots.
Transformador de interruptor de Google
Fue difícil decidir qué nombres deberían aparecer en esta lista y cuáles no, pero Google ciertamente merece una mención, al menos por dos razones.
La primera es que el gigante de Internet hizo que su transformador fuera de código abierto.
La segunda es que el Transformador de interruptor Se le dio una arquitectura novedosa. Tiene redes neuronales anidadas en las capas de su red neuronal principal. Eso permite aumentar su rendimiento sin aumentar la cantidad de potencia computacional necesaria.
El Switch Transformer contiene 1.600 mil millones de parámetros. Sin embargo, todavía no le permitió superar al GPT-3 en precisión y flexibilidad; muy probablemente, debido al menor grado de entrenamiento del Switch Transformer.
Conclusión
Por cierto, la formación es un tema apremiante en este campo: ¡los investigadores ya han utilizado todos los textos en inglés disponibles en el mundo! Probablemente, necesiten seguir el ejemplo de Wu Dao y cambiar pronto a otros idiomas.
Otro problema es el que el Switch Transformer ya ha abordado: más parámetros de red con menos cálculos. La ejecución de redes neuronales provoca emisiones de dióxido de carbono en grandes cantidades. Por lo tanto, un mejor rendimiento debe seguir siendo el principal objetivo no sólo por razones comerciales sino también medioambientales.
Y esto es posible gracias a los proyectos de código abierto: suministran a este campo de investigación nuevos cerebros (humanos), nuevos conocimientos e ideas.
La IA y el procesamiento del lenguaje natural necesitan inspiración de la práctica. En AI Superior, seguimos las actualizaciones y esperamos implementar los hallazgos de proyectos de código abierto para nuestros clientes de la industria y sus necesidades. Lo invitamos a aprovechar nuestra experiencia en inteligencia artificial y procesamiento de lenguaje natural para cualquier caso de uso, desde tiendas en línea e investigación de mercados hasta el apoyo a industrias de ingeniería.