Recientemente, los modelos de aprendizaje automático han entrado con confianza en una nueva fase de su evolución. Originalmente surgieron como clasificadores y predictores, pero ahora pueden generar datos completamente nuevos por sí solos.
Esto fue posible gracias a la ampliación del aprendizaje no supervisado al modelado generativo que se puede aplicar a datos visuales.
En este artículo, explicaremos qué tipo de mente artificial impulsa la generación de imágenes y cuáles son las implicaciones, desde la cultura popular hasta las industrias que salvan vidas.
¿Qué son las redes generativas adversarias?
Las redes generativas adversarias (GAN) han demostrado ser uno de los procesadores de imágenes más eficientes.
Las GAN son redes neuronales que funcionan en parejas.
Cada par tiene un generador y un discriminador. El generador consume los datos de entrenamiento y luego genera nuevos datos que deberían poseer las mismas cualidades que el conjunto de datos original y pasarían como naturales. para humanos. Por ejemplo, si el generador fuera alimentado con retratos de gatos, debería generar una fotografía de un gato completamente nueva y de aspecto natural.
Sin embargo, no es un humano quien evalúa la naturalidad de los datos generados. Ésta es la tarea de la segunda red: el discriminador. El discriminador consume tanto los datos de entrenamiento como la salida del generador. Aprueba o rechaza la salida del generador como falsa. Las dos redes participan en una carrera evolutiva conocida por la naturaleza en la que un depredador desarrolla habilidades para cazar mejor, mientras que su víctima desarrolla mejores habilidades para escapar.
Una vez que el discriminador marca la entrada como falsa y es falsa, el generador actualiza su algoritmo de generación para falsificar los datos de manera más eficiente. El objetivo del entrenamiento es hacer que el generador sea perfecto para simular.
Pero fingir no significa daño en este caso. Ayuda a llenar los vacíos en los datos visuales para siempre.
Aplicaciones culturales (pop) de GAN
Hoy en día, no es necesario formar parte de la industria de la inteligencia artificial para estar en contacto con las tecnologías de procesamiento de imágenes.
¿Recuerdas al gato? Estas imágenes se llaman deepfakes. Los deepfakes se utilizan, por ejemplo, en la industria cinematográfica. En Star Wars, los realizadores sustituyeron a la ya fallecida actriz Carry Fisher por su deepfake para insertar una escena con la princesa Leia en uno de los spin-offs de la saga.
La industria móvil y de Internet está en auge con aplicaciones que le permiten hacer que su selfie luzca al estilo Van-Gogh utilizando la técnica de transferencia de estilo. Científicos o simplemente curiosos colorean imágenes en blanco y negro para reconstruir la historia y los recuerdos de sus familias o acontecimientos importantes del pasado.
Las GAN incluso dieron un paso más hacia una mente totalmente autónoma al permitir que las IA crearan imágenes basadas en instrucciones escritas. Lo contrario también funciona: dale una imagen a una GAN y te dirá en un lenguaje natural quién o qué está representado en ella.
Profundicemos en cómo funciona todo.
Cómo funcionan las GAN para industrias críticas
Adaptación de dominio: medicina y farmacia
Mencionamos la traducción de imagen a texto o de texto a imaginación en la parte anterior. Además, también es posible la traducción de imagen a imagen. La transferencia de estilo con fines de entretenimiento es sólo una parte.
En una industria crítica, como la atención médica, traducción de imagen a imagen se puede utilizar para facilitar la investigación y el tratamiento real de los pacientes. Por ejemplo, el análisis de tejido permite seguir el progreso de la enfermedad y definir la cura más eficaz. Durante un análisis, se tiñe un tejido con un reactivo. Sin embargo, existen diferentes reactivos para este propósito. Se necesitaría mucho tiempo y esfuerzo para recopilar imágenes reales de todas las posibles variaciones del progreso de la enfermedad y de los tejidos teñidos con todos los reactivos disponibles.
En cambio, la traducción de imagen a imagen permite generar dichas imágenes con un alto nivel de precisión. En AI Superior, estábamos orgullosos de obtener tal experiencia al realizar la transferencia de tintes: procesamiento de imágenes de tejido canceroso, realizado para una empresa farmacéutica. El mayor desafío de este proyecto fue la ausencia de imágenes emparejadas que demostraran cómo se ve el mismo tejido después de ser procesado por diferentes reactivos. No obstante, el equipo de AI Superior aprovechó tecnologías de última generación para superar este problema y creó una GAN que logró generar imágenes realistas de otro dominio preservando características críticas para análisis posteriores.
Adaptación del dominio: análisis geoespacial
Otro dominio completo de nuestros servicios que involucra GAN es el análisis geoespacial. Para las entidades interesadas en inspecciones al aire libre, incluidas empresas de desarrollo, operadores de parques nacionales, municipios, compañías de petróleo y gas, etc., ayudamos a traducir datos de radar de apertura sintética proporcionados desde satélites a datos visuales amigables para los humanos, tanto en escala de grises como en escala de grises. color. Nuestros clientes ven un paisaje natural o industrial exactamente como existe en el terreno. Esta tecnología permite una toma de decisiones más rápida mediante el uso de vistas de mapas que no requieren interpretación. Además, los datos geoespaciales pueden superponerse con datos no espaciales o etiquetarse. Las etiquetas clasifican objetos físicos permitiéndole detectar discrepancias rápidamente, como un objeto que no pertenece al área, lo que reduce el esfuerzo manual y el tiempo de respuesta.
Esto funciona perfectamente tanto para instalaciones de uso comercial como para instalaciones no comerciales evitando que el daño físico se extienda o genere un impacto negativo.
Procesamiento y mejora de imágenes
Aparte de estos dos dominios bastante específicos, son posibles varias aplicaciones entre dominios de GAN para diferentes industrias.
Básicamente, las GAN permiten la manipulación de imágenes basándose en la "comprensión" entrenada de la GAN de lo que debería ser una imagen perfecta o adecuada.
Por ejemplo, a las imágenes incompletas se les pueden recuperar las partes faltantes, o se pueden restituir las partes dañadas de una imagen (muy a menudo, de una fotografía o una obra de arte antigua). Esta técnica se llama imagen en pintura y aborda las necesidades de muchos científicos, restauradores, particulares y cualquier persona interesada en mejorar imágenes digitales, puramente digitales o con un artefacto físico detrás.
A continuación, las GAN llevan las técnicas conocidas de Photoshop y software similar a un nuevo nivel. Permiten hacer que las imágenes borrosas sean más nítidas. Las GAN pueden aumentar artificialmente la resolución de una imagen agregando porciones pequeñas, no rastreables para el ojo humano, de la imagen tomándolas prestadas de una imagen similar que hayan aprendido previamente.
Las GAN no solo pueden agregar a una imagen, sino también eliminar y reemplazar partes de la imagen con lo que sea más apropiado. Pueden borrar manchas de suciedad de copias digitales de fotografías antiguas o, lo que es más importante, realizar quitar ruido de imágenes. Los investigadores criminales son definitivamente quienes pueden beneficiarse de esta técnica.
Generación de datos sintéticos
Al poder generar datos visuales, las redes generativas adversarias ayudan a otras redes neuronales a aprender y a sus creadores a obtener conjuntos de datos realistas y económicos para ellas. Un ejemplo más brillante son los algoritmos de reconocimiento de imágenes integrados en los automóviles autónomos que necesitan muchas imágenes para aprender a navegar de manera segura entre la gran cantidad de objetos de la vida real, vivos y artificiales.
Los datos visuales sintéticos pueden resultar útiles para anonimizar datos reales. Todos conocemos el problema de Google Street View. Es una gran cosa cuando quieres conocer mejor un lugar lejano, pero un mal si tu propia cara queda atrapada en él. Actualmente, Google difumina rostros y matrículas, pero de cara al futuro sería fantástico sustituir los rostros reales por deepfakes: personas inexistentes a las que no les importaría su privacidad.
Curiosamente, uno de los ámbitos de aplicación de los datos sintéticos solía ser la avanzada más potente de la creatividad humana: la moda. Sin embargo, por alguna razón, la moda parece adoptar voluntariamente algoritmos de IA. Pero menos para la generación de ideas completamente nuevas. Al igual que los creadores de videojuegos, los diseñadores de moda recurren a la IA para imitar el comportamiento natural de la ropa en el cuerpo humano. Esto permite predecir la popularidad de la ropa nueva, ya que no sólo su apariencia cuenta para los clientes sino también cómo se asienta la tela en sus cuerpos.
Codificación y decodificación de datos
A Nvidia se le ocurrió una buena mejora para usuarios de videoconferencia. Probablemente sepa lo extraño que se siente no mirar a su interlocutor a los ojos durante una videoconferencia por la sencilla razón de que nuestras cámaras web nunca se colocan en el medio de la pantalla, en el punto donde naturalmente intentamos mirar. Nvidia desarrolló una técnica que permite transformar las imágenes de tu cámara al otro lado de la llamada y hacerte mirar a los ojos de tu interlocutor.
Esto no sólo significa una comunicación humana mejor y más natural, sino también una menor carga para los equipos de comunicación. En lugar de transmitir todo el metraje durante la llamada, su imagen solo se transmite una vez. Luego, solo se rastrean unos pocos puntos de referencia en su cara para capturar su imitación. Luego, su expresión facial se reconstruye al otro lado de la llamada. Este método reduce la cantidad de carga útil transmitida de un lado a otro que anteriormente consumía un gran ancho de banda y capacidades informáticas.
Conclusión
En AI Superior, estamos constantemente atentos a las últimas tendencias en aprendizaje automático. Nuestros clientes nos brindan los mejores ejemplos de cómo la IA y el procesamiento de imágenes están cambiando nuestras vidas, haciendo de este mundo un lugar más seguro para vivir. Estamos listos para compartir nuestra experiencia en la aplicación de GAN para la atención médica y la investigación, así como para el análisis geoespacial y otras industrias.