Récemment, les modèles d’apprentissage automatique sont entrés avec confiance dans une nouvelle phase de leur évolution. À l’origine, ils étaient apparus comme classificateurs et prédicteurs, mais ils peuvent désormais générer eux-mêmes des données complètement nouvelles.
Cela a été rendu possible grâce à l’extension de l’apprentissage non supervisé à la modélisation générative pouvant être appliquée aux données visuelles.
Dans cet article, nous expliquerons quel type d’esprit artificiel est à l’origine de la génération d’images et quelles en sont les implications, de la culture populaire aux industries qui sauvent des vies.
Que sont les réseaux antagonistes génératifs ?
Les réseaux adverses génératifs (GAN) se sont révélés être l’un des processeurs d’images les plus efficaces.
Les GAN sont des réseaux de neurones qui fonctionnent par paires.
Chaque paire possède un générateur et un discriminateur. Le générateur consomme les données d'entraînement puis génère de nouvelles données qui devraient posséder les mêmes qualités que l'ensemble de données d'origine et passeraient pour naturelles. pour les humains. Par exemple, si le générateur était alimenté avec des portraits de chats, il devrait générer une toute nouvelle photographie d'un chat d'apparence naturelle.
Cependant, ce n’est pas un humain qui évalue le caractère naturel des données générées. C'est la tâche du deuxième réseau : le discriminateur. Le discriminateur consomme à la fois les données d'entraînement ainsi que la sortie du générateur. Il approuve ou rejette la sortie du générateur comme étant fausse. Les deux réseaux sont engagés dans une course évolutive connue de la nature où un prédateur développe des capacités pour mieux chasser tandis que sa victime développe de meilleures capacités d'évasion.
Une fois que le discriminateur marque l'entrée comme fausse et qu'elle est fausse, le générateur met à jour son algorithme de génération pour simuler les données plus efficacement. Le but de la formation est de rendre le générateur parfait en simulant.
Mais simuler ne signifie pas de mal dans ce cas. Cela permet de combler définitivement les lacunes des données visuelles.
Applications culturelles (Pop) du GAN
De nos jours, il n’est pas nécessaire de faire partie de l’industrie de l’IA pour entrer en contact avec les technologies de traitement d’images.
Tu te souviens du chat ? De telles images sont appelées contrefaçons profondes. Les deepfakes sont utilisés, par exemple, dans l’industrie cinématographique. Dans Star Wars, les cinéastes ont remplacé l'actrice déjà décédée Carry Fisher par son deepfake pour insérer une scène avec la princesse Leia dans l'un des spin-offs de la saga.
L'industrie du mobile et de l'Internet est en plein essor avec des applications qui vous permettent de créer un selfie à la Van-Gogh en utilisant la technique de transfert de style. Des scientifiques ou de simples curieux colorisent des images en noir et blanc pour reconstituer l’histoire et les souvenirs de leur famille ou d’événements importants du passé.
Les GAN ont même fait un pas de plus vers un esprit totalement autonome en permettant aux IA de créer des images basées sur des instructions écrites. L’inverse fonctionne également : donnez une image à un GAN et il vous dira dans un langage naturel qui ou quoi est représenté dessus.
Examinons en profondeur comment tout cela fonctionne.
Comment fonctionnent les GAN pour les industries critiques
Adaptation du domaine : médecine et pharmacie
Nous avons évoqué la traduction image-texte ou texte-imaginaire dans la partie précédente. De plus, la traduction image à image est également possible. Le transfert de style à des fins de divertissement n’en est qu’une partie.
Dans un secteur critique, comme celui des soins médicaux, traduction d'image à image peut être utilisé pour faciliter la recherche et le traitement réel des patients. Par exemple, l’analyse des tissus permet de suivre l’évolution de la maladie et de définir le remède le plus efficace. Lors d'une analyse, un tissu est coloré avec un réactif. Cependant, différents réactifs existent à cet effet. Il faudrait beaucoup de temps et d'efforts pour collecter des images réelles de toutes les variations possibles de l'évolution de la maladie et des tissus colorés avec tous les réactifs disponibles.
Au lieu de cela, la traduction image à image permet de générer de telles images avec un haut niveau de précision. Chez AI Superior, nous étions fiers d'obtenir une telle expérience en faisant du transfert de taches : traitement d'images de tissus cancéreux, réalisé pour une société pharmaceutique. Le plus grand défi de ce projet était l’absence d’images appariées qui démontreraient à quoi ressemble le même tissu après avoir été traité par différents réactifs. Néanmoins, l'équipe d'AI Superior a exploité des technologies de pointe pour surmonter ce problème et a créé un GAN qui a réussi à générer des images réalistes d'un autre domaine en préservant les caractéristiques critiques pour une analyse plus approfondie.
Adaptation du domaine : analyse géospatiale
Un autre domaine complet de nos services qui implique les GAN est l’analyse géospatiale. Pour les entités intéressées par les inspections extérieures, notamment les sociétés de développement, les exploitants de parcs nationaux, les municipalités, les sociétés pétrolières et gazières, etc., nous aidons à traduire les données radar à synthèse d'ouverture fournies par les satellites en données visuelles conviviales, en niveaux de gris ou en niveaux de gris. couleur. Nos clients voient un paysage naturel ou industriel exactement tel qu’il existe sur le terrain. Cette technologie permet une prise de décision plus rapide en utilisant des vues cartographiques qui ne nécessitent aucune interprétation. De plus, les données géospatiales peuvent être superposées à des données non spatiales ou étiquetées. Les balises classent les objets physiques vous permettant de repérer rapidement les écarts, comme un objet qui n'appartient pas à la zone, réduisant ainsi l'effort manuel et le temps de réponse.
Cela fonctionne parfaitement aussi bien pour les installations à usage commercial que non commercial, empêchant les dommages physiques de se propager ou de générer un impact négatif.
Traitement et amélioration des images
Outre ces deux domaines assez spécifiques, diverses applications inter-domaines des GAN sont possibles pour différentes industries.
Fondamentalement, les GAN permettent la manipulation d'images sur la base de la « compréhension » formée du GAN de ce que devrait être une image parfaite ou appropriée.
Par exemple, les images incomplètes peuvent récupérer leurs parties manquantes, ou les parties endommagées d'une image (bien souvent, d'une vieille photographie ou œuvre d'art) peuvent être restaurées. Cette technique est appelée peinture d'image et répond aux besoins de nombreux scientifiques, restaurateurs, particuliers et de toute personne intéressée par l'amélioration d'images numériques, purement numériques ou comportant un artefact physique derrière.
Ensuite, les GAN amènent les techniques connues de Photoshop et de logiciels similaires à un nouveau niveau. Ils permettent de rendre les images floues plus nettes. Les GAN peuvent augmenter artificiellement la résolution d'une image en ajoutant de petites parties de l'image, non traçables pour un œil humain, en les empruntant à une image similaire qu'ils ont précédemment apprise.
Les GAN peuvent non seulement ajouter des éléments à une image, mais également supprimer et remplacer des parties de l'image par ce qui est plus approprié. Ils peuvent effacer les taches de saleté des copies numériques d'anciennes photographies ou, plus important encore, effectuer des débruitage d'images. Les enquêteurs criminels sont certainement ceux qui peuvent profiter de cette technique.
Génération de données synthétiques
En étant capables de générer des données visuelles, les réseaux antagonistes génératifs aident d’autres réseaux de neurones à apprendre et leurs créateurs à obtenir pour eux des ensembles de données peu coûteux et réalistes. L’exemple le plus frappant est celui des algorithmes de reconnaissance d’images intégrés aux voitures autonomes qui ont besoin de beaucoup de visuels pour apprendre à naviguer en toute sécurité parmi la grande quantité d’objets réels, vivants et artificiels.
Les données visuelles synthétiques peuvent être utiles pour anonymiser les données réelles. Nous connaissons tous le problème de Google Street View. C'est une bonne chose quand on veut mieux connaître un endroit éloigné, mais c'est un mal si son propre visage y est attrapé. Actuellement, Google brouille les visages et les plaques d'immatriculation, mais à l'avenir, ce serait formidable de remplacer les vrais visages par des deepfakes : des personnes inexistantes qui ne se soucieraient pas de leur vie privée.
Il est intéressant de noter que l’un des domaines d’application des données synthétiques était autrefois l’avant-poste le plus puissant de la créativité humaine : la mode. Cependant, pour une raison ou pour une autre, la mode semble adopter volontiers les algorithmes d’IA. Mais moins pour générer des idées complètement nouvelles. À l’instar des créateurs de jeux vidéo, les créateurs de mode font appel à l’IA pour imiter le comportement naturel des vêtements sur un corps humain. Cela permet de prédire la popularité des nouveaux vêtements, car non seulement leur look compte pour les clients, mais aussi la façon dont le tissu repose sur leur corps.
Encodage et décodage des données
Nvidia a proposé une belle amélioration pour utilisateurs de visioconférence. Vous savez sans doute combien il est étrange de ne pas croiser le regard de son interlocuteur lors d'une visioconférence pour la simple raison que nos webcams ne sont jamais placées au milieu de l'écran, à l'endroit que l'on cherche naturellement à regarder. Nvidia a développé une technique qui permet de transformer les images de votre caméra de l'autre côté de l'appel et de vous faire regarder dans les yeux de votre interlocuteur.
Cela signifie non seulement une communication humaine meilleure et plus naturelle, mais aussi une charge moindre pour les équipements de communication. Au lieu de transmettre l’intégralité de la séquence tout au long de l’appel, votre image n’est transmise qu’une seule fois. Ensuite, seuls quelques points de référence sur votre visage sont suivis pour capturer votre mimique. Votre expression faciale est ensuite reconstruite à l’autre bout du fil. Cette méthode réduit la quantité de charge utile transmise dans les deux sens, qui consommait auparavant une énorme bande passante et des capacités de calcul.
Conclusion
Chez AI Superior, nous surveillons constamment les dernières tendances en matière d’apprentissage automatique. Nos clients nous fournissent les meilleurs exemples de la façon dont l’IA et le traitement d’images remodèlent nos vies, faisant de ce monde un endroit plus sûr où vivre. Nous sommes prêts à partager notre expertise dans l’application des GAN aux soins médicaux et à la recherche ainsi qu’à l’analyse géospatiale et à d’autres industries.