In jüngster Zeit sind Modelle des maschinellen Lernens in eine neue Phase ihrer Entwicklung eingetreten. Ursprünglich wurden sie als Klassifikatoren und Prädiktoren eingesetzt, doch jetzt können sie selbst völlig neue Daten generieren.
Dies wurde durch die Ausweitung des unüberwachten Lernens auf generative Modellierung möglich, die auf visuelle Daten angewendet werden kann.
In diesem Artikel erklären wir, welche Art künstlichen Geistes die Bildgenerierung antreibt und welche Auswirkungen dies hat – von der Popkultur bis hin zu lebensrettenden Industrien.
Was sind generative kontradiktorische Netzwerke?
Generative Adversarial Networks (GANs) haben sich als einer der effizientesten Bildprozessoren erwiesen.
GANs sind paarweise arbeitende neuronale Netzwerke.
Jedes Paar hat einen Generator und einen Diskriminator. Der Generator verarbeitet die Trainingsdaten und generiert dann neue Daten, die die gleichen Eigenschaften wie der ursprüngliche Datensatz aufweisen und als natürlich gelten würden. für Menschen. Wenn der Generator beispielsweise mit Katzenporträts gefüttert wurde, sollte er ein völlig neues, natürlich wirkendes Katzenfoto generieren.
Es ist jedoch kein Mensch, der die Natürlichkeit der generierten Daten bewertet. Dies ist die Aufgabe des zweiten Netzwerks: des Diskriminators. Der Diskriminator verarbeitet sowohl die Trainingsdaten als auch die Ausgabe des Generators. Er genehmigt die Ausgabe des Generators oder lehnt sie als Fälschung ab. Die beiden Netzwerke liefern sich einen evolutionären Wettlauf, wie man ihn aus der Natur kennt: Ein Raubtier entwickelt Fähigkeiten zur besseren Jagd, während sein Opfer bessere Fluchtfähigkeiten entwickelt.
Sobald der Diskriminator die Eingabe als gefälscht markiert und sie gefälscht ist, aktualisiert der Generator seinen Generierungsalgorithmus, um die Daten effizienter zu fälschen. Das Ziel des Trainings besteht darin, den Generator beim Fälschen zu perfektionieren.
Doch in diesem Fall ist das Fälschen nicht schädlich. Es hilft, Lücken in visuellen Daten dauerhaft zu schließen.
GANs (Pop-)Kulturanwendungen
Heutzutage muss man nicht mehr Teil der KI-Branche sein, um mit Bildverarbeitungstechnologien in Kontakt zu kommen.
Erinnern Sie sich an die Katze? Solche Bilder nennt man Deepfakes - ÜbersetzungDeepfakes kommen beispielsweise in der Filmindustrie zum Einsatz. In Star Wars ersetzten die Filmemacher die bereits verstorbene Schauspielerin Carry Fisher durch ihren Deepfake, um in einem der Spin-offs der Saga eine Szene mit Prinzessin Leia einzufügen.
In der Mobil- und Internetbranche florieren Anwendungen, mit denen Sie Ihr Selfie mithilfe der Style-Transfer-Technik im Van-Gogh-Stil aussehen lassen können. Wissenschaftler oder einfach nur neugierige Menschen kolorieren Schwarzweißbilder, um die Geschichte und Erinnerungen ihrer Familien oder wichtige Ereignisse aus der Vergangenheit zu rekonstruieren.
GANs haben sogar einen weiteren Schritt in Richtung eines vollständig autonomen Geistes gemacht, indem sie KIs in die Lage versetzten, Bilder auf der Grundlage schriftlicher Anweisungen zu erstellen. Das Gegenteil funktioniert auch: Geben Sie einem GAN ein Bild und es wird Ihnen in einer natürlichen Sprache sagen, wer oder was darauf abgebildet ist.
Lassen Sie uns einen genaueren Blick darauf werfen, wie das Ganze funktioniert.
Wie GANs für kritische Branchen funktionieren
Domänenanpassung: Medizin und Pharma
Wir haben im vorherigen Teil die Bild-zu-Text- oder Text-zu-Bild-Übersetzung erwähnt. Darüber hinaus ist auch die Bild-zu-Bild-Übersetzung möglich. Die Stilübertragung zu Unterhaltungszwecken ist nur ein Teil davon.
In einer kritischen Branche wie der medizinischen Versorgung Bild-zu-Bild-Übersetzung kann zur Unterstützung der Forschung und der tatsächlichen Behandlung von Patienten eingesetzt werden. So ermöglicht die Analyse von Gewebe beispielsweise, den Krankheitsverlauf zu verfolgen und die wirksamste Behandlung zu bestimmen. Während einer Analyse wird ein Gewebe mit einem Reagenz gefärbt. Allerdings gibt es für diesen Zweck verschiedene Reagenzien. Es würde viel Zeit und Mühe kosten, echte Bilder aller möglichen Varianten des Krankheitsverlaufs und mit allen verfügbaren Reagenzien gefärbter Gewebe zu sammeln.
Stattdessen ermöglicht die Bild-zu-Bild-Konvertierung die Erzeugung solcher Bilder mit einem hohen Maß an Genauigkeit. Bei AI Superior waren wir stolz, eine solche Erfahrung durch die Fleckenübertragung machen zu können: Verarbeitung von Krebsgewebebildern, durchgeführt für ein Pharmaunternehmen. Die größte Herausforderung dieses Projekts war das Fehlen gepaarter Bilder, die zeigen würden, wie dasselbe Gewebe nach der Verarbeitung mit verschiedenen Reagenzien aussieht. Dennoch nutzte das AI Superior-Team modernste Technologien, um dieses Problem zu überwinden, und erstellte ein GAN, das realistische Bilder einer anderen Domäne erzeugen konnte, wobei kritische Merkmale für die weitere Analyse erhalten blieben.
Domänenanpassung: Geospatial Analytics
Ein weiterer Bereich unserer Dienstleistungen, der GANs umfasst, ist die Geodatenanalyse. Unternehmen, die an Außeninspektionen interessiert sind, darunter Entwicklungsunternehmen, Nationalparkbetreiber, Stadtverwaltungen, Öl- und Gasunternehmen usw., helfen wir dabei, von Satelliten bereitgestellte Synthetic Aperture Radar-Daten in benutzerfreundliche visuelle Daten in Graustufen oder Farbe zu übersetzen. Unsere Kunden sehen eine natürliche oder industrielle Landschaft genau so, wie sie am Boden existiert. Diese Technologie ermöglicht schnellere Entscheidungen durch die Verwendung von Kartenansichten, die keinerlei Interpretation erfordern. Darüber hinaus können Geodaten mit nicht-räumlichen Daten überlagert oder markiert werden. Tags klassifizieren physische Objekte und ermöglichen es Ihnen, Unstimmigkeiten schnell zu erkennen, z. B. ein Objekt, das nicht zum Gebiet gehört, wodurch der manuelle Aufwand reduziert und die Reaktionszeit verkürzt wird.
Dies funktioniert sowohl bei gewerblich genutzten als auch bei nicht-gewerblichen Einrichtungen optimal und verhindert, dass sich der physische Schaden ausbreitet oder negative Auswirkungen hat.
Bildverarbeitung und -optimierung
Abgesehen von diesen beiden recht spezifischen Domänen sind verschiedene domänenübergreifende Anwendungen von GANs für unterschiedliche Branchen möglich.
Grundsätzlich ermöglichen GANs die Manipulation von Bildern auf der Grundlage des antrainierten „Verständnisses“ des GANs davon, wie ein perfektes oder ordentliches Bild aussehen sollte.
So können beispielsweise unvollständige Bilder ihre fehlenden Teile zurückerhalten oder beschädigte Teile eines Bildes – häufig eines alten Fotos oder Kunstwerks – wiederhergestellt werden. Diese Technik nennt man Bildretusche und geht auf die Bedürfnisse vieler Wissenschaftler, Restauratoren, Privatpersonen und aller ein, die an der Verbesserung digitaler Bilder interessiert sind, seien sie rein digital oder mit einem physischen Artefakt dahinter.
Als nächstes bringen GANs Techniken, die aus Photoshop und ähnlicher Software bekannt sind, auf ein neues Niveau. Sie ermöglichen es, verschwommene Bilder schärfer zu machen. GANs können die Auflösung eines Bildes künstlich erhöhen, indem sie kleine, für das menschliche Auge nicht erkennbare Bildteile hinzufügen, indem sie diese von einem ähnlichen Bild übernehmen, das sie zuvor gelernt haben.
GANs können nicht nur ein Bild ergänzen, sondern auch Bildteile entfernen und durch passendere ersetzen. Sie können Schmutzflecken aus digitalen Kopien alter Fotos entfernen oder, was noch wichtiger ist, Rauschunterdrückung von Bildern. Kriminalbeamte sind definitiv diejenigen, die von dieser Technik profitieren können.
Generierung synthetischer Daten
Durch die Fähigkeit, visuelle Daten zu generieren, helfen generative kontradiktorische Netzwerke anderen neuronalen Netzwerken beim Lernen und ihren Entwicklern, kostengünstige und realistische Datensätze für sie zu erhalten. Ein anschauliches Beispiel sind Bilderkennungsalgorithmen, die in selbstfahrende Autos eingebettet sind und viele visuelle Elemente benötigen, um zu lernen, sicher zwischen der großen Menge an realen Objekten – lebendigen und künstlichen – zu navigieren.
Synthetische visuelle Daten können hilfreich sein, um reale Daten zu anonymisieren. Wir alle kennen das Problem mit Google Street View. Es ist eine tolle Sache, wenn man einen weit entfernten Ort besser kennenlernen möchte, aber ein Übel, wenn das eigene Gesicht darin zu sehen ist. Derzeit verwischt Google Gesichter und Nummernschilder, aber in Zukunft wäre es toll, echte Gesichter durch Deepfakes zu ersetzen: nicht existierende Personen, denen ihre Privatsphäre egal wäre.
Interessanterweise war einer der Anwendungsbereiche für synthetische Daten einst der stärkste Standort menschlicher Kreativität: die Mode. Aus irgendeinem Grund scheint die Modebranche jedoch bereitwillig KI-Algorithmen zu übernehmen. Allerdings weniger für die Entwicklung völlig neuer Ideen. Ähnlich wie Videospielentwickler nutzen Modedesigner KI, um das natürliche Verhalten von Kleidung am menschlichen Körper nachzuahmen. Dadurch lässt sich die Beliebtheit neuer Kleidungsstücke vorhersagen, da für die Kunden nicht nur ihr Aussehen zählt, sondern auch, wie der Stoff am Körper sitzt.
Datenkodierung und -dekodierung
Nvidia hat eine nette Verbesserung für Nutzer von Videokonferenzen. Sie wissen wahrscheinlich, wie seltsam es sich anfühlt, Ihrem Gegenüber während einer Videokonferenz nicht in die Augen zu blicken, aus dem einfachen Grund, dass unsere Webcams nie in der Mitte des Bildschirms platziert sind, an dem Punkt, an dem wir natürlicherweise hinsehen möchten. Nvidia hat eine Technik entwickelt, die es ermöglicht, Ihre Kameraaufnahmen auf der anderen Seite des Anrufs so umzuwandeln, dass Sie Ihrem Gesprächspartner in die Augen blicken.
Dies bedeutet nicht nur eine bessere und natürlichere menschliche Kommunikation, sondern auch eine geringere Belastung der Kommunikationsgeräte. Anstatt das gesamte Filmmaterial während des gesamten Anrufs zu übertragen, wird Ihr Bild nur einmal übertragen. Dann werden nur einige Referenzpunkte auf Ihrem Gesicht verfolgt, um Ihre Mimik zu erfassen. Ihr Gesichtsausdruck wird dann am anderen Ende des Anrufs rekonstruiert. Diese Methode reduziert die hin- und herübertragene Nutzlast, die zuvor eine enorme Bandbreite und Rechenkapazität verbrauchte.
Schlussfolgerung
Bei AI Superior beobachten wir ständig die neuesten Trends im Bereich des maschinellen Lernens. Unsere Kunden liefern uns die besten Beispiele dafür, wie KI und Bildverarbeitung unser Leben verändern und diese Welt zu einem sichereren Ort machen. Wir sind bereit, unser Fachwissen bei der Anwendung von GANs für die medizinische Versorgung und Forschung sowie für Geodatenanalysen und andere Branchen zu teilen.