Blog

Juni 20, 2022
KI, Datenwissenschaft und maschinelles Lernen

KI und Bilddaten: Von ausgefallen bis ernsthaft

Vor kurzem sind die Modelle des maschinellen Lernens selbstbewusst in eine neue Phase ihrer Entwicklung eingetreten. Ursprünglich entstanden sie als Klassifizierer und Prädiktoren, aber jetzt können sie selbständig völlig neue Daten generieren.

Ermöglicht wurde dies durch die Erweiterung des unüberwachten Lernens zu einer generativen Modellierung, die auf visuelle Daten angewendet werden kann. 

In diesem Artikel wird erläutert, welche Art von künstlichem Verstand die Bilderzeugung antreibt und welche Auswirkungen dies hat, von der Populärkultur bis hin zu lebensrettenden Industrien.

Was sind generative kontradiktorische Netze?

Generative Adversarial Networks (GANs) haben sich als eine der effizientesten Bildverarbeitungssysteme erwiesen.

GANs sind neuronale Netze, die in Paaren arbeiten. 

Jedes Paar besteht aus einem Generator und einem Diskriminator. Der Generator verbraucht die Trainingsdaten und erzeugt dann neue Daten, die die gleichen Eigenschaften wie der ursprüngliche Datensatz haben sollten und für Menschen als natürlich gelten würden. Wenn der Generator beispielsweise mit Katzenporträts gefüttert wurde, sollte er ein völlig neues, natürlich aussehendes Foto einer Katze erzeugen. 

Es ist jedoch kein Mensch, der die Natürlichkeit der generierten Daten bewertet. Dies ist die Aufgabe des zweiten Netzes: des Diskriminators. Der Diskriminator nimmt sowohl die Trainingsdaten als auch die Ausgabe des Generators auf. Er akzeptiert die Ausgabe des Generators oder lehnt sie als Fälschung ab. Die beiden Netze befinden sich in einem aus der Natur bekannten evolutionären Wettlauf, bei dem ein Raubtier Fähigkeiten entwickelt, um besser zu jagen, während sein Opfer bessere Fähigkeiten zur Flucht entwickelt.

Sobald der Diskriminator die Eingabe als gefälscht einstuft und diese auch gefälscht ist, aktualisiert der Generator seinen Erzeugungsalgorithmus, um die Daten effizienter zu fälschen. Ziel des Trainings ist es, dass der Generator perfekt fälscht.

Aber Fälschung ist in diesem Fall nicht gleichbedeutend mit Schaden. Es hilft, Lücken in visuellen Daten zu schließen.

GANs (pop-)kulturelle Anwendungen

Heutzutage muss man nicht mehr Teil der KI-Industrie sein, um mit Bildverarbeitungstechnologien in Berührung zu kommen. 

Erinnern Sie sich an die Katze? Solche Bilder werden als Deepfakes bezeichnet. Deepfakes werden z. B. in der Filmindustrie verwendet. In Star Wars ersetzten die Filmemacher die bereits verstorbene Schauspielerin Carry Fisher durch ihr Deepfake, um eine Szene mit Prinzessin Leia in einem der Spin-offs der Saga einzufügen. 

Die Handy- und Internetindustrie boomt mit Anwendungen, die es Ihnen ermöglichen, Ihr Selfie mit Hilfe der Stiltransfertechnik wie Van-Gogh aussehen zu lassen. Wissenschaftler oder einfach nur neugierige Menschen färben Schwarz-Weiß-Bilder ein, um Geschichte und Erinnerungen an ihre Familien oder wichtige Ereignisse aus der Vergangenheit zu rekonstruieren.

GANs haben sogar einen weiteren Schritt in Richtung eines völlig autonomen Verstandes getan, indem sie KIs in die Lage versetzten, Bilder auf der Grundlage schriftlicher Anweisungen zu erstellen. Auch das Gegenteil funktioniert: Geben Sie einem GAN ein Bild und es wird Ihnen in natürlicher Sprache sagen, wer oder was darauf abgebildet ist.

Schauen wir uns einmal genau an, wie das Ganze funktioniert. 

Wie GANs für kritische Branchen funktionieren

Anpassung der Bereiche: Medizin und Pharma

Im vorangegangenen Teil haben wir die Übersetzung von Bild zu Text oder Text zu Bild erwähnt. Darüber hinaus ist auch die Übersetzung von Bild zu Bild möglich. Der Stiltransfer zu Unterhaltungszwecken ist nur ein Teil davon.

In einem kritischen Bereich wie der medizinischen Versorgung kann die Bild-zu-Bild-Übersetzung die Forschung und die eigentliche Behandlung von Patienten erleichtern. Die Analyse von Gewebe ermöglicht es zum Beispiel, den Krankheitsverlauf zu verfolgen und die effizienteste Heilmethode zu bestimmen. Bei einer Analyse wird ein Gewebe mit einem Reagenz angefärbt. Es gibt jedoch verschiedene Reagenzien für diesen Zweck. Es wäre sehr zeit- und arbeitsaufwändig, echte Bilder aller möglichen Varianten des Krankheitsverlaufs und der mit allen verfügbaren Reagenzien gefärbten Gewebe zu sammeln.

Stattdessen ermöglicht die Bild-zu-Bild-Übersetzung die Erstellung solcher Bilder mit einem hohen Maß an Genauigkeit. Bei AI Superior waren wir stolz darauf, eine solche Erfahrung zu machen, indem wir für ein pharmazeutisches Unternehmen einen Stain-Transfer durchführten: die Verarbeitung von Bildern von Krebsgewebe. Die größte Herausforderung bei diesem Projekt war das Fehlen von gepaarten Bildern, die zeigen, wie dasselbe Gewebe nach der Verarbeitung mit verschiedenen Reagenzien aussieht. Nichtsdestotrotz nutzte das AI Superior Team modernste Technologien, um dieses Problem zu überwinden, und schuf ein GAN, das realistische Bilder eines anderen Bereichs erzeugen konnte, wobei wichtige Merkmale für die weitere Analyse erhalten blieben. 

Domänenanpassung: Geospatiale Analytik

Ein weiterer Bereich unserer Dienstleistungen, in dem GANs zum Einsatz kommen, ist die Geodatenanalyse. Für Unternehmen, die an Inspektionen im Freien interessiert sind, wie z. B. Erschließungsunternehmen, Betreiber von Nationalparks, Stadtverwaltungen, Öl- und Gasunternehmen usw., helfen wir dabei, von Satelliten gelieferte Radardaten mit synthetischer Apertur in menschenfreundliche visuelle Daten zu übersetzen, sowohl in Graustufen als auch in Farbe. Unsere Kunden sehen eine natürliche oder industrielle Landschaft genau so, wie sie am Boden existiert. Diese Technologie ermöglicht eine schnellere Entscheidungsfindung durch die Verwendung von Kartenansichten, die keinerlei Interpretation erfordern. Darüber hinaus können Geodaten mit nicht raumbezogenen Daten überlagert oder mit Tags versehen werden. Durch Tags werden physische Objekte klassifiziert, so dass Sie Unstimmigkeiten schnell erkennen können, z. B. ein Objekt, das nicht zu dem Gebiet gehört.

Dies ist sowohl für gewerblich genutzte als auch für nicht gewerblich genutzte Einrichtungen ideal, um zu verhindern, dass sich physische Schäden ausbreiten oder negative Auswirkungen verursachen.

Bildverarbeitung und -verbesserung

Abgesehen von diesen beiden sehr spezifischen Bereichen sind verschiedene bereichsübergreifende Anwendungen von GANs für unterschiedliche Branchen möglich.

Grundsätzlich ermöglichen GANs die Manipulation von Bildern auf der Grundlage des geschulten "Verständnisses" des GANs, was ein perfektes oder richtiges Bild sein sollte.

So können z. B. unvollständige Bilder ihre fehlenden Teile zurückerhalten, oder beschädigte Teile eines Bildes - häufig eines alten Fotos oder Kunstwerks - können wiederhergestellt werden. Diese Technik wird Image Inpainting genannt und richtet sich an viele Wissenschaftler, Restauratoren, Privatpersonen und alle, die an der Verbesserung digitaler Bilder interessiert sind, ob rein digital oder mit einem physischen Artefakt dahinter. 

Als nächstes bringen GANs Techniken, die aus Photoshop und ähnlicher Software bekannt sind, auf eine neue Ebene. Sie ermöglichen es, unscharfe Bilder schärfer zu machen. GANs können die Auflösung eines Bildes künstlich erhöhen, indem sie kleine, für das menschliche Auge nicht auffindbare Teile des Bildes hinzufügen, indem sie diese von einem ähnlichen Bild übernehmen, das sie zuvor gelernt haben. 

GANs können einem Bild nicht nur etwas hinzufügen, sondern auch Bildteile entfernen und durch geeignetere ersetzen. Sie können Schmutzflecken aus digitalen Kopien alter Fotografien entfernen oder, was noch wichtiger ist, eine Entrauschung von Bildern durchführen. Von dieser Technik können vor allem Kriminalbeamte profitieren.

Erzeugung synthetischer Daten

Indem sie in der Lage sind, visuelle Daten zu erzeugen, helfen generative kontradiktorische Netze anderen neuronalen Netzen beim Lernen und ihren Entwicklern, kostengünstige und realistische Datensätze für sie zu erhalten. Das beste Beispiel dafür sind Bilderkennungsalgorithmen, die in selbstfahrende Autos integriert sind. Sie benötigen viele visuelle Daten, um zu lernen, wie sie sicher durch die riesige Menge an realen, lebenden und künstlichen Objekten navigieren können.

Synthetische visuelle Daten können bei der Anonymisierung realer Daten hilfreich sein. Wir alle kennen das Problem mit Google Street View. Es ist eine großartige Sache, wenn man einen weit entfernten Ort besser kennenlernen möchte, aber ein Übel, wenn das eigene Gesicht dabei erfasst wird. Derzeit verwischt Google Gesichter und Nummernschilder, aber in Zukunft wäre es großartig, echte Gesichter durch Deepfakes zu ersetzen: nicht existierende Personen, die sich nicht um ihre Privatsphäre scheren würden. 

Interessanterweise war einer der Anwendungsbereiche für synthetische Daten früher der stärkste Vorposten menschlicher Kreativität: die Mode. Doch aus welchen Gründen auch immer, scheint die Modebranche bereitwillig KI-Algorithmen zu übernehmen. Allerdings weniger zur Generierung völlig neuer Ideen. Ähnlich wie die Entwickler von Videospielen greifen Modedesigner auf KI zurück, um das natürliche Verhalten von Kleidung am menschlichen Körper zu imitieren. So lässt sich die Beliebtheit neuer Kleidungsstücke vorhersagen, denn für die Kunden zählt nicht nur ihr Aussehen, sondern auch, wie der Stoff am Körper sitzt.

Kodierung und Dekodierung von Daten

Nvidia hat eine nette Neuerung für die Nutzer von Videokonferenzen entwickelt. Sie wissen wahrscheinlich, wie seltsam es sich anfühlt, Ihrem Gegenüber während einer Videokonferenz nicht in die Augen schauen zu können, und zwar aus dem einfachen Grund, dass unsere Webcams nie in der Mitte des Bildschirms platziert sind, also an dem Punkt, an dem wir natürlich versuchen, hinzuschauen. Nvidia hat eine Technik entwickelt, die es ermöglicht, Ihre Kameraaufnahmen auf der anderen Seite des Gesprächs zu transformieren und Sie in die Augen Ihres Gesprächspartners schauen zu lassen.

Das bedeutet nicht nur eine bessere und natürlichere menschliche Kommunikation, sondern auch eine geringere Belastung für die Kommunikationsausrüstung. Anstatt das gesamte Filmmaterial während des Gesprächs zu übertragen, wird Ihr Bild nur einmal übertragen. Dann werden nur einige wenige Referenzpunkte auf Ihrem Gesicht verfolgt, um Ihre Mimik zu erfassen. Ihr Gesichtsausdruck wird dann am anderen Ende des Gesprächs rekonstruiert. Diese Methode reduziert die Menge der hin- und herübertragenen Nutzdaten, die bisher eine enorme Bandbreite und Rechnerkapazitäten beanspruchten.

Schlussfolgerung

Bei AI Superior beobachten wir ständig die neuesten Trends im Bereich des maschinellen Lernens. Unsere Kunden liefern uns die besten Beispiele dafür, wie KI und Bildverarbeitung unser Leben umgestalten und die Welt sicherer machen. Wir sind bereit, unser Fachwissen bei der Anwendung von GANs für die medizinische Versorgung und Forschung sowie für die Geodatenanalyse und andere Branchen weiterzugeben.

Haben Sie eine Frage?