20 juni 2022

AI- en beeldgegevens: van fancy tot serieus

Gratis AI-consultatiesessie

Ontvang een gratis service-offerte

Vertel ons over uw project - wij sturen u een offerte op maat

Onlangs zijn machine learning-modellen vol vertrouwen een nieuwe fase van hun evolutie ingegaan. Oorspronkelijk kwamen ze naar voren als classificatoren en voorspellers, maar nu kunnen ze op eigen kracht volledig nieuwe gegevens genereren.

Dat werd mogelijk gemaakt door het onbewaakte leren uit te breiden naar generatieve modellering die kan worden toegepast op visuele gegevens.

In dit artikel leggen we uit wat voor soort kunstmatige geest de beeldgeneratie aandrijft en wat de implicaties zijn, van de populaire cultuur tot levensreddende industrieën.
Wat zijn generatieve vijandige netwerken?
Generatieve Adversarial Networks (GAN's) hebben bewezen een van de meest efficiënte beeldprocessors te zijn.

GAN's zijn neurale netwerken die in paren werken.

Elk paar heeft een generator en een discriminator. De generator verbruikt de trainingsgegevens en genereert vervolgens nieuwe gegevens die dezelfde kwaliteiten moeten hebben als de oorspronkelijke dataset en als natuurlijk zouden moeten doorgaan voor mensen. Als de generator bijvoorbeeld zou worden gevoed met portretten van katten, zou deze een geheel nieuwe, natuurlijk ogende foto van een kat moeten genereren.

Het is echter geen mens die de natuurlijkheid van de gegenereerde gegevens beoordeelt. Dit is de taak van het tweede netwerk: de discriminator. De discriminator verbruikt zowel de trainingsgegevens als de uitvoer van de generator. Het keurt de uitvoer van de generator goed of verwerpt deze als nep. De twee netwerken zijn verwikkeld in een evolutionair ras dat bekend is uit de natuur, waarbij een roofdier vaardigheden ontwikkelt om beter te kunnen jagen, terwijl zijn slachtoffer betere ontsnappingsmogelijkheden ontwikkelt.

Zodra de discriminator de invoer als nep markeert en deze nep is, werkt de generator het genererende algoritme bij om de gegevens efficiënter te vervalsen. Het doel van de training is om de generator perfect te maken in faken.

Maar faken betekent in dit geval geen schade. Het helpt om gaten in visuele gegevens voorgoed op te vullen.
GAN's (pop)culturele toepassingen
Tegenwoordig hoef je geen deel uit te maken van de AI-industrie om in aanraking te komen met beeldverwerkingstechnologieën.

Ken je de kat nog? Dergelijke afbeeldingen worden genoemd deepfakes. Deepfakes worden bijvoorbeeld gebruikt in de filmindustrie. In Star Wars vervingen filmmakers de reeds overleden actrice Carry Fisher door haar deepfake om een scène met prinses Leia in te voegen in een van de spin-offs van de saga.

De mobiele en internetindustrie bloeit met applicaties waarmee je je selfie in Van-Gogh-stijl kunt laten lijken door gebruik te maken van de stijloverdrachttechniek. Wetenschappers of gewoon nieuwsgierige mensen kleuren zwart-witafbeeldingen in om de geschiedenis en herinneringen aan hun families of belangrijke gebeurtenissen uit het verleden te reconstrueren.

GAN’s zetten zelfs nog een stap richting een volledig autonome geest door AI’s in staat te stellen beelden te creëren op basis van schriftelijke instructies. Het omgekeerde werkt ook: geef een GAN een foto en hij vertelt je in natuurlijke taal wie of wat erop staat afgebeeld.

Laten we eens diep duiken in hoe het allemaal werkt.

Hoe GAN's werken voor kritieke industrieën

Domeinaanpassing: geneeskunde en farmacie

We noemden de vertaling van beeld naar tekst of tekst naar beeld in het vorige deel. Bovendien is ook beeld-naar-beeldvertaling mogelijk. Stijloverdracht voor entertainmentdoeleinden is daar slechts een onderdeel van.

In een cruciale sector, zoals de medische zorg, vertaling van beeld naar beeld kan worden gebruikt om onderzoek en daadwerkelijke behandeling van patiënten te vergemakkelijken. Het analyseren van weefsel maakt het bijvoorbeeld mogelijk om de voortgang van de ziekte te volgen en de meest efficiënte genezing te bepalen. Tijdens een analyse wordt een weefsel gekleurd met een reagens. Hiervoor bestaan echter verschillende reagentia. Het zou veel tijd en moeite vergen om echte beelden te verzamelen van alle mogelijke variaties in de voortgang van de ziekte en om weefsels te kleuren met alle beschikbare reagentia.

In plaats daarvan maakt beeld-naar-beeld-vertaling het mogelijk dergelijke beelden met een hoge mate van nauwkeurigheid te genereren. Bij AI Superior waren we er trots op dat we een dergelijke ervaring konden opdoen door vlekoverdracht uit te voeren: verwerking van kankerweefselbeelden, uitgevoerd voor een farmaceutisch bedrijf. De grootste uitdaging van dit project was de afwezigheid van gepaarde beelden die zouden laten zien hoe hetzelfde weefsel eruit ziet nadat het door verschillende reagentia is verwerkt. Niettemin heeft het AI Superior-team gebruik gemaakt van de modernste technologieën om dit probleem op te lossen en een GAN gecreëerd die erin slaagde realistische beelden van een ander domein te genereren, waarbij kritische kenmerken behouden bleven voor verdere analyse.

Domeinaanpassing: georuimtelijke analyse

Een ander heel domein van onze diensten waarbij GAN's betrokken zijn, is georuimtelijke analyse. Voor entiteiten die geïnteresseerd zijn in inspecties buitenshuis, waaronder ontwikkelingsbedrijven, exploitanten van nationale parken, stadsgemeenten, olie- en gasbedrijven, enz., helpen we bij het vertalen van synthetische apertuurradargegevens afkomstig van satellieten naar mensvriendelijke visuele gegevens, zowel in grijstinten als kleur. Onze klanten zien een natuurlijk of industrieel landschap precies zoals het op de grond bestaat. Deze technologie maakt snellere besluitvorming mogelijk door gebruik te maken van kaartweergaven die geen enkele interpretatie vereisen. Bovendien kunnen georuimtelijke gegevens worden overlay met niet-ruimtelijke gegevens of worden getagd. Tags classificeren fysieke objecten waardoor u snel afwijkingen kunt opmerken, zoals een object dat niet tot het gebied behoort, waardoor de handmatige inspanning wordt verminderd en de responstijd wordt verkort.

Dit werkt perfect voor zowel commercieel gebruikte als niet-commerciële faciliteiten, waardoor wordt voorkomen dat de fysieke schade zich verspreidt of een negatieve impact heeft.

Beeldverwerking en -verbetering

Naast deze twee vrij specifieke domeinen zijn er verschillende domeinoverschrijdende toepassingen van GAN's mogelijk voor verschillende industrieën.

In principe maken GAN's de manipulatie van afbeeldingen mogelijk op basis van het getrainde 'begrip' van de GAN van wat een perfect of juist beeld zou moeten zijn.

Onvolledige afbeeldingen kunnen bijvoorbeeld de ontbrekende delen terugkrijgen, of beschadigde delen van een afbeelding (vaak van een oude foto of kunstwerk) kunnen worden hersteld. Deze techniek heet beeld inschilderen en komt tegemoet aan de behoeften van veel wetenschappers, restaurateurs, particulieren en iedereen die geïnteresseerd is in het verbeteren van digitale beelden, puur digitale beelden of met een fysiek artefact erachter.

Vervolgens brengen GAN's technieken die bekend zijn uit Photoshop en vergelijkbare software naar een nieuw niveau. Ze maken het mogelijk om onscherpe foto's scherper te maken. GAN's kunnen de resolutie van een afbeelding kunstmatig verhogen door kleine, voor het menselijk oog niet traceerbare, delen van de afbeelding toe te voegen door deze te lenen van een soortgelijke afbeelding die ze eerder hebben geleerd.

GAN's kunnen niet alleen iets toevoegen aan een afbeelding, maar ook afbeeldingsonderdelen verwijderen en vervangen door wat meer geschikt is. Ze kunnen vuilvlekken verwijderen van digitale kopieën van oude foto's of, nog belangrijker, gedragingen uitvoeren ruis ontnemen van afbeeldingen. Misdaadonderzoekers zijn beslist degenen die van deze techniek kunnen profiteren.

Generatie van synthetische gegevens

Door visuele gegevens te kunnen genereren, helpen generatieve vijandige netwerken andere neurale netwerken om te leren en helpen hun makers goedkope en realistische datasets voor hen te verkrijgen. Een helder voorbeeld zijn de beeldherkenningsalgoritmen die zijn ingebed in zelfrijdende auto's en die veel beeldmateriaal nodig hebben om veilig te leren navigeren tussen de enorme hoeveelheid echte objecten, zowel levend als kunstmatig.

Synthetische visuele gegevens kunnen nuttig zijn bij het anonimiseren van echte gegevens. We kennen allemaal het probleem met Google Street View. Het is iets geweldigs als je een afgelegen plek beter wilt leren kennen, maar een kwaad als je eigen gezicht erdoor wordt betrapt. Momenteel vervaagt Google gezichten en kentekenplaten, maar in de toekomst zou het geweldig zijn om echte gezichten te vervangen door deepfakes: niet-bestaande personen die zich niets aantrekken van hun privacy.

Interessant genoeg was een van de toepassingsdomeinen voor synthetische data vroeger de sterkste voorpost van menselijke creativiteit: mode. Om welke reden dan ook lijkt de mode graag AI-algoritmen te adopteren. Maar minder voor het genereren van compleet nieuwe ideeën. Net als makers van videogames doen modeontwerpers een beroep op AI voor het imiteren van het natuurlijke gedrag van kleding op een menselijk lichaam. Dat maakt het mogelijk om de populariteit van nieuwe kleding te voorspellen, omdat niet alleen hun uiterlijk telt voor klanten, maar ook hoe de stof op hun lichaam zit

Gegevenscodering en -decodering

Nvidia heeft daar een mooie uitbreiding voor bedacht gebruikers van videoconferenties. U weet waarschijnlijk hoe vreemd het voelt om uw gesprekspartner tijdens een videoconferentie niet aan te kijken, om de simpele reden dat onze webcams nooit in het midden van het scherm zijn geplaatst, op het punt waar we uiteraard naar proberen te kijken. Nvidia ontwikkelde een techniek waarmee je je camerabeelden aan de andere kant van het gesprek kunt transformeren en je in de ogen van je gesprekspartner kunt laten kijken.

Dit betekent niet alleen een betere en natuurlijkere menselijke communicatie, maar ook een lagere belasting voor de communicatieapparatuur. In plaats van dat u tijdens het gesprek het volledige beeldmateriaal verzendt, wordt uw beeld slechts één keer verzonden. Vervolgens worden slechts een paar referentiepunten op uw gezicht gevolgd om uw mimic vast te leggen. Uw gezichtsuitdrukking wordt vervolgens gereconstrueerd aan de andere kant van het gesprek. Deze methode vermindert de hoeveelheid lading die heen en weer wordt verzonden, wat voorheen een enorme bandbreedte en rekencapaciteit in beslag nam.

Conclusie

Bij AI Superior houden we voortdurend de nieuwste trends op het gebied van machine learning in de gaten. Onze klanten geven ons de beste voorbeelden van hoe AI en beeldverwerking ons leven opnieuw vormgeven, waardoor deze wereld een veiliger plek wordt om te leven. We zijn klaar om onze expertise te delen in het toepassen van GAN's voor medische zorg en onderzoek, maar ook voor geospatiale analyses en andere industrieën.

Laten we samenwerken!

Schrijf je in voor onze nieuwsbrief

Blijf op de hoogte van onze laatste updates en exclusieve aanbiedingen door u te abonneren op onze nieuwsbrief.