zien is geloven

visuele dataverwerking met Watson Visual Recognition

Betekenis geven aan hetgeen we zien leren we als mens van jongs af aan. We verwerken ongekend veel visuele informatie op basis van ervaring en kennis over onze wereld. Ook in het bedrijfsleven is er behoefte om relevantie te geven aan enorme hoeveelheden (ongestructureerde) visuele data. Wat als we de computer kunnen leren te ‘zien’? De Visual Recognition Service van Watson maakt deze krachtige combinatie van machine learning en beeldverwerking toegankelijker doordat de gebruiker zelf de data kan aanleveren waarop het domein getraind wordt (custom classifier). Het resultaat, software die bekend is met visuele data uit jouw domein, kan dienen als ondersteunende agent bij het werk. Zo kan er veel werk uit handen genomen worden en bij twijfel (lage confidence score) wordt het specifieke geval gewoon naar de expert doorgestuurd! Aan de hand van twee voorbeelden van dergelijke classifiers wil ik je kijk verbreden op de praktische toepassingen en mogelijkheden van services die e-office op het gebied van beeldverwerking kan leveren.

herkennen van gevaar

Uit persoonlijke ervaring is gebleken dat de default classifiers zeer accuraat zijn, maar om de ware potentie te kunnen testen moest ik op zoek naar entiteiten die in een oogopslag identiek lijken, maar in essentie compleet anders zijn. Zodoende stuitte ik op twee slangsoorten die voorkomen in Amerika die veel op elkaar lijken en vaak met elkaar verward worden, maar in essentie variëren. De ene slang, de Coral Snake, blijkt namelijk giftig te zijn, terwijl de Scarlet King Snake dat niet is. De kleuren van beiden komen overeen: Rood, geel/wit en zwart. Het patroon van de slangen is echter hetgeen wat ze onderscheidt! In regio’s waar beide soorten voorkomen worden rijmpjes en ezelsbruggetjes aangeleerd om ze uit elkaar te houden, zoals “Red touches yellow, kills a fellow. Red touches black, venom lack.” en “Red touches yellow, death says hello. Black touches red, keep your head”.

Figuur 1: Classificatie output  van een Coral Snake, een Scarlet King Snake en een geheel andere (irrelevante) slang. Alle geteste afbeeldingen komen niet voor in de training-set.

Getraind op basis van 50 afbeeldingen per categorie, is Watson in staat de slangen met hoge zekerheid te classificeren, zonder expliciet de regels van de kleurovergangen te kennen!

Figuur 1 toont drie voorbeelden van de output van de Visual Recognition Tool (demo) waarbij een Coral Snake, Scarlet King Snake en de Liophidium pattoni. De zekerheidsscore geeft aan hoe zeker Watson denkt te zijn dat de foto’s binnen die klasse valt. Let wel: het is dus géén waarschijnlijkheid waarbij de probabilities moeten optellen tot 1.0! Met enorm relatief vertrouwen geeft onze classifier aan onder welke slangsoort de input valt. Ook is duidelijk te zien wat er gebeurt op het moment dat de input geen van beide getrainde classes betreft, zie figuur 1(C).

binaire classificatie

Ook in de wereld van de snacks mag je je niet laten verrassen! De volgende classifier kan onderscheid maken tussen een Skittle en een M&M op basis van een foto van de onderzijde van één snoepje. Is dit nuttig? Niet bepaald. Leuk? Zeker wel! Zelf de juiste herkennen is namelijk zeker niet eenvoudig, aangezien de tussendoortjes ontzettend veel op elkaar lijken qua kleur, vorm en grootte.

Onze binaire waarzegger is getraind op circa 150 foto’s van de onderkant van de Skittles en M&M’s, aangezien de bovenkanten de letters ‘s’ en ‘m’ respectievelijk bevatten. Met andere woorden, we maken het de software niet te makkelijk.

Figuur 2: Binaire classificatie van drie Skittles (bovenzijde afbeelding) en drie M&M’s (onderzijde).

Voorspellen kan ons snoepmonster inmiddels als de beste: Uit tests met soortgelijke afbeeldingen aan de training-set blijkt het visuele verschil tussen een Skittle en M&M groter dan verwacht. Wederom maakt het relatieve zekerheidsverschil tussen de twee klassen het aannemelijk dat een dergelijke classifier goed te leren is aan Watson. Ook verdwijnen al je nachtmerries waarbij je denkt M&M’s te gaan eten en dan opeens Skittles proeft.

toepassingen

De voorafgaande voorbeelden zijn misschien nogal speels, maar laten wel de kracht zien van Watson Visual Recognition. De mogelijkheden met visuele data zijn onbeperkt en de toepassingen oneindig. Ik ben overtuigd dat vrijwel alle visuele data werkbaar is voor deze service, zolang deze data enigszins consistent is en er genoeg van deze data is om te trainen. Ben je op zoek naar een binaire beeldclassificatie in welke vorm dan ook, zoals het voorbeeld met Skittles en M&M’s? Wil je misschien kunnen inschatten waar je klanten het over hebben op basis van visuele input? Is het van belang afbeeldingen automatisch te laten annoteren (momenteel alleen mogelijk in het Engels)? Misschien heb je wel te maken met een proces waarbij een expert op een bepaald vakgebied een keuze moet maken, een classificatie dus! Met behulp van een drempelwaarde en data in de vorm van relevante foto’s kunnen we wellicht iets voor je betekenen en zodanig een hoop routinematig werk uit handen nemen bij de expert. Hierdoor komt er weer extra tijd vrij voor de uitzonderingen en speciale gevallen. Misschien spreken wij elkaar wel in de toekomst om een blik te werpen op de mogelijkheden, ‘zie’ maar!

e-office & IBM Offshore event

blogpost

e-office & IBM Offshore event

Op donderdagmiddag 16 maart 2017 stond er een praktische kennissessie op het programma, georganiseerd door e-office, Paperiton (Docmap) en DELTA Safety. De kennissessie werd gehouden in DELTA Safety Center te Rotterdam.

lees verder
feedback