Eerder in deze serie hebben we AI-risicobeheersing, de specifieke risico’s van AI en het verband tussen die risico’s en het ethisch beleid van de organisatie besproken. In dit artikel gaan we in op een belangrijk aspect van de effectieve implementatie van risicobeheersing: het leervermogen van de organisatie.

Stel je het volgende scenario voor: Je werkt in een organisatie die aanvragen verwerkt, waarvan een deel frauduleus. De fraudegevallen vergen veel onderzoek. Je besluit daarom een risicomodel te trainen met de data uit afgesloten onderzoeken om risicogevallen voor fraude efficiënt te kunnen selecteren voor handmatig onderzoek. Het risicomodel lijkt zeer succesvol in het vinden van fraudegevallen. Sterker nog, na enkele jaren scoort het systeem 100% in het vinden van daadwerkelijke fraudes en is het aantal fraudes enorm teruggelopen. Wat betekent dit? Hebben we het probleem van fraude bijna opgelost, of doen de meeste frauduleuze aanvragers nu blijkbaar iets anders dan de populatie uit de afgesloten onderzoeken? Alleen door een experiment te doen kom je achter het juiste antwoord.

Reinforcement learning

In de Artificial Intelligence kennen we een onderscheid tussen drie belangrijke machine learning paradigma’s, dat wil zeggen drie verschillende manieren om aan te kijken tegen het doel om algoritmes te ontwerpen die kunnen leren: supervised learning, unsupervised learning en reinforcement learning. De derde – reinforcement learning – is de vorm die het meest lijkt op hoe wij mensen lijken te leren van onze ervaringen. Aan dit paradigma liggen een aantal uitdagingen ten grondslag die goed passen bij de werkelijkheid. Zo is het vaak moeilijk vooraf in kaart te brengen wat je precies wil dat het systeem doet. Maar al doende leert men. Vooraf beschikbare datasets voor het trainen van een algoritme zijn vaak geen zuivere weergave van de daadwerkelijke omgeving waarin het systeem ingezet gaat worden. Bovendien kan diezelfde omgeving gedurende de inzet veranderen waardoor onder andere de betekenis van handelingsopties verandert.

Reinforcement learning gaat over het kiezen van een strategie waarmee je optimale grip op de taak en op de omgeving houdt door presteren en blijven leren optimaal met elkaar te combineren. Het algoritme investeert een deel van beschikbare resources in presteren en een deel in experimenteren om te blijven leren. Ongeveer zoals een mens in de kantine de ene keer het lekkerste belegde broodje koopt uit de al bekende opties, en soms het nieuwe belegde broodje probeert. Je neemt een risico met het onbekende, het kan tegenvallen maar het kan ook zomaar het nieuwe lekkerste broodje blijken. Bovendien is het kiezen van het lekkerste broodje ook geen duidelijke conceptualisatie van een doel: wat het juiste antwoord is verschilt van dag tot dag. Als mens doe je min of meer vanzelf aan reinforcement learning.

Technologie voor reinforcement learning is de meest complexe en experimentele technologie om te beheersen, en wordt om die reden vaak vermeden. Niet in iedere business case voor de inzet van AI-technologie kan vrij geëxperimenteerd worden, want experimenteren gaat op de korte termijn ten koste van prestaties. Je neemt met opzet risico. Dit ontslaat de organisatie echter niet van de plicht om zelf zo goed mogelijk aan reinforcement learning te doen en niet blind te varen op algoritmes. Dit is altijd een uitdaging voor organisaties, omdat altijd de druk bestaat leervermogen op te offeren voor korte-termijnprestaties. En als je AI-technologie inzet op plekken waar eerst slimme mensen werkten dan dreig je organisatorisch leervermogen in te leveren. Voor de inzet van AI-technologie houdt organisatorisch leervermogen om te beginnen in dat AI oplossingen periodiek geëvalueerd en hertraind moeten worden. Maar een goede evaluatie staat of valt met een goed ontwikkeld risicobewustzijn.

Risicoscenario's

Een goede risico-assessment voor een AI-oplossing brengt vooraf en periodiek de what could go wrongs (WCGW) in kaart. Dit zijn de onwenselijke uitkomsten die zich met een bepaalde waarschijnlijkheid voor kunnen doen. Op basis van deze WCGW bepalen we het gewenste controleniveau. Het is verstandig zo gedetailleerd mogelijk risicoscenario’s voor de WCGW uit te werken. Op deze manier krijg je inzicht in hoe je, door middel van beheersingsmaatregelen, de kans dat deze scenario’s zich voordoen kan minimaliseren en hoe je de impact van deze scenario’s voor de bedrijfsvoering zo goed mogelijk in de hand kan houden als ze zich wel voordoen.

Op basis van deze risicoscenario’s kunnen je je vervolgens afvragen wat voor feedback en monitoring voorzieningen nodig zijn in de omgeving waarin het algoritme ingezet wordt om tijdig te reageren als er zich een risicoscenario aan het voltrekken is.

Voor monitoring is het van belang dat de data die nodig is om te toetsen of deze scenario’s zich ook daadwerkelijk voordoen, ook daadwerkelijk verzameld wordt. Het verzamelen van deze data kan op verschillende manieren:

1. Het kan extra data zijn, bijv. over lidmaatschap van kwetsbare, beschermde groepen, die specifiek voor een test verzameld wordt.

2. In voorkomende gevallen kan af en toe een dure steekproef of experiment uitgevoerd moeten worden, bijv. door in een selectieproces tijdelijk alle binnenkomende gevallen te selecteren.

3. Verder is er minimaal voldoende gedetailleerde audit trail data over het gedrag van het systeem om bij een periodieke review te kunnen onderzoeken of het systeem naar wens functioneert.

Het betekent echter ook dat de data, afhankelijk van het scenario, voldoende tijdig beschikbaar is om in te kunnen grijpen, en dat er ook ingegrepen kan worden. Als tijdigheid een belangrijke rol speelt, is het verstandig deze data doorlopend en direct inzichtelijk te kunnen maken. Als daarvoor aanvullende software ontwikkeld wordt, spreken we vaak over een performance dashboard.

Effectieve monitoring vraagt vaak om additionele softwareontwikkeling om de juiste data-analyses te kunnen verrichten, want het meten en weergeven van performance kan zelden in de vorm van een enkel metertje dat weergeeft hoe vaak het systeem het gemiddeld gesproken goed of fout doet. Waar we echt in geïnteresseerd zijn is of de voorziene risicoscenario’s zich voordoen, en eigenlijk ook of er zich onvoorziene risicoscenario’s aan het voltrekken zijn.

Om een eenvoudig voorbeeld te geven: We zetten een gezichtsherkenner in om de toegangspoortjes op kantoor automatisch te openen. Deze werkt in 99% van de gevallen correct. We hebben echter voorzien (omdat we het nieuws volgen) dat het systeem verschillende resultaten zou kunnen behalen op basis van huidskleur en hebben daarom enkele groepen onderscheiden waarvoor we afzonderlijk meten omdat we dit als een risicoscenario zien. Dat hebben we dus ingebouwd in de monitoring. Wat we niet hebben voorzien is dat er enkele collega’s zijn, schijnbaar willekeurig, die pertinent niet door het poortje mogen. Dat hadden we wel uit de data kunnen halen die we bijhouden, maar dat gaan we pas doen op het moment dat die collega’s beginnen te klagen en die klachten vervolgens op de juiste plaats terechtkomen. Dit is een voorbeeld van voortschrijdend inzicht. Een onvoorzien risicoscenario.

Feedback, reparatie en remediëring

Monitoring maakt dus de prestaties van een systeem toegankelijk, maar alleen is dat nog geen oplossing. Van een feedbackproces is pas sprake als problemen ook tot tijdige en effectieve reparaties en remedies leiden. Een performance dashboard is niet nuttig als niemand er naar kijkt. Of als degene die er naar kijkt niet toegerust is met de juiste kennis om te kunnen beoordelen of een scenario zich voordoet. Of als diegene geen aanspraakpunten heeft om een effectieve ingreep te organiseren. Of als er alleen met oogkleppen op naar een performance dashboard gekeken wordt en andere problemen niet gezien worden.

De juiste kennis komt neer op het ontwikkelen en bijhouden van risicobewustzijn op de juiste plekken op de werkvloer. Periodieke training dus, die bovendien iedere keer aangepast wordt aan voortschrijdende inzichten voortkomend uit een periodieke herziening van de risico-assessment. Effectiviteit van ingrepen hangt weer af van de inrichting van de processen die ervoor moeten zorgen dat feedback de juiste partijen bereikt. Welke processen ingericht moeten zijn, en hoe belangrijk de tijdigheid en effectiviteit van die processen is, hangt af van de risicoscenario’s die door die processen gedekt worden.

Bij een effectieve ingreep denken we over het algemeen aan drie interventieplannen die in werking treden als er op een panic button of stop-loss button gedrukt wordt: 

  1. een alternatieve manier van werken zonder de AI-oplossing;
  2. een verandertraject voor de AI-oplossing zodat deze zo snel mogelijk weer inzetbaar is; en, indien nodig,
  3. een procedure voor de herbehandeling of herziening van besluiten die op onwenselijk gedrag van de AI-oplossing gebaseerd lijken te zijn, zodat veroorzaakte schade ongedaan gemaakt kan worden. 

In het eerder genoemde voorbeeld over het toegangspoortje van het kantoor zijn de interventieplannen eenvoudig en relatief goedkoop: de receptie van het kantoor kan ze grotendeels uitvoeren, mits die interventies voorzien zijn. Interventieplannen kunnen echter behoorlijk duur uitpakken. Het is daarom verstandig deze kosten mee te nemen in de business case voor de AI-oplossing. Via de media krijgen we af en toe een inkijkje in hoe een dergelijk scenario zich kan voltrekken, en welke impact het kan hebben.

Een worst case scenario: Als een overheidsorganisatie die op grote schaal officiële besluiten neemt over burgers wordt beschuldigt van discriminatie kan op de panic button gedrukt worden om per direct te stoppen met het gebruik van een IT-systeem. De overheidsorganisatie wordt dan per direct geconfronteerd met de handmatige herbehandeling van alle twijfelachtige besluiten, bovenop de doorlopende besluitvorming, in een gemankeerde IT-infrastructuur, met gigantische extra personeelskosten als gevolg. Bovendien kan de overheidsorganisatie een enorme lading kritiek te verwerken over haar institutionele tekortkomingen, overbelast worden met rechtszaken, en vertrouwen van eigen werknemers verliezen.

Echt slimme AI zou het nodige risicobewustzijn bezitten om risicoscenario’s te herkennen en zelf experimenten uit te voeren, en zou autonoom de noodplannen in werking stellen en het verandertraject voor zichzelf uitvoeren. Dit is nog niet de praktijk. Algoritmes die zichzelf doorlopend autonoom hertrainen op basis van de nieuw opgedane ervaringen bestaan wel. Denk bijvoorbeeld aan het type algoritme dat aanbevelingen voor films doet op basis van je kijkgeschiedenis. Maar deze algoritmes vergroten de risico’s eerder dan dat ze ze verkleinen, en worden vooral toegepast voor beslissingen zonder enige impact. Wat wel kan is het bouwen van een systeem dat waarschuwt als meetbare criteria overschreden worden, maar dan moet door de organisatie wel goed nagedacht worden over wat ze wil meten en welke data ze dan nodig heeft.

Blijven leren

Toenemend gebruik van AI-technologie in bedrijfsprocessen leidt tot een afname van het aantal geoefende ogen in die bedrijfsprocessen. Dit is hét grote risico van de autonomie van AI als beslisser. De grote uitdaging voor de organisatie is om het leervermogen van de organisatie daarbij in stand te houden of zelfs gebruik te maken van mogelijkheden die data bieden om het leervermogen van de organisatie te verbeteren. Deze uitdaging vraagt om goede risico-assessments en een breed gedeeld risicobewustzijn, maar ook om de wil de organisatie zo in te richten dat ze kan blijven leren van haar fouten. Als team helpen we graag bij het ontwikkelen van een strategie en governance-structuur gericht op leervermogen.

Wilt u meer informatie over dit onderwerp of over onze AI-services? Neem dan contact op met Frank van Praat, director Trusted Analytics.

De auteurs van dit artikel zijn Marc van Meel, senior consultant Trusted Analytics en Alexander Boer, senior manager Trusted Analytics.