Betrouwbare analytics en de vertrouwenskloof - KPMG Belgium
Human hand touches robot hand

Betrouwbare analytics en de vertrouwenskloof

Betrouwbare analytics en de vertrouwenskloof

Betrouwbare analytics en de vertrouwenskloof

Peter Van den Spiegel | Author,

Een onderzoek van KPMG uit 2016 toonde aan dat slechts 34% van de organisaties veel vertrouwen heeft in hun operationele Data & Analytics (D&A) en ongeveer hetzelfde aantal erop vertrouwt dat hun D&A hun meer inzicht in de klant leveren. Uit het onderzoek bleek ook dat slechts 10% van de organisaties vertrouwen heeft in de gegevenskwaliteit, tools en methodologieën. Mensen kunnen gegevens en analyses niet vertrouwen wanneer ze ze niet begrijpen, de onderzoekers die de analyses uitvoeren niet vertrouwen, of geen vertrouwen hebben in de gehanteerde technieken.

Zoals we al aangaven in het eerste artikel van deze reeks, kunnen onverwacht gedragen resultaten van AI-initiatieven tot wantrouwen in data en analytics leiden. AI-systemen functioneren niet altijd op de manier waarop ze werden geprogrammeerd (zoals de twee chatbots van Facebook in 2017 die ineens communiceerden in een taal die de AI zelf had ontwikkeld). Ook al worden bedrijfsprocessen door AI-systemen verricht, moet de organisatie, ingeval het AI-systeem stilvalt of ongepland gedrag vertoont, kunnen reageren en de situaties beheren. Bovendien kunnen er onverwachte gevolgen zijn als een AI-systeem bepaalde besluitvormingsfuncties leert door toegang te hebben tot en te leren van gegevens waarmee de AI-ontwikkelaars geen rekening had gehouden. Zo had de Microsoft-chatbot die in 2016 op Twitter werd gelanceerd, onverwacht racistische woordenschat geleerd van vroegere aanstootgevende tweets die door andere Twitter-gebruikers waren gepost. We moeten ons bewust zijn van de gegevens die aan het model worden geleverd.

Wanneer we kijken naar prescriptieve analyses, en meer bepaald optimaliseringsproblemen (bv. optimaal toewijzen van patiënten aan ziekenhuisbedden, pakketten aan bestelwagens, scholieren aan scholen), is het duidelijk dat een correcte formulering van de doelstelling cruciaal is. Neem het voorbeeld van de toewijzing van scholieren aan scholen, een moeilijk optimaliseringsprobleem, waarnaar al meer dan 50 jaar wetenschappelijk onderzoek wordt verricht. Het is duidelijk dat één ideaal algoritme niet bestaat en bij het ontwerp keuzes moeten worden gemaakt, bijvoorbeeld welke doelstelling(en) nemen we in aanmerking en welk gewicht geven we aan elk ervan? Er is een brede waaier aan (mogelijk tegenstrijdige) doelstellingen. Willen we het 'voordeel' voor de maatschappij in haar geheel maximaliseren vanuit een regelgevend/sociodemografisch oogpunt (bv. benchmarks m.b.t. het percentage indicatorleerlingen[i], zoals het geval is in bepaalde delen van Vlaanderen en België) of het 'voordeel' voor ouders maximaliseren door hun rijafstanden zo veel mogelijk te beperken? De doelstellingen anders formuleren of het gewicht van een doelstelling licht aanpassen, kan de uitkomst van het algoritme aanzienlijk beïnvloeden.

Bij voorspellende analyses zijn beslissingen over de beoordeling van de prestatie van uw (classificatie)model cruciaal. Naargelang de context wilt u of de foutnegatieve of de foutpositieve resultaten zo veel mogelijk beperken door een afweging te maken. Vooral in de medische wereld beperken we doorgaans zo veel mogelijk het aantal foutnegatieve resultaten ten koste van de foutpositieve resultaten. Het wordt namelijk veiliger geacht om een zieke patiënt niet te missen en dus patiënten, ook al is hij of zij gezond, te diagnosticeren met de ziekte. Wanneer een patiënt als positief wordt gediagnosticeerd, bestaat nog steeds een mogelijkheid (het zogenaamde 'foutpositieve percentage') dat het model een incorrecte beoordeling heeft gegeven. Alcoholtests daarentegen zijn doorgaans ontworpen om zo weinig mogelijk foutpositieve uitslagen te hebben. Mensen kunnen steeds een tweede test vragen als de test aangaf dat ze dronken zijn terwijl ze dat niet zijn. Met deze regel wordt het aantal echt dronken mensen op de weg zo laag mogelijk gehouden.

In de komende jaren zal het belangrijkste onderscheid tussen bedrijven niet langer gebaseerd zijn op de prestatie van hun model, maar het vertrouwen in de analyses dat ze tot stand hebben gebracht bij hun medewerkers, klanten en andere stakeholders. Organisaties zullen geautomatiseerde beslissingen niet ten volle kunnen uitvoeren indien hun medewerkers geen vertrouwen hebben in de tools die deze beslissingen ondersteunen. Klanten zullen hun gegevens niet willen geven indien ze niet zeker zijn dat de algoritmes in hun belang werken of indien ze het doel van de gegevensverzameling niet vertrouwen.

Auteurs: Peter Van den Spiegel en Annelies De Corte