close
Share with your friends

Kun je op basis van een statistisch argument de conclusie trekken dat er sprake is van een oneerlijk algoritme? Als het nieuws het over oneerlijke algoritmes heeft, dan gaat het bijna altijd om ongelijke behandeling van een beschermde groep. Dat is de vorm van oneerlijkheid die we hier behandelen.

Individuen kunnen natuurlijk ook oneerlijk behandeld worden om individueel unieke redenen. Maar die moeten het maar doen met de uitlegbaarheid en betwistbaarheid die ik in het vorige blog besprak. 

Beschermde kenmerken

Wettelijk spreken we over beschermde kenmerken, op basis waarvan groepen onderscheiden worden. Het kenmerk geslacht verdeelt de bevolking bijvoorbeeld in mannen en vrouwen. Die groepen kunnen ongelijk behandeld worden. Die ongelijkheid van behandeling is voor groepen goed te meten en te kwantificeren. Althans als je toegang tot het beschermde kenmerk hebt.

Een naïeve manier om ongelijke behandeling van beschermde groepen door zelflerende algoritmes te vermijden is door het algoritme geen toegang geven tot het beschermde kenmerk. Sterker nog: je kunt er ook voor kiezen dat beschermde kenmerk helemaal niet te kennen. Dan kan het algoritme beschermde groepen ook niet ongelijk behandelen aan de hand van dat kenmerk. Omdat het verzamelen van data over beschermde kenmerken in het kader van privacy-wetgeving (de AVG) aan strenge regels is gebonden, is dat zelfs de voor de hand liggende optie.

Probleem daarmee is dat je ongelijkheid in uitkomsten tussen groepen op basis van een beschermd kenmerk dan ook niet meer eenvoudig kunt meten. Terwijl die ongelijkheid nog steeds kan bestaan. En wellicht van buitenaf wél goed zichtbaar is voor de beschermde groep die nadeel ondervindt. Een eerste, belangrijke, strategische overweging is dus of je als organisatie data over beschermde kenmerken wil verzamelen.

Proxies van beschermde kenmerken

Ongelijke behandeling van groepen vindt altijd zijn oorsprong in de dataset waarmee het algoritme geleerd heeft. Als het algoritme in staat blijkt beschermde groepen ongelijk te behandelen, dan concluderen we dat de dataset een proxy voor de groep bevat. Dit is een kenmerk, of combinatie van kenmerken, die als vervangers van het beschermde kenmerk kunnen dienen.

In de blog over betwistbaarheid gebruikten we deze term ook, maar dan voor die gevallen waar opzet in het spel is. Algoritmes gebruiken vaak combinaties van kenmerken die wél in de dataset zitten om kenmerken die niet in de dataset zitten, maar wel indirect voorspellende waarde hebben, te voorspellen. Als proxy voor geslacht kan bijvoorbeeld een pasfoto, beroep, zoek- en koopgedrag, lidmaatschap van een sport, of opleiding functioneren. Dit betekent dat je op basis van een combinatie van die kenmerken alsnog kan bepalen wat het geslacht is van de betreffende persoon. Een verwarmingsinstallateur is bijvoorbeeld altijd een man volgens de data van het CBS.

In dit geval is de proxy vaak onbedoeld, maar veroorzaakt wél ongelijkheid. In zekere zin kun je dan zeggen dat het algoritme de proxy spontaan ontdekt heeft. En dat is soms, maar niet altijd, een ethisch probleem.

Ongelijkheid kwantificeren

Als je over de data beschikt om ongelijkheid te meten, dan zijn er vele manieren om die te kwantificeren. Stel dat een systeem een simpel ja/nee onderscheid maakt voor een voorspelling van een positieve of negatieve uitkomst. De media zal ongelijkheid tussen twee groepen dan op de meest sensationeel mogelijke wijze kwantificeren. Ofwel als een verschil tussen de groepen in het percentage dat een ja voorspelling krijgt of als een verschil in het percentage waarvoor de uitkomst correct bleek.

Er bestaan bijvoorbeeld gezichtsherkenningssystemen die gebruikt kunnen worden om gezochte criminelen te herkennen. Herkend worden is duidelijk een uitkomst met negatieve gevolgen. Omdat de meeste mensen niet in die database zitten, zal een foutje bijna altijd een valse positief zijn: iemand wordt per abuis aangehouden omdat hij of zij lijkt op iemand in de database.

Het ligt voor de hand dat de foto-database waarop een dergelijk systeem getraind wordt veel meer foto’s van mannen dan van vrouwen zou kunnen bevatten. De meeste klanten van het strafrecht zijn mannen.

Stel je voor dat er twintig maal zoveel mannen als vrouwen in de database zitten. Stel ook dat het systeem op elke foto ongeveer een gelijke kans heeft een foutje te maken. Dan hebben mannen twintig keer zoveel kans om onterecht aangehouden te worden, maar voorspelt het systeem voor beide geslachten even vaak correct.

Stel daarentegen dat het systeem twee keer zo vaak een fout maakt bij vrouwengezichten. Misschien is het algoritme minder goed getraind is op het herkennen van vrouwengezichten. Dan is de kans dat een aanhouding van een vrouw een valse positief is twee maal hoger dan bij een aanhouding van een man. Maar de kans voor een man om onterecht aangehouden te worden nog steeds tien maal hoger. Beide groepen worden op verschillende manieren ongelijk behandeld. Hoe je die ongelijkheid wil interpreteren is een kwestie van smaak.

Representativiteit van de data

In bovenstaand scenario ontstaat het verschil door de data. De volgende vraag is dan of de data een goede afspiegeling van de omgeving is waarin het algoritme zijn taak uitvoert. Dit wordt representativiteit genoemd. Geloven we dat die twintig op één verhouding een correcte afspiegeling is van de populatie gevaarlijke gezochte criminelen? Dan kunnen we er voor kiezen de ongelijkheid te accepteren. Als we het systeem voldoende nuttig vinden.

Dat kan veel gevoeliger liggen. Een bekend geval is het COMPAS systeem dat voorspelt of iemand die een misdrijf heeft gepleegd zal recidiveren. In het geval van een ja wordt die persoon vervolgens beter in de gaten gehouden. In dit geval waren in de database waaruit COMPAS geleerd had zwarte mannen oververtegenwoordigd in de groep die recidiveert. Dit had als gevolg dat zwarte mannen een 50% grotere kans op een ja kregen. Dat is ongelijkheid. De kans dat het systeem iemand als valse positief aanmerkte was echter voor de groep zwarte mannen even groot als voor de rest, namelijk 30%.

Vooroordelen overnemen uit de data

Bij dit systeem speelden twee problemen. De eerste was dat het systeem niet nauwkeurig voorspelde. Maar 70% van de voorspellingen was correct. Bovendien voorspelde het systeem ook niet beter dan mensen dat deden met veel minder data. Het nut van het systeem is dus a priori twijfelachtig. Dat speelt een rol in onze afwegingen.

Het tweede probleem is dat de oververtegenwoordiging van recidiverende zwarte mannen in de database hier wel potentieel problematisch aanvoelt. Het ligt voor de hand dat de kans op een tweede aanhouding voor een misdrijf groter wordt als je mensen goed in de gaten gaat houden. Lang niet alle misdrijven worden opgelost, maar mensen die extra in de gaten worden gehouden zullen sneller met een zaak in verband gebracht worden.

Het systeem verving bovendien een oudere methode om mensen als hoog risico-gevallen te classificeren. Dus als deze voorafgaande methode bevooroordeeld was ten opzichte van zwarte mannen, dan zal het algoritme dit vooroordeel overnemen. Bovendien zullen de cijfers achteraf dit vooroordeel ook nog eens bevestigen. Omdat op basis van de voorspelling mensen beter in de gaten gehouden worden. Hier bestaat dus redelijke twijfel aan of de data een correcte afspiegeling is van de omgeving waarin de taak uitgevoerd wordt. Er zou sprake kunnen zijn van een skewed sample ontstaan door vooroordeel.

Als je twijfelt kun je er voor kiezen een algoritmische methode te gebruiken om in de leerfase bevooroordeeldheid richting een specifieke beschermde groep te voorkomen. Dit soort methodes worden debiasing algoritmes genoemd.

De oorzaak van de ongelijkheid

Maar waar komt die twijfel dan vandaan? De onderliggende vraag is er één over causaliteit in de omgeving waarin het algoritme zijn taak verricht. De gemeten ongelijkheid kán voortkomen uit bevooroordeeldheid in de manier waarop de taak uitgevoerd wordt, of in het verleden uitgevoerd is. In dat geval hoor je maatregelen te nemen om deze ongelijkheid ongedaan te maken. Dus mag je grijpen naar debiasing algoritmes.

De gemeten ongelijkheid kan ook betekenen dat er inderdaad een relevant verschil tussen de groepen bestaat. Zoals in het voorbeeld over de gezichtsherkenning wellicht het geval is. De organisatie moet dan een lastige afweging maken. Daarbij spelen het eigen ethische beleid, de reputatierisico’s die de organisatie bereid is te lopen, en de maatschappelijke impact van het systeem een rol. Bovendien is er dan ook een grote prijs die je betaald. Door middel van debiasing laat je het algoritme immers een causaal belangrijke voorspeller negeren.

Maatschappelijk gevoelige keuzes

Meetbare ongelijkheid dwingt de organisatie impliciet een positie in te nemen over maatschappelijk gevoelige onderwerpen. Je kunt kiezen voor toepassing van debiasing algoritmes om niet bij te dragen aan stigmatisering en uitsluiting van een beschermde groep. Zelfs als de data wél voor zich lijken te spreken. Of je accepteert de ongelijkheid als gegeven. De kenmerken die blijkbaar als proxy voor de beschermde groep functioneren kunnen een té essentiële rol spelen om te negeren.

Of je doet meer onderzoek naar het proces waar de data uit afkomstig is, in de hoop meer helderheid te krijgen. Of je komt tot de conclusie dat de business case voor het algoritme wel erg onaantrekkelijk wordt, en kiest voor een andere manier van werken. Eén die niet meetbaar is, bijvoorbeeld. Wat zou jij doen?

Beheers uw algoritmes

Mogelijk heeft u in AI geïnvesteerd of staat u op het punt dat te doen.  Maar hoe haalt u álles eruit wat erin zit?  Hoe plukt u de vruchten van uw AI-investeringen? 

In het paper 'Beheers uw algoritmes' geven we inzicht in de randvoorwaarden en specifiek op de kritieke succesfactor: de kwaliteit van AI-toepassingen. Het gaat in op de vraag wát kwaliteit is, welke belangrijke rol de data daarin speelt en hoe de kwaliteit van AI-toepassingen concreet bijdraagt aan een optimaal resultaat van uw AI-investering. En laat zien hoe deze randvoorwaarden het best georganiseerd kunnen worden. 

Contact

Alexander Boer

Senior manager Trusted Analytics
KPMG Nederland
+31 (020) 426 2643
boer.alexander@kpmg.nl

Frank van Praat

Senior manager Trusted Analytics
KPMG Nederland
+31 (030) 658 2470
vanpraat.frank@kpmg.nl