close
Share with your friends

De onvoorspelbaarheid van COVID-19

De onvoorspelbaarheid van COVID-19

Kwalitatieve voorspellingen over COVID-19 zijn om een aantal redenen lastig te doen.

Gerelateerde content

Pedestrians

Over het verleden lijkt het vaak makkelijk om goede voorspellingen te doen. Je kent de uitkomst al, en terugkijkend volgt deze schijnbaar onherroepelijk uit de data die je eerder voorhanden had. Als voormalig Artificial Intelligence-wetenschapper beoordeel ik sinds een half jaar algoritmes bij het Trusted Analytics team van KPMG. Dit zijn in de regel zogenaamde lerende algoritmes, die voorspellingen doen op basis van ervaringen uit het verleden in een bepaalde taakomgeving.

Terwijl ik aan deze serie blogs over veelvoorkomende risico's bij de inzet van algoritmes begin is de wereld in de ban van het Coronavirus, of SARS-Cov-2, en gaan vele voorspellingen rond over hoe besmettelijk en hoe dodelijk de nieuwe virusziekte COVID-19 zal blijken te zijn. Deze voorspellingen zijn gebaseerd op data, op statistische aannames en op wiskundige modellen. De kans om dood te gaan als je met de ziekte gediagnosticeerd wordt is de case fatality rate, en die varieert in de voorspellingen van een beangstigende 15% tot een geruststellende 0.01%. Het reproduction number is het aantal mensen dat gemiddeld door een besmette patiënt zal worden besmet, en dat varieert tussen 2 en 4 personen. Al deze voorspellingen zijn vanuit mijn perspectief even onzeker, want betrouwbare scores zijn pas achteraf te bepalen, als de exponentiële groei van het aantal besmettingen onder controle is. Met betrouwbaar bedoel ik niet veel meer dan dat je met verschillende statistische aannames, verschillende wiskundige modellen en verschillende datasets tot ongeveer dezelfde scores gaat komen. Ik ben geen viroloog, maar ik snap heel goed waarom die scores in de huidige fase niet betrouwbaar kunnen zijn.

Corona als onbekend risico

Het probleem is dat de Corona-uitbraak te jong is. Een onbekend risico. Slechts een klein percentage van de eerste golven van ziektegevallen is al afdoende verklaard – dat wil zeggen hersteld of overleden. Een case fatality rate baseer je natuurlijk op een populatie die óf hersteld óf overleden is. Niet op een groeiende groep mensen die net ziek is geworden, en dus misschien nog overlijdt. Ondertussen zijn de virologen ook druk bezig met het opsporen van de mensen die besmet zijn met de ziekte. En de testen zijn schaars, dus we nemen aan dat we vele zieken niet gevonden hebben. De testen zijn helaas ook niet helemaal betrouwbaar, dus false positives vertekenen al snel ons beeld. Mag je bovendien de besmettingen die niet tot enige vorm van ziekte leiden meetellen voor de case fatality rate van een ziekte? Dat doe je voor een andere ziekte toch ook niet? En dan is er ook nog een groot verschil tussen dodelijk mét beademing en dodelijk zonder beademing. Als het aantal ziektegevallen blijft toenemen veroorzaakt een tekort aan beademingsapparatuur meer doden. Daarnaast wordt het inschatten van het reproduction number bemoeilijkt doordat tegelijkertijd meer of minder draconische interventies geïntroduceerd worden om de reproductie tegen te gaan.

Het probleem van actief leren

De kern van het probleem is dat je data probeert te accumuleren en middelen die je eigenlijk nog niet hebt. Deze data wordt per patiënt observeerbaar in de loop van een ziekteproces dat een dag of 20 beslaat. En dan alleen als je veel geluk hebt. Is iemand besmet? Wanneer werd iemand besmet? Wanneer werd iemand besmettelijk en hoeveel mensen werden besmet? Wanneer kreeg iemand ziekteverschijnselen? Wanneer vond de diagnose plaats? Wanneer was iemand hersteld of overleden? Alleen die diagnose en de vaststelling van overlijden zijn redelijk harde cijfers, hoewel zelfs deze betwistbaar zijn. Dit type voorspellingsprobleem noemen we bij de inzet van algoritmes actief leren: we doen voorspellingen op basis van ervaringen die we tijdens het proces van voorspellen aan het opdoen zijn. Het is dan van groot belang rekening te houden met de eigenschappen van het proces dat je aan het voorspellen bent.

Bij het inzetten van een nieuw algoritme doen zich vergelijkbare onbekende risico's voor die pas achteraf terugkijkend goed te becijferen zijn. Het algoritme zetten we in de regel in om op basis van ervaringen uit het verleden voorspellingen te doen en op basis van die voorspellingen beslissingen te nemen. Die risico's zijn heel reëel, maar natuurlijk meestal minder dramatisch. De interventies zijn ook minder draconisch. Met de begrippen survivorship bias en popularity bias beschrijven we onbekende risico's die aan nieuwe algoritmes kleven.

Popularity bias

Popularity bias hoort bij de cold start, ofwel een koude start, van een actief lerend algoritme. De voorspellingen van een dergelijk systeem dienen meestal als aanbevelingen voor een gebruiker van het systeem, en die gebruiker pleegt interventies op basis van die aanbevelingen. De interventie bevestigt vervolgens voor het algoritme dat de aanbeveling goed (of fout) was, en daarvan leert het algoritme. Die interventies kunnen heel simpel zijn: bijv. een aanbevolen film kiezen in Netflix. Door ervaring zou het systeem geleidelijk beter moeten worden in het doen van aanbevelingen. Maar hoe doet dat systeem aanbevelingen als het nog geen ervaring heeft? Als het systeem net een koude start heeft gemaakt? Of als de films waarover aanbevelingen gedaan moeten worden nieuw zijn voor het systeem? Of als jij als gebruiker nieuw bent? Het middel waarmee het systeem zijn prestaties meet speelt hier een belangrijke rol. Stel dat je begint met willekeurige aanbevelingen. De gebruiker zal wellicht behoefte hebben aan een aanbeveling en kiest iets in de hoop dat er een reden achter de aanbeveling zit. De keuze van de teleurgestelde gebruiker geldt vervolgens als bevestiging van die aanbeveling, en weerlegging van de niet gekozen opties. Een algoritme dat actief leert zal deze informatie gelijk gebruiken voor volgende aanbevelingen, met een popularity bias voor die willekeurige aanbevelingen als gevolg die het functioneren van het systeem blijvend zal hinderen.

Het effect van de cold start kan enigszins hanteerbaar gemaakt worden door in het begin géén aanbevelingen te doen en alleen te observeren. Of door een andere slimme techniek te gebruiken om aanbevelingen te doen totdat voldoende ervaring is opgedaan. Anders haken de gebruikers van een systeem misschien te snel af. Maar ook die aanbevelingen zullen dan door popularity bias een blijvende impact achterlaten op de ervaringen die het zelflerende systeem op kan doen, dus die andere slimme techniek moet dan wel heel goed werken. De viroloog zit met een vergelijkbaar probleem: we willllen nú aanbevelingen, terwijl de data eigenlijk alleen uitnodigt tot observeren en leren.

Survivorship bias

Survivorship bias is een verwant risico, dat zich voordoet als een systeem ingezet wordt om voorspellingen te doen op basis van ervaringen uit het (reeds voltooide) verleden. Dit noemen wij passieve supervised learning: het systeem leert alleen voorafgaand aan het doen van voorspellingen. Bijvoorbeeld een systeem dat voorspelt of iemand een goede werknemer zal zijn. Of dat voorspelt of een aanvrager een hypotheek netjes zal aflossen. Of de voorspelling correct was, weten we pas na een lange tijd. Daar hebben we niet veel aan. We zijn dus aangewezen op evaluatie op basis van die ervaringen uit het verleden. Maar ook dan lopen we risico. Men zegt soms wel dat het dark web voor veel mensen begint op pagina twee van de Google zoekresultaten. Datzelfde geldt voor sollicitatieprocedures: alleen de eerste paar kandidaten worden uitgenodigd voor een gesprek, en nog minder worden aangenomen. De geschiktheid van de niet-uitgenodigde kandidaten is dus onbekend. Alleen over de in het verleden geselecteerde kandidaten hebben we dus ervaringen opgedaan. Het algoritme mist dus belangrijke informatie omdat de dataset niet in balans is. Ditzelfde probleem doet zich voor bij het indammen van COVID-19: de beschikbare data is door de interventies die gepleegd worden niet meer representatief voor de hele bevolking.

De eigenschappen van het proces waarin data ontstaat

Popularity bias en survivorship bias zijn beide varianten van selectiebias: de dataset die we hebben is niet representatief voor de omgeving waarin de voorspelling gedaan moet worden. Survivorship bias kijkt terug en herinnert ons eraan dat we rekening moeten houden met de eigenschappen van het proces waarin de dataset waarmee we het algoritme een kunstje leren tot stand gekomen is. Naar de eigenschappen en geschiedenis van dat proces doen we dus onderzoek. Popularity bias kijkt vooruit en herinnert ons eraan dat we óók rekening moeten houden met de eigenschappen van het proces dat we zelf – door de interventies in dat proces die het algoritme door zijn voorspellingen beïnvloedt – in gang zetten. Hier zijn we zelf aansprakelijk voor de kwaliteit van onze data. Kwaliteit van data begint dus bij inzicht in processen.

Dit geldt net zo goed voor onze onzekerheid rond het Coronavirus: Door de interventies die we als land kiezen ontstaat popularity bias in onze data. Testen we bijvoorbeeld meer Brabanders op basis van een aanname? Testen we bijvoorbeeld meer ziekenhuispersoneel vanuit een risico-afweging? Maken we schaarse testcapaciteit vrij voor onbevooroordeeld bevolkingsonderzoek, terwijl we al vermoeden dat de testen hier niet betrouwbaar genoeg voor zijn? Als we, als alternatief, gebruik maken van schattingen gebaseerd op data uit landen die verder zijn in het proces, zoals China, onderzoeken we de survivorship bias veroorzaakt door de keuzes voor interventies die daar gemaakt zijn. De viroloog moet vervolgens aannames doen over de vertekeningen in de dataset die daardoor ontstaan, en die zorgen voor verschilllende voorspellingen.

Alleen met voldoende informatie over de processen waarin data ontstaat kunnen we representatieve samples selecteren uit de data die beschikbaar komt, en alleen dan kunnen we écht leren van ervaringen. Bij het team Trusted Analytics is dit een boodschap die we elke keer als we adviseren of beoordelen duidelijk overbrengen: modelleer de processen waarin de data ontstaat in detail, en met alle relevante betrokkenen, zodat verschillende oorzaken van vertekening allemaal in beeld gebracht worden.

Wilt u meer informatie over dit onderwerp, of rechtstreeks contact? Neem dan contact op met de auteur van dit blog Alexander Boer, (020) 426 2634 of per e-mail.

Het team van Trusted Analytics adviseert met de AI in Control dienstverlening organisaties die algoritmes ontwikkelen over risico's op het gebied van onder andere integriteit, eerlijkheid, uitlegbaarheid, robuustheid en aansprakelijkheid, en de inrichting van beheersingsmaatregelen voor deze risico's. Daarnaast doet zij ook beoordelingen van algoritmes en de organisatie van beheersingsmaatregelen rond algoritmes.

Neem contact met ons op

 

Wilt u een offerte van ons ontvangen?

 

loading image Offerteaanvraag (RFP)