De kern van het uitlegbaarheidsprobleem zit vaak in de manier waarop data gebruikt wordt. Het nut van big data bestaat uit de mogelijkheid om proxies, vervangers, te vinden van verborgen variabelen waarvan we eigenlijk de waarde willen weten. Het geheel van mijn betalingsgeschiedenis is bijvoorbeeld een waardevolle proxy voor mijn betalingsdiscipline in de toekomst, en die speelt een verdedigbare rol bij het inschatten van mijn kredietwaardigheid. Natuurlijk mag een kredietverstrekker inschatten hoe groot het risico is dat ze nemen als ze mij geld verstrekken. Op dezelfde manier is mijn dagelijkse busreis van en naar mijn werk een waardevolle proxy voor mijn reisgedrag in de nabije toekomst, en die speelt een verdedigbare rol bij het bepalen van de nieuwe dienstregelingen van een busmaatschappij.
Maar deze proxies zijn niet volledig betrouwbaar. Ik kan bovenstaande veronderstellingen betwisten met aanvullende informatie. Tegenover de kredietverstrekker bijvoorbeeld als mijn betalingsgeschiedenis het gevolg is van een inmiddels opgehelderde identiteitsdiefstal. Tegenover de busmaatschappij als ik net veranderd ben van baan en nu met een andere buslijn naar het werk zal gaan, en daar als vaste passagier meegeteld wil worden. Ik claim dan als het ware een uitzonderingspositie: de proxy voorspelt in mijn individuele geval niet de waarde van de variabele die verdedigbaar als bewijs mocht dienen voor de beslissing.
Big data als proxy heeft vaak betrekking op zeer stabiele kenmerken. Kenmerken van mij die statistisch gezien niet vaak veranderen. Zoals die betalingsdiscipline of dat reisgedrag. Dat maakt die data lang houdbaar en dus waardevol en goed verhandelbaar in het bedrijfsleven. Dat is bijvoorbeeld ook waarom websites liever naar je geboortedatum vragen dan naar je leeftijd. Een geboortedatum is namelijk ook lang houdbaar en bovendien ook nog eens een 100% betrouwbare voorspeller van je leeftijd in toekomstige contacten waarbij je leeftijd een factor van belang is.
Maar die houdbaarheid is precies één van de essentiële kenmerken van gevoelige data op basis waarvan mensen zich gediscrimineerd of uitgesloten kunnen voelen. Je verandert bijvoorbeeld ook niet zomaar van ras, geslacht, religie of seksuele voorkeur. Op dezelfde manier dragen we nu steeds meer lang houdbare proxy labels met ons mee, die gemiddeld vaak wel kloppen, maar in individuele gevallen regelmatig niet. Of die wel klopten, maar nu niet meer.