Analyse -

Big Data: het gaat zoveel verder dan je denkt

“I'll show you how deep the rabbit hole goes”, zo gaat de bekende quote uit The Matrix. Het is die quote waaraan je onwillekeurig terugdenkt wanneer je probeert na te gaan hoe Big Data steeds meer onze levens beheerst en zal beheersen. Net als in The Matrix ontwikkelt zich gestaag een verborgen parallel universum van data en algoritmen dat bepaalt wat wij als realiteit ervaren. Overdreven? Nee, toch niet. Lees even mee.(*)

donderdag 27 oktober 2016 17:11
Spread the love

In december 2015 onthulde The Guardian dat Republikeins presidentskandidaat Ted Cruz tijdens zijn campagne een beroep deed op het bedrijf Cambridge Analytica. Het was een nieuwsfeit dat wat wegzonk tussen al de andere honderden nieuwsfeiten waarmee we dagelijks bestookt worden en dat nauwelijks deining veroorzaakte. Nochtans was het een uiterst belangrijke onthulling, omdat ze ons een glimp biedt van hoe macht vandaag precies werkt.

Dat Cruz in zee ging met een marketing- en communicatiebedrijf is op zich niet ophefmakend natuurlijk. Het volstaat echter om na te gaan wat Cambridge Analytica werkelijk doet om te begrijpen dat dit niet gaat om een klassiek marketingbedrijf.

Op de website van Cambridge Analytica lezen we dat de firma zich richt op ‘better audience targeting’, vrij vertaald: deze firma brengt ‘de juiste boodschap bij de juiste mensen’. In de woorden van het bedrijf:

Cambridge Analytica bouwt aan een toekomst waarin ieder individu een echte persoonlijke relatie met zijn favoriete merken en interesses kan onderhouden, door niet enkel aan organisaties duidelijk te maken waar mensen zich bevinden, maar ook daar na te gaan waar ze echt om geven en wat hun gedrag aanstuurt.”

Laat dat citaat even goed tot u doordringen. Wat begint als een klassiek citaat uit een marketinghandboek eindigt in een omfloerste dystopisch scenario. Cambridge Analytica geeft duidelijk aan dat het individuen wil opsporen en wil nagaan wat hun interesses zijn en hoe ze op basis daarvan het gedrag van individuen kunnen voorspellen.

We kunnen in ieder geval zeggen dat het bedrijf zich aan die belofte houdt. Cambridge Analytica beschikt over een database waarin de gegevens van 220 miljoen Amerikanen zijn opgeslagen. Onder meer data als leeftijd, geslacht, etniciteit, inkomen en relationele status worden nauwkeurig gecatalogeerd door het bedrijf.

Door die data met elkaar te combineren probeert het bedrijf gedragspatronen vast te stellen én gedrag te voorspellen. Het gaat om waarschijnlijkheden die het bedrijf probeert te berekenen. Bijvoorbeeld, als persoon X een inkomen heeft van 2000 dollar per maand, 37 jaar is, wit, man en getrouwd is en woont in Nashville, dan berekent het bedrijf dat er 70 procent kans bestaat dat deze man in kwestie houdt van country music.

Je hoogstpersoonlijke Cruz

Gedrag voorspellen? So what? zullen sommigen misschien zeggen. Wat de meeste mensen vandaag echter onderschatten is hoe accuraat dit soort calculaties is geworden. Uit een studie van Cambridge University (universiteit die volledig losstaat van Cambridge Analytica), blijkt dat er reeds op basis van slechts 170 Facebook likes heel nauwkeurige en juiste conclusies kunnen getrokken worden over iemands persoonlijke leven. Met een accuraatheid van 88 procent kan men je seksuele voorkeur achterhalen en bij 85 procent van de proefpersonen kon hun politieke voorkeur getraceerd worden. Etniciteit kon tot 95 procent juist bepaald worden.




Uit een andere studie blijkt dat computers die over voldoende data beschikken nu al beter zijn in het inschatten van persoonlijkheidskenmerken en het daaruit voortvloeiende gedrag dan mensen.

Geen wonder dus dat politici bijzonder geïnteresseerd zijn in bedrijven die dit soort voorspellingen voor hen kunnen maken. Het laat hun immers toe om gepersonaliseerde ‘content’ te zenden naar individuen. Op die manier krijgt iedere potentiële Cruz-stemmer zijn eigen ‘Ted Cruz’ voorgeschoteld.

Maak je trouwens geen illusies. Alle presidentskandidaten maken gebruik van dit soort data-analyse. De éne kan het gewoon beter verbergen dan de andere. Dat geldt ook voor de meeste commerciële bedrijven die vanzelfsprekend massaal gebruik maken van dit soort data om gepersonaliseerde marketing te organiseren.

Persoonlijkheidstestjes

Maar hoe werkt dat dan precies? Hoe geraken dit soort bedrijven aan al die miljoenen data? In het geval van Cambridge Analytica kon The Guardian achterhalen dat toegang tot Facebookprofielen verkregen werd via het crowdsourcing-platform Mechanical Turk. Dat werd gedaan door gebruikers van Mechanical Turk één dollar te betalen om een online persoonlijkheidsenquête te laten invullen die het bedrijf toegang verschafte tot de facebookprofielen. Meteen weet je nu ook waarvoor al die ‘leuke’ persoonlijkheidstestjes dienen die op sociale media circuleren.

Maar nog vaker weet je gewoon niet wanneer er data over je worden ingewonnen. De Wall Street Journal reveleerde reeds in 2010 dat de vijftig meest bezochte websites allemaal data doorgeven van hun bezoekers aan derde partijen. De website dictionary.com, bijvoorbeeld, stuurt bij ieder paginabezoek informatie door naar 234 externe partijen. Daar zitten diensten bij van grote bedrijven zoals Google of Facebook, maar ook honderden kleine en obscure bedrijfjes die vaak gelinkt zijn aan elkaar. Eigenlijk valt het gewoon niet te achterhalen waar de data naartoe gaan en wie ze met welk doel gebruikt.

Vandaag bevat het gros van de websites codes van externe databedrijven en diensten. Op die manier wordt iedere mogelijke handeling geregistreerd: van de tijd die je op een website doorbrengt tot en met de snelheid waarmee je een online formulier invult. Dat levert een schat aan data op die op hun beurt gebundeld en verhandeld worden.

Adresboekjes

Niet alleen websites en sociale media leveren een rijke bron aan materiaal voor data-handelaars. Ook apps zijn een ware goudmijn voor de databrokers. De muziek-app Pandora verhandelt gegevens over leeftijd, geslacht, lokatie en device-ID (de indentiteit van het toestel dat je gebruikt, PC, laptop, smart phone…) aan derde partijen. Angry Birds doet hetzelfde maar deelt daarbij ook nog je volledige adresboek, waardoor bedrijven een zicht krijgen op de aard van je sociaal netwerk. 82 procent van de gratis Android-apps en 50 procent van de iOS-apps geeft data door omtrent locatie. Ruim een derde van alle gratis apps deelt je adressenboek.

De nieuwste hype zijn gezondheidsapps. Verontrustend daaraan is dat er voortdurend biometrische gegevens worden verzameld en (potentieel) doorgespeeld aan verzekeraars, toekomstige werkgevers en bankiers.

Neem nu Fitbit. Fitbit stelt zichzelf voor als een ontwikkelaar van corporate wellness programs. Het ontwikkelt toestellen en software die bewegingen en biometrische gegevens van individuen registreren en die gebruikers aanzetten om bepaalde targets te halen – x aantal stappen zetten, x aantal calorieën verbranden. Fitbit verkoopt die toestellen en software aan bedrijven die er vervolgens hun werknemers mee opzadelen.




Supermarktketen Target kondigde in april 2016 aan dat het 335.000 werknemers zou voorzien van Fitbit-registratietoestelletjes, Barclays deelde Fitbitproducten uit aan 75.000 van zijn werknemers. Ook het oliebedrijf BP schonk een Fitbittracker aan 14.000 werknemers. Die tracker registreerde alle stappen die ze per dag deden.

Iedere werknemer die meer dan een miljoen stappen bereikte kreeg een bonus in de vorm van een lagere verzekeringspremie. De data die op die manier verzameld worden, komen uiteindelijk terecht bij het bedrijf StayWell, een bedrijf dat zichzelf omschrijft als een ‘population-management firm’ dat biometrische data beheert. Daarnaast benadrukt het bedrijf ook dat het jarenlange expertise heeft in “the sience of behavior change”.

Experian

Wat doen bedrijven als StayWell precies? Wie zijn die derde partijen aan wie data worden doorverkocht? Het punt is dat de sector van de datahandel bijzonder ontransparant is. Wij delen haast alles met hen, maar zij weinig tot niks met ons. We weten wel wat het ongeveer allemaal waard is.

Een studie uit 2013 concludeert dat door data aangedreven marketing die gebruik maakt van individuele consumentenprofielen in de VS op zich alleen al 156 miljard dollar waard is. In de EU zou het om een waarde van 60 miljard euro gaan. Volgens voorzichtige berekeningen produceert een gemiddelde Amerikaanse consument ieder jaar data ter waarde van 880 dollar.

Laten we eens één van die ‘data brokers’ onder de loep nemen: Experian. Experian is één van de drie grootste credit reporting agencies van de VS. Ze zijn marktleider in het aanbieden van kredietdiensten, analyse, fraudedetectie en marketingdata. Er werken 17.000 mensen voor dit bedrijf, verspreid over 39 landen. Het bedrijf beheert data van 235 miljoen Amerikaanse burgers en 650 miljoen voertuigen in Canada en de VS. In Groot-Brittannië stellen ze 1,5 miljoen credit reports per week op.




Experian levert verschillende soorten rankings en scores van individuen aan bedrijven die daarin geïnteresseerd zijn. Hun product Choicescore helpt om individuen in kaart te brengen die nog niet aangesloten zijn bij een bank en die dat in de nabije toekomst zullen doen.

De Consumer View Profability Score identificeert huishoudens die in staat zijn om eventuele leningen terug te betalen. De Never Pay Score daarentegen biedt een pakket aan waarin mensen die niet kredietwaardig genoeg geschat worden niet zijn opgenomen.

Onder de noemer Hard Times groepeerde Experian de meest kwetsbare individuen. De categorie werd als volgt omschreven door het bedrijf: “Dit is de onderste trede van de sociaal-economische ladder, het armste lifestyle-segment in de samenleving. Hard Times bevat de oudere alleenstaanden in de armere stadsdelen.”

Experian beschikt over een Social Intelligence Platform dat het bedrijf in staat stelt om aan ‘social profiling’ te doen door gebruik te maken van data die verzameld worden op sociale media. De data die verzameld worden gaan erg ver: politieke voorkeuren, etniciteit, geboortedata, medicijngebruik, beroep, dieet en het aantal uren sport. Die data laten het bedrijf ook toe om voorspellingen te doen omtrent het toekomstig gedrag van individuen, informatie die van pas komt voor verzekeraars en kredietverstrekkers.

Data rush

Alles wat hierboven beschreven staat, bestaat al en is reeds in gebruik. Als je weet dat er duizenden databrokers actief zijn op de datamarkt en dat het een sector is die vele miljarden dollars waard is, dan weet je dat het geen marginaal fenomeen is. Het maakt de kern uit van het hedendaagse economische systeem en data kunnen met recht en reden het nieuwe goud genoemd worden.




Net zoals er vroeger sprake was van een gold rush is er nu sprake van een ware data rush. Om meer data te onttrekken aan individuen investeren grote techfirms in nieuwe technologieën die data verzamelen en kunnen versturen. Vandaar bijvoorbeeld dat er reikhalzend wordt uitgekeken naar the internet of things. Voor databrokers is het een natte droom: alle toestellen die aangesloten zijn op een online netwerk en zo voortdurend data versturen omtrent hoe en wanneer ze gebruikt worden. Niet alleen kunnen data geoogst worden via the internet of things, maar gedrag kan ook beter getraceerd, voorspeld en gemanipuleerd worden.

De toepassingen van the internet of things zijn schier eindeloos. Zaken die nu al in een experimentele fase zitten zijn onder meer: een tandenborstel die geconnecteerd is met firma’s die tanden verzekeren, koptelefoons die biometrische gegevens opslaan en versturen, smart-tv’s die het kijkgedrag van consumenten registreren en manipuleren, smart glasses die voortdurend data verzenden en ontvangen. Dat alles opent mogelijkheden om nieuwe data te oogsten, maar ook om op basis van die data gedragingen van consumenten te beïnvloeden. We staan nog maar aan het begin van een heuse datarevolutie.

Bedrijven zijn nu reeds bezig met ‘behavourial change’. Cambridge Analytica is bijvoorbeeld verbonden met de SCL Group en dat bedrijf omschrijft zichzelf niet enkel als een “global election management agency” maar ook als een “leading practioner of psychological approaches to conflict resolution, including population messaging and informational operations”. Kortom: massamanipulatie.

Controle

Wie deze ontwikkeling volgt van Big Data kan niet anders dan onthutst zijn over de weg die in alle stilte ingeslagen wordt. Er wordt een machtsapparaat ontwikkeld dat ons voor maatschappelijke uitdagingen plaatst die veel omvangrijker en fundamenteler zijn dan het vaak benadrukte moeilijke huwelijk tussen privacy en Big Data.

Wat we vaak een privacyprobleem noemen, is in werkelijkheid een probleem van controle. We hebben geen enkele controle meer over de manier waarop data beheerd worden, wie ze beheert en wat er uiteindelijk mee gedaan wordt. De sector van Big Data is zo ontransparant dat zelfs het identificeren en traceren van de activiteiten van de belangrijkste spelers heel duchtig onderzoek vraagt. De vraag is zelfs of de Big Data bedrijven de krachten kunnen beheersen die ze zelf in het leven roepen.

Duizend werkelijkheden

De invloed van Big Data dreigt ook steeds meer een nieuwe realiteit met zich mee te brengen die volledig haaks staat op de manier waarop we de werkelijkheid begrijpen. Een rechtstreeks gevolg van Big Data is bijvoorbeeld de praktijk van ‘dynamic pricing’: prijzen van online producten worden afgestemd op de ingeschatte koopkracht van de consument. Die inschatting gebeurt, inderdaad, door correlaties tussen data te leggen die het koopgedrag van individuen probeert te voorspellen.

Amazon verandert de prijzen van zijn producten ongeveer 1,5 miljoen keer per dag. Ook de meeste vliegbedrijven bieden geïndividualiseerde prijzen aan. Om te beseffen hoe vreemd dit is: bedenk even hoe je zou reageren moest een bakker de prijs van een brood bepalen op basis van je uiterlijk, afkomst en woonplaats. Ontoelaatbaar? Wel, het gebeurt iedere dag op de online platformen.




Ook zoekresultaten zijn vandaag reeds sterk gepersonaliseerd, net als de nieuwslijn op sociale media als Facebook. Zoekrobots en sociale media tonen niet wat je zoekt, maar wat jij volgens hen wil vinden. Het resultaat: we zien niet wat we willen zien, maar wat zij denken dat we willen zien.

Denk in dit verband aan het voorbeeld van de campagne van Ted Cruz die leidde tot gepersonaliseerde campagnevormen. Het internet wordt op die manier een echokamer waarin de eigen echo steeds luider klinkt. Wat we denken dat realiteit is, wordt een naar onze mate berekende ‘realiteit’. Dat zal ongetwijfeld effecten hebben op hoe we ons verhouden tot de samenleving en de wereld als geheel.

Ficties

Het verschil tussen informatievoorziening, beïnvloeding en pure manipulatie wordt ook steeds kleiner. Het is geen geheim dat databedrijven zich steeds meer willen toeleggen op het sturen van collectief en individueel gedrag. Het eerste, spectaculaire voorbeeld daarvan zagen we tijdens de voorbije zomer van 2016.

Het spel Pokemon Go slaagde erin om onder het mom van een spel honderden mensen tegelijk naar specifieke plaatsen te sturen. Dit gaat niet langer over het informeren van consumenten, maar over het manipuleren van hun gedrag.

Big Data reduceert mensen tot organismen die reageren op bepaalde stimuli. Het is een oud idee uit de gedragswetenschappen dat opnieuw actueel wordt net omdat we vandaag ontzettend veel data kunnen verzamelen die veel meer geraffineerde en meer subtiele vormen van manipulatie toelaten.

Het gevolg is dat de manier waarop we naar onszelf en de wereld kijken steeds verder afwijkt van hoe we werkelijk in de wereld handelen. We zien onszelf nog steeds als autonoom handelende individuen die hun leven organiseren op basis van vrije keuzes, maar onder invloed van Big Data wordt dat beeld meer dan ooit een fictie.

Arm wordt armer

Big Data is ook discriminerend, en niet een klren beetje. Het categoriseren van groepen mensen in bijvoorbeeld ‘kredietwaardig’ of ‘niet kredietwaardig’ heeft enorme gevolgen voor de mensen in kwestie, maar zij hebben geen enkele impact op de beslissing die hun verdere lot bepaalt. Het zijn algoritmes die hun levenslot bepalen: anonieme en automatische berekeningen bepalen of je een lening kan krijgen, of je in aanmerking komt voor een ziekteverzekering of hoe hoog je autoverzekeringspolis is.

Vanzelfsprekend speelt hier een matteüseffect: net die groepen die het meest baat hebben bij goedkope leningen of verzekeringspolissen worden er in de logica die Big Data oplegt het eerst uitgekegeld. Bemiddelde middenklassers zullen een voordelige ziekteverzekering kunnen krijgen, een arm zwart gezin zal dat veel moeilijker of zelfs niet kunnen. Dat is nu al zo, maar de logica wordt door Big Data op dramatische wijze versterkt. Hierdoor dreigt Big Data bestaande ongelijkheden nog verder te vergroten.

Dan maar ontsnappen aan Big Data? Wel, dat wordt steeds moeilijker. Want tegenwoordig is een leven zonder aansluiting op het wereldwijde web, zonder sociale media of zonder mobiele communicatiemiddelen zo goed als ondenkbaar geworden.

Of het nu om het vinden van werk, het onderhouden van vriendschappen of het ontwikkelen van de eigen individualiteit gaat; we zijn volledig afhankelijk geworden van digitale communicatiemiddelen.

Er is geen exit-optie. En net daardoor worden we permanent gedwongen om mee te bouwen aan een machtssysteem waarvan we de alomvattendheid nog nauwelijks kunnen begrijpen. 

(*) Het materiaal voor dit artikel werd overgenomen uit het lijvige rapport Networks of Control dat een overzicht biedt van het meest recente onderzoek over Big Data. Wie meer wil weten kan het rapport hier lezen.

dagelijkse newsletter

take down
the paywall
steun ons nu!