De-anonimisatie van data. Het einde van onze privacy?

No comments »
AUTHOR:
CTO Dell EMC Nederland
CATEGORIES:

Onze digitale economie bestaat deels uit de verzameling persoonlijke data die elk jaar weer enorm uitbreidt. Informatie over ons zoekgedrag, de bezochte websites, sociale contacten, medische historie en interesses wordt verzameld en gedeeld door adverteerders, onderzoekers en overheidsdiensten.

Dit levert enkele interessante privacy issues op. Het internet is immers een publiek medium en alles is openbaar. Als je met het openbaar vervoer reist, kan immers ook iedereen in principe weten wanneer je met wie naar welke locatie reist. Net zoals je data kunt encrypten, zou je vermomd met het openbaar vervoer kunnen reizen, maar met voldoende intelligentie zou je toch uiteindelijk iemands identiteit kunnen achterhalen.

In de huidige praktijk van dataprotectie is ‘persoonlijk identificeerbare informatie’ de lapis philosophorum van de privacy. Net zoals alchemisten overtuigd waren dat zij lood in goud konden transformeren, zo zijn verschillende privacy-experts ervan overtuigd dat zij geanonimiseerde data altijd kunnen transformeren naar persoonlijke informatie.

De-anonimisatie is een datamining-strategie om verschillende soorten anonieme gegevens via het leggen van kruisverbanden te heridentificeren tot de oorspronkelijke informatie. Alle data die een mogelijke referentie vormt naar een andere gegevensbron kan hiervoor gebruikt worden.

Netflix
Hoewel het concept van de-anonimisatie niet nieuw is, werd het in 2006 wereldnieuws toen Arvind Narayanan en Vitali Shmatikov aan een wedstrijd van Netflix, een populaire site voor het huren van films, gingen deelnemen.

Narayanan en Shmatikov lieten hun de-anonimisatiemethoden los op de anonieme filmbeoordelingen van de toen ongeveer 500.000 leden van Netflix. En zij wisten met succes de identiteit van een aantal specifieke gebruikers te achterhalen. Volgens Narayanan en Shmatikov vereist de-anonimisatie: data die overvloedig aanwezig is, voldoende granulair is en redelijk stabiel is gedurende langere tijd wat betreft context. En dat is op het huidige internet best veel informatie.

De Wet bescherming persoonsgegevens tracht de bescherming van persoonlijke data keurig te regelen. In artikel 10.1 staat “Persoonsgegevens worden niet langer bewaard in een vorm die het mogelijk maakt de betrokkene te identificeren, dan noodzakelijk is voor de verwerkelijking van de doeleinden waarvoor zij worden verzameld of vervolgens worden verwerkt.”

Over wat dan persoonsgegevens zijn zegt artikel 16: ‘ . . iemands godsdienst of levensovertuiging, ras, politieke gezindheid, gezondheid, seksuele leven, alsmede persoonsgegevens betreffende het lidmaatschap van een vakvereniging . . hetzelfde geldt voor strafrechtelijke persoonsgegevens en persoonsgegevens over onrechtmatig of hinderlijk gedrag in verband met een opgelegd verbod naar aanleiding van dat gedrag.’

Data cleansing
Nu de digitale overheid zich steeds verder ontwikkelt, komt er steeds meer informatie van burgers op het internet. Veel data wordt, zoals dat heet ’gescrubbed’ tot beperkte datasets. Persoonlijk identificeerbare informatie zoals namen, adressen en burger servicenummer worden verwijderd, zodat de bron van de data onbekend blijft. Dit verzekert de overheid dat de overblijvende data zonder problemen en zonder toestemming kan worden gedeeld met derden, zowel binnen als buiten de overheid.

Dit data-scrubbing, dat ook wel data-cleansing heet, is formeel het verwijderen van data in een database die incorrect, incompleet, onjuist geformatteerd of gedupliceerd is. In dit proces kan ook data gerepareerd worden of kan data worden toegevoegd om het compleet te maken zoals bijvoorbeeld postcodes. In dit proces kan dus ook data ontdaan worden van terugleidbare brongegevens. Maar sommige data is nu eenmaal unieker herkenbaar dan andere data en sommige privacy-advocaten twijfelen eraan of data ooit volledig geanonimiseerd kan worden.

Nieuwe analysetechnieken en de groei van processorcapaciteit maakt de vraag of volledige de-anonimisatie ooit mogelijk is weer relevant. Big Data en een groeiende wereld van internetverkeer maken het mogelijke steeds meer data van personen te verzamelen. En elke overblijvende attribuut van een ‘geschoonde’ dataset geeft de mogelijkheid uiteindelijk de bron te vinden. Het voorbeeld van Netflix is daar het bewijs van.

Actieve bescherming
Het ontwikkelen van effectieve privacy-beschermingstechnieken is dus een kritische en noodzakelijke ontwikkeling waar nog veel werk te doen valt. Maar we beseffen steeds beter dat de ‘silver bullit’ waarschijnlijk nooit zal worden gevonden. Technieken als gelaagde privacy zijn wellicht een stap in de goede richting; in plaats van de data te de-identificeren bepaalt het algoritme welk deel van de data wél veilig gebruikt mag worden. Maar het is geen totaaloplossing, van situatie tot situatie dient beoordeeld te worden welk deel van de dataset probleemloos gebruikt mag worden en nooit terug te leiden valt naar de bron.

Maar toch is deze actieve methode in zijn algemeen superieur aan standaard de-anonimiseerapplicaties. Actieve bescherming vraagt andere beschermingsmethoden, maar die zijn niet eenvoudig en vragen meer ontwerpinspanning, een kostbaarder uitvoering, reguliere audits enzovoorts. Tenslotte vraag privacybescherming meer dan alleen software; sterke toegangscontrole, fysieke beveiliging en geaccrediteerde medewerkers. Eigenlijk al dat gene dat we altijd al deden als we met persoonlijke data omgingen.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.