Data is als bagage

No comments »
AUTHOR:
CTO Dell EMC Nederland
CATEGORIES:

Men zegt wel eens dat je data kunt vergelijken met bagage. Het is altijd meer dan je denkt. Het is zwaar om het te vervoeren. Je wilt het altijd bij de hand hebben en je bent hulpeloos als je het verliest.

Data is anders dan computing en networking. Dat zijn diensten die als een utiliteit altijd moeten functioneren en vervangbaar zijn: als de één niet functioneert dan schakel je over op een andere bron of een ander netwerk. In de wereld van cloud computing worden die wezenlijke verschillen vaak uit het oog verloren: computing is een utility en data is een asset.

De waarde van data
In een eerdere blogpost heb ik al eens verhaalt dat de meeste data waarde heeft. Een bezit is dat ooit tijd, inspanning en (mogelijk) geld heeft gekost om het te maken. Elk informatieproduct is opgebouwd uit ruwe data, waarvan elk onderdeel op een specifieke manier is bewerkt en als samenstelling van onderdelen het document vormt. Daarom zou de waarde van alle informatieproducten van een organisatie best op de balans van die organisatie mogen worden vermeld. Het is immers een bezit dat wezenlijk is voor het bestaan en de continuïteit van de organisatie. Bovendien zal bij verlies die data opnieuw moeten worden gemaakt, als dat al mogelijk is. Want veel ruwe data is vaak vluchtig en slechts eenmaal beschikbaar; denk maar eens aan de foto’s van een bijzondere gelegenheid. Eenmaal verloren nooit meer reproduceerbaar.

We gaan nu een periode in waar Big Data een belangrijke rol gaat spelen. Grote hoeveelheden data die de grondstof vormen voor nieuwe informatie of nieuwe inzichten en verbanden. Data die weer nieuwe data maakt. De vraag is: moeten we al die tussenversies bewaren, opslaan, beveiligen en archiveren? Of is alleen het eindproduct waardevol en mogen alle tussenliggende versies uiteindelijk worden vernietigd?

Die vraag beantwoorden is lastiger dan op het eerste gezicht lijkt. Natuurlijk is er heel veel informatie die we niet opslaan en direct na gebruik verdampt.  Denk aan gestreamde camerabeelden die niet worden opgeslagen. Op dit moment zou er trouwens niet eens voldoende fysieke opslagcapaciteit in de wereld zijn om al die streamingdata op te slaan. Dus enige terughoudendheid in het maar onbezorgd opslaan van alle data die we genereren, is best op zijn plaats.

Anderzijds wordt vanuit compliance en wetgeving aan veel data de eis gesteld dat de herkomst en bronnen aantoonbaar moeten zijn. Uit mijn ervaring in de vliegtuigindustrie weet ik nog dat voor het verkrijgen en behouden van de luchtwaardigheid, het noodzakelijk is dat van elk onderdeel zijn initiële ontwerpdata, testdata, procesdata en productiedata bewaard blijft zolang er een minimaal aantal toestellen van dat vliegtuigtype nog luchtwaardig is. Dit geldt niet alleen voor de vliegtuigbouw, ook in bedrijfstakken als de farmacie, geneesmiddelenproductie en de nucleaire energiewereld zijn dit soort strikte bewaarregels van toepassing. Bij eventuele ongevallen moet men in rechterlijke procedures kunnen aantonen dat het betreffende product immers volgens alle wetten, regels en verordeningen is geproduceerd. De mogelijke claims op dit gebied zijn immers immens groot.

Big Data analytics
Met de komst van analytics wordt het vraagstuk ook actueel. Als de uitkomst van een analyse een conclusie rechtvaardigt, die later discutabel blijkt te zijn, kan het ‘zomaar’ gebeuren dat in een rechtelijke procedure wordt gevraagd aan te tonen dat het analytics-proces volgens de wettelijke randvoorwaarden is verlopen en is gebaseerd op legaal verkregen data van de juiste kwaliteit. Immers op grond van onjuiste data, slechte procedures en beperkte algoritmen kunnen er conclusies worden getrokken die fundamenteel onjuist en verwijtbaar kunnen zijn. Op die manier wordt het vastleggen van de bron-data, de tussenstappen, de analyses, de iteraties, de aannamen en de onbewerkte uitkomsten – vanuit een juridisch perspectief – opeens veel meer logisch. Naast het feit dat men de stappen zou willen reproduceren (controle van de resultaten) is het veel belangrijker dat het proces aantoonbaar geborgd is uitgevoerd.

Onze nieuwe Big Data analytics-oplossingen beloven veel goeds op velerlei terrein. Van nieuwe medische inzichten tot verbeterde medicijnen, van nieuwe productmethoden tot verbeterde testmogelijkheden en van slimmere zoekmogelijkheden tot intelligentere doorsneden van populaties. Als dat gebeurt met data die op enigerlei wijze de privacy, persoonlijkheid, gezondheid, veiligheid of inhoud van derden aantast, is het te verwachten dat vroeg of laat toetsing aan regels en wet wordt gevraagd.

Data is net als bagage. Het is handig om het bij je te hebben, maar het kan je soms ook tot last worden. Zeker als het meer wordt dan je handzaam kunt vervoeren. ‘Traveling light’ is een begrip voor doorgewinterde zakenreizigers die de ervaring hebben opgebouwd om met een minimale hoeveelheid bagage zich maximaal te verplaatsen. Dit geldt ook voor de reis in de Big Data-wereld. Voor je het weet, groeit je data-bagage als kool, moet je toeslagen betalen en wordt het een blok aan je been. En wordt die mooie reis een desillusie omdat je bagage-efficiency je halverwege liet stranden. En een uit zijn voegen gegroeide bagage ergens achterlaten, wil toch niemand?!

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.