Spelen met data op afstand

No comments »
AUTHOR:
CTO Dell EMC Nederland
CATEGORIES:

Data is zowel het goud als de olie in onze informatiemaatschappij. Goud omdat data een bezit is en waarde heeft. Olie omdat oneindig veel stromen data onze maatschappij draaiende houden. Het kunnen omgaan met data in beide situaties is belangrijker dan ooit. Kort gezegd: wie goed met al die data kan spelen, heeft een voordeel.

Digitale data heeft geen gewicht en is makkelijk verplaatsbaar. Zes jaar geleden hebben onderzoekers het gewicht van het hele internet berekend en kwamen tot de conclusie dat de elektronen, die de toen vijf miljoen terabyte aan data representeerden, bij elkaar ongeveer 50 gram zwaar waren. Ze vergeleken het toen met een stevige aardbei. Met de jaarlijkse verdubbeling van onze data zou dat intussen neerkomen op anderhalve kilo. Nog steeds te verwaarlozen weinig.

Veiligheid
Digitale data is dus zo lichtvoetig dat het makkelijk kan worden gekopieerd, gedeeld en verzonden. Dat is steeds de drijver van het internet geweest, snel data kunnen delen en opzoeken. Maar ook gelijk het vervelende, want het kan dus ook snel worden gekopieerd of gestolen zonder dat je het merkt. Het is ook steeds lastiger te voorkomen dat ‘derden’ meekijken tijdens het transport. Een minimaal gebogen glasvezel geeft al zoveel meetbaar sluik-licht dat het tegenwoordig makkelijk ongemerkt kan worden opgevangen en gelezen.

Om de communicatie toch veilig te maken, kunnen we met real-time encryptie een vrij hoge vorm van betrouwbaarheid creëren. Was dat vroeger nog een dure aangelegenheid, op dit moment is dat ook voor de consument een normaal te gebruiken techniek geworden. Denk aan de ontwikkelingen van Whatsapp en Apple om consumentendata veilig op te slaan en te versturen. Zo veilig zelfs dat de inlichtingendiensten moeite hebben om de inhoud te achterhalen.

Tijd
Naast het veiligheidsaspect is transporttijd, of latency, een beperking die digitale data met zich meebrengt. Of het nu elektronen of lichtstralen zijn die de data transporteren, beiden hebben maximale snelheden die door natuurwetten zijn bepaald. De bandbreedte tussen bron en ontvanger beïnvloedt de hoeveelheid data die men binnen een bepaalde periode kan overdragen en bij grotere datahoeveelheden hangt daar een stevig prijskaartje aan.

Het verzenden van 1TB via een standaard T1-verbinding kost meer dan 80 dagen als het gewoon via internet naar een cloud wordt getransporteerd. Het versturen van 1TB via een professionele 1Gbps verbinding duurt ook nog steeds 3 tot 4 uur. Dus als filegroottes toenemen richting 100TB dan wordt het kunnen verplaatsen van data werkelijk lastig.

Zowel in tijd als in kosten is data dan eigenlijk onverplaatsbaar geworden. Dit is een van de gevaren van cloud computing: bij de provider bouwt u in enkele jaren zoveel data op, dat u die data realistisch gezien nooit meer kunt terughalen. Een soort Hotel Californië: ‘you can check out whenever you want, but you can never leave’.

In 2014 hebben onderzoekers van de TU Eindhoven en Universiteit van Florida een record gebroken wat betreft de grootste datasnelheid ooit. Zij hadden een multicore-netwerk van een kilometer lang gebouwd, waarin ze de fenomenale hoeveelheid van 255 terabyte per seconde konden verplaatsen. Ongeveer de totale hoeveelheid data die momenteel op het internet rondzwerft. Gelukkig is er dus technologie beschikbaar om ons in de toekomst nog veel snellere internetverbindingen te geven, hoewel hier natuurlijk een nóg steviger prijskaartje aan komt te hangen.

Mohammed en de berg
Het mooiste zou zijn als je data niet hoeft te verplaatsen, maar dat je het opslaat op de plek waar het ontstaat. In een eerdere blog over data-governance legde ik uit dat we naast de bekende applicatie-centrische platformen, die Gartner het 2e platform noemt, nu ook data-centrische platformen hebben, het 3e platform in Gartner-termen. In de laatste situatie zijn de applicaties steeds kleinere apps of microservices geworden die zelf de data zoeken die ze nodig hebben.

Dus de data gaat niet meer naar de applicatie, maar de applicatie komt naar de data. Dit is nodig omdat de hoeveelheid data groeit en het transport ervan lastiger wordt. Vergelijkbaar met het spreekwoord: ‘als de berg niet naar Mohammed komt, zal Mohammed tot de berg gaan’. Als data zo groot wordt dat het niet meer is te verplaatsen, dan zal je naar de data moeten gaan om er zinvolle dingen mee te kunnen doen.

Datalakes
In plaats van onverplaatsbare bergen van data, spreken we in de informatiewereld over (eveneens onverplaatsbare) datameren of datalakes. Rond zo’n datalake verzamelen zich microservices om met die data interessante dingen te doen. De computing c.q. microservices blijven echter zelf nog wel verplaatsbaar. Vergelijkbaar met een app store worden kleine services opgeroepen om waar dan ook in die datalakes de informatie die gewenst is te vinden en te verwerken.

Er ontstaan momenteel op vele plaatsen in de wereld grote, onverplaatsbare datalakes die steeds vaker een relatie met elkaar hebben. Denk aan corporate data van global companies die over verschillende continenten is verspreid. Of aan patiënten-data verspreid over een groot aantal ziekenhuizen of medische research centers. Of grote cloud providers die hun (uw) data wereldwijd verspreid hebben opgeslagen. Het vraagt nieuwe vernuftigheid om over die grote verspreide datalakes heen tóch gericht te kunnen zoeken.

Kudde olifanten?
In samenwerking met de Ben-Gurion Universiteit ontwikkelde Dell EMC de afgelopen twee jaar een oplossing om over vele datalakes heen, toch een gemeenschappelijk data-analyse uit te kunnen voeren. Dit door van vele datalakes één groot virtueel datalake te maken die vanuit één plaats benaderbaar is.

De aanleiding voor het onderzoek was de wens om gecoördineerd, wereldwijd gnomische analyses te kunnen uitvoeren voor medicijnonderzoek. Deze persoonlijke onderzoeksdata heeft strikte privacy- en security-vereisten, dus het was ook zaak om in datalakes slechts díe data te mogen zien en gebruiken die onpersoonlijke, medische gegevens bevatte.

Dat resulteerde in een inmiddels gepatenteerde oplossing om ‘gedistribueerde en parallelle computing over Hadoop gebaseerde datalakes te orkestreren’. Omdat Hadoop wordt gerepresenteerd door een olifant, is deze oplossing eigenlijk het kunnen aansturen van de wereldwijd verspreide Hadoop-olifanten als één grote kudde: a world wide herd ofwel WWH.

Hiermee kunnen we computing naar data-omgevingen brengen zonder de data zelf te hoeven verplaatsen. In variatie op het spreekwoord: ‘als de data niet (meer) naar de computing komt, zal de computing tot de data (moeten) gaan.

En dat is precies wat we nu kunnen.

Share on FacebookTweet about this on TwitterShare on Google+Share on LinkedIn

Leave a Reply

Your email address will not be published. Required fields are marked *