Centers of data

No comments »
AUTHOR:
CTO Dell EMC Nederland

In het begin van het computertijdperk spraken we over computer- of rekencentra. De computer of rekenaar was immers het hart van de nieuwe ontwikkeling: met elektronica veel sneller berekeningen (kunnen) maken. Berekeningen waren meestal repetitieve handelingen die voorheen door ‘rekenaars’ met de hand werden gemaakt. Denk aan het doorrekenen van een algoritme waar steeds één parameter met een kleine stap omhoog werd gebracht en zodoende tabellen met data ontstonden.

In de VS heetten de personen die dit rekenhandwerk deden ook ‘computers’, je beroep kon ‘computer’ zijn. Toen in de tweede wereldoorlog de mannen in het leger zaten, waren dit banen die door vrouwen werden uitgevoerd. Zalen zaten vol met vrouwelijke rekenaars. Denk aan het berekenen van ballistische tabellen voor oorlogsvoering, enzovoort. Toen de eerste computers hun intrede deden, waren het (dus!) vooral vrouwen die hierbij betrokken waren. De eerste computermannen waren vrouwen. In dit eerdere blog over vrouwen in de IT leg ik uit waarom de IT-sector uiteindelijk helaas een mannenwereld is geworden.

Rekencentra
Veel bedrijven startten in de jaren zestig met het bouwen van rekencentra om hun administratie te informatiseren en te automatiseren. En langzaam werden het beroep ‘computer’ weg-geautomatiseerd. De eerste ‘slachtoffers’ van automatisering vielen. De kern van elk rekencentrum werden nu de fysieke computers. De hoeveelheid data die werd gebruikt, was nog minimaal. Voor de berekeningen waren vooral de wiskundige algoritmes van belang, de datasets waren klein en ondergeschikt aan het voordeel automatisch ‘kunnen’ rekenen.

Veel universiteiten investeerden in supercomputers en het begrip rekencentrum werd (en wordt) nog steeds gebruikt. De naam SARA van de Amsterdamse universiteiten is daar nog een verwijzing naar: Stichting Academisch Rekencentrum Amsterdam. Maar in de jaren zeventig kwam het begrip datacenter op. Een datacenter was de plaats of locatie waar de computerzalen waren ingericht. Een datacenter kon dus verschillende rekencentra huisvesten. Maar het begrip datacenter omvatte ook alle andere technische installaties nodig voor energie, temperatuur, back up en veiligheid.

Datacenter
Intussen spreken we allemaal over datacenters en ook de cloud is opgebouwd uit verspreidde datacenters waar we onze data kunnen opslaan en laten bewerken door steeds grotere en generieke virtuele rekenaars. Het principe is sinds de aanvang van de computertechniek niet echt veranderd. Alleen de variatie van grootte van rekenkracht versus grootte van de datasets maakt een verschil.

Grote applicaties zoals complexe ERP en CRM toepassingen werken nog steeds met relatief kleine en veelal gestructureerde datasets. Aan de andere kant zijn hele grote datasets ontstaan waar heel gerichte computing op wordt uitgeoefend. De wereld van Big Data dwingt dat per rekensessie slechts een beperkte berekening wordt uitgevoerd, het liefst in vele parallelle processen om de snelheid te verhogen. Massive Parallel Processing (MPP)  is de techniek die daar wordt toegepast. Door zowel de groei van de processorcapaciteit als deze parallellisatie kunnen microservices heel efficiënt en effectief worden ingezet op extreem grote datasets.

Nieuwe datawereld
Met de komst van microservices werd het echter ook mogelijk deze microservices als kleine operationele datasets naar data-omgevingen te sturen die of door hun grootte of door compliance (bijna) niet meer verplaatsbaar zijn. Als je verspreid over de wereld medisch onderzoek wil doen in honderden patiëntendossiers naar het verloop van ziekten en genezing, dan moet je naar de data toe. Patiëntendossiers zijn immers niet vrij uitwisselbaar.

Daarnaast wil je niet alle data die IoT-devices uitzenden centraal opslaan. Dat leidt uiteindelijk tot oneindig groeiende mega-datasets waarvan de inhoudelijke waarde twijfelachtig is. Slechts de relevante IoT-data is van belang en nodig voor actie of berekening. Die relevante informatie kan door microservices op afstand worden uitgefilterd, geanalyseerd en worden gedeeld. Deze nieuwe wereld van edge computing – gedecentraliseerde mini-clouds – bestaat dus uit kleine datasets en eveneens kleine microservices die beiden heel bewegelijk kunnen zijn. Immers hoe kleiner de data van dataset of algoritme, hoe makkelijker verplaatsbaar.

Data immobiliteit
Data transporteren kost energie en doorlooptijd. In een eerder blog over de bandbreedte-paradox beschreef ik de wet van Nielsen (netwerkcapaciteit) versus de wet van Moore (processorcapaciteit). En de conclusie was dat netwerkcapaciteit gemiddeld ongeveer half zo snel groeit als processorcapaciteit. En omdat data – en flashopslag – eveneens volgens de wet van Moore groeit, wordt het per saldo steeds lastiger om (alle) data die we kunnen maken te transporteren en moet steeds meer data ter plaatse worden bewaard en gebruikt.

Naast bandbreedtebeperking zijn er andere factoren die het verplaatsen van data lastiger maken. Allereerst de eerder genoemde privacy van bijvoorbeeld patiëntendata. Ook de GDPR stelt vele compliance-regels over hoe en vooral waar data wel en niet mag worden bewaard. Daarnaast groeit data gecreëerd in de edge, zoals IoT devices. Dat is – en vooral wordt – een oneindige hoeveelheid data die we niet eens meer naar een centraal punt kunnen verplaatsen.

Centers of data
We zien een ontwikkeling dat naast het begrip datacenters het begrip ‘Centers of data’ ontstaat. Heel bewust gekozen plaatsen waar lokaal relevante data veilig wordt bewaard die slechts in specifieke situaties naar andere locaties wordt verplaatst. In de wereld van data zijn derhalve architecturen nodig hoe en in welke lagen data wordt gegenereerd, geanalyseerd op waarde, zo nodig wordt bewaard en mogelijk wordt gedeeld met andere systemen. Daar waar data ontstaat, moet ‘enige’ slimheid zijn om te bepalen of die data relevant is en zo ja, wat er op dat moment mee te doen.

Het kan zijn dat er specifieke microservices ter plekke worden gestuurd om nadere en diepere analyses te doen (denk aan het patiëntendossier). Of dat actueel gemeten onderhoudsdata van een machine, auto of booreiland nadere lokale analyse nodig maakt. De wereld van edge-computing staat of valt met adequaat realtime datamanagement. Als geen realtime inzicht bestaat over alle data die ontstaat en aanwezig is – en nooit allemaal centraal kan worden opgeslagen en geanalyseerd – dan heeft zo’n edge-infrastructuur weinig waarde. Er gebeurt van alles maar we hebben er geen inzicht in en toezicht op.

Data zijn de bouwstenen van onze informatie maatschappij. Data is de basis van informatie en informatie is macht. Echter om van data informatie te (kunnen) maken, is wijsheid in de vorm van een algoritme nodig, die op zijn beurt weer uit slim geordende logische datasets is opgebouwd. Dit sluit de analyse-cirkel: data verzamelen en analyseren om kennis en wijsheid te genereren waardoor we nog beter data kunnen analyseren en meer kennis en wijsheid kunnen genereren. Maar dat gebeurt niet meer alleen in grote datacentra maar straks ook in mini-clouds, verspreid op elke plaats ter wereld waar data ontstaat.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.