Data is king

Data is king en daarom is er de laatste jaren zoveel te doen rond Big Data-systemen.

Innovatieve technologieën voor eindgebruikers, zoals social media en mobiele apps hebben voor een data-explosie gezorgd. Bedrijven worstelen hoe hiermee om te gaan en weten dat de traditionele relationele databank met rijen en kolommen niet meer zal volstaan.

Zo is op zoek naar een eenvoudigere manier om data te beheren en de hoge kostprijs van relationale databanken te vermijden NoSQL ontstaan. NoSQL snijdt in de kosten voor analyse en datamodellering, brengt flexibiliteit in datamodellen en vermindert de ontwikkeltijd.

Naast NoSQL is Hadoop,een open source softwareraamwerk waarmee applicaties grote hoeveelheden data kunnen verwerken, vandaag een veelgebruikt Big Data-platform.

 

Toenemend aantal data-formaten en data-types

Ook Cegeka omarmt deze nieuwe technologiën. De vervijfvoudiging van deze markt tegen 2017 is het resultaat van een toenemend aantal formaten in het datalandschap:

  • Interne data van bedrijven
  • Machine-to-machine data
  • Sociale data
  • Mobile apps die data verzamelen
  • Sensordata

Dat vereist dat databanken een groot gamma aan datatypes ondersteunt:

  • Relationele data: Oracle, Sybase, SQL Server.
  • Gangbare zakelijke formaten: Microsoft Office, PDF, CSV, text files.
  • Binaire info: audio, video en afbeeldingen.
  • Formaten voor interactie tussen systemen: JSON, XML.
  • Semantische data: RDF.
  • Geospatial dataformaten: GeoJSON, KML, XML geospatial.

  

Big Data en NoSQL vereist nieuwe en andere denkwijzes van programmeurs

Een andere uitdaging voor de bedrijven is dat ontwikkelaars gewoon zijn om tegen relationele databanken aan te programmeren. Programmeren in een Big Data of NoSQL omgeving vereist nieuwe en andere denkwijzes. Gelukkig zijn er oplossingen om ontwikkelaars te laten werken met hun favoriete programmeertaal.

Hoe je daar volgens ons best mee omgaat?

Bij Cegeka overschouwen Data Intelligentie experts het geheel om rond al deze domeinen een visie en strategie te ontwikkelen. Omdat deze technologieën in grote mate het data- en programmeerparadigma bepalen. En de eenvoud voor veranderingen faciliteren.

 

Een tijdslijn

1968
Bestanden en flatfiles

Eén van de voorlopers van de moderne database houdt gegevens bij in zogenoemde flatfiles.

1968 -1980
Hiërarchische databanken

De hierarchische databanken geven een eerste boomstructuur aan een aaneenschakeling van flatfiles. IBM’s IMS (Information Management System) is in deze periode de meest prominente databank.

1971 - 1980
Network Data Model

CODASYL standaardiseert in 1971 het in 1960 als eerste door Charles Bachmann ontworpen Database Management Systeem.

1970 - nu
Relationele Databanken

De in 1970 door Codd ontworpen relationele databank kan worden samengevat in twee delen:

  • Instantie: Een tabel met rijen en kolommen (zoals in Excel).
  • Schema: De structuur (relatie met andere tabellen, veldnamen en types)

1989 – heden
Objectgeoriënteerd Model

Door objectgeoriënteerd programmeren ontstaat ook de nood om gegevens als een object met eigenschappen, waarden en attributen voor te stellen. Om daar een antwoord op te bieden doet in 1997 XML (eXtended Markup Language) om deze nieuwe manier van gegevens voorstellen op te slaan in databanken. IBM, Oracle en Microsoft hebben het opslaan van XML in hun gekende databanken voorzien.

2005 – heden
Hadoop

Hadoop is in 2005 gemaakt door Mike Cafarella en Doug Cutting (die de software vernoemde naar het speelgoedolifantje van zijn zoon) en is tot op vandaag het meest gebruikte Big Data platform. Oorspronkelijk bedoeld voor webgerelateerde zoekgegevens is het vandaag een open source softwareraamwerk van de Apache Software Foundation.

2009 – heden
NoSQL

Op zoek naar een eenvoudigere manier om data te beheren en de hoge kostprijs van relationale databanken te vermijden, wordt NoSQL in 2009 opnieuw opgepikt bij voorstanders van niet relationele databanken. De term is in 1998 voor het eerst gebruikt voor een relationele databank die het gebruik van SQL wil vermijden.