Samen met Digitaal Vlaanderen ontwikkelden we door middel van AI een toolbox voor datakwaliteit die de basis legt voor schonere, efficiëntere data en Basisregisters die future-proof zijn. Op die manier verlagen we de administratieve last voor burgers, generen we scherpere inzichten voor beleidsmakers en helpen we de Vlaamse overheid maximaal in te zetten op AI.
Van AI en Data naar een beleid dat werkt
Digitaal Vlaanderen, het agentschap dat de digitale transformatie van de Vlaamse overheid aanstuurt, legt in zijn opdracht 2024–2029 de nadruk op veiligheid, interoperabiliteit en efficiëntie. Artificiële intelligentie staat in deze opdracht voorop als belangrijke strategische hefboom. Het uiteindelijke doel is een geïntegreerde one-stop-shop overheid, die gebruikt maakt van correcte en betrouwbare data. Voor deze opdracht zocht Digitaal Vlaanderen een sterke partner met ervaring in AI en kennis van de processen van de Vlaamse overheid.
De uitdagingen rond datakwaliteit zijn herkenbaar voor vele organisaties in de publieke sector: correcte en consistente data zijn nodig voor betrouwbare digitale diensten, onderbouwd beleid, transparante communicatie en om mee de vruchten te plukken van AI. De toolbox biedt hiervoor een schaalbare oplossing die niet alleen de Basisregisters versterkt, maar ook inzetbaar is in andere domeinen waar ontdubbelen, koppelen en valideren cruciaal zijn.
Datakwaliteit als fundament voor betrouwbare digitale diensten
Om de AI capaciteiten van Digitaal Vlaanderen te versterken werd begin 2025 het team Data Insights opgericht. Cegeka ondersteunt bij het bouwen van herbruikbare bouwblokken die innovatie, transparantie, betrouwbaarheid en schaalbaarheid garanderen.
Ons Cegeka team had van bij de start een dubbele opdracht: de fundamenten van de werking van dit team mee uittekenen én de eerste concrete use case realiseren.
De eerste case waar we ons op richtten, was het Verenigingsregister. Dit register vormt, net als het Gebouwen- en Adressenregister en andere registers, de ruggengraat van de digitale overheid. Duplicaten zorgden hier voor problemen: er was een risico dat verenigingen tegenstrijdige communicatie ontvingen of problemen ondervonden bij subsidiedossiers, met tijdsverlies en dalend vertrouwen van de burger tot gevolg.
We dachten mee met de klant en bekeken het probleem breder: met de toolbox wordt dit probleem grondig aangepakt én ontstaat een fundament dat ook in andere registers kan worden ingezet om gegevens te koppelen, te ontdubbelen en te valideren.
"We zijn onmiddellijk gestart met een experiment om het potentieel te bewijzen van AI op een concrete uitdaging zoals datakwaliteit bij het beheer van Basisregisters. Tegelijk hielpen we mee met de basis te leggen voor structurele inzet van AI binnenin Digitaal Vlaanderen, dit op zowel technisch als organisatorisch vlak."
– Bertje Bensaïd Lead Solution Architect
Waar we begin 2025 slechts met enkele pioniers aan de start stonden, zijn we inmiddels uitgegroeid tot een volwaardig team dat meerdere en gevarieerde use cases opneemt.
Onze technische aanpak
Na het opzetten van een dataplatform, Databricks op Azure, werd de data binnengetrokken en getransformeerd, waarna we met een state-of-the-art linkingmodel duplicaten konden detecteren. De resultaten zijn ontsloten via een dashboard en een API, zodat ze schaalbaar inzetbaar en breed herbruikbaar zijn.
Een van de voornaamste uitdagingen bestond erin een schaalbaar model te ontwikkelen dat duplicaten kan opsporen en correct linken. Het aantal mogelijke combinaties groeit immers kwadratisch met de omvang van de data, wat een klassieke aanpak snel onhaalbaar maakt. Daarnaast moest de oplossing flexibel genoeg zijn om met uiteenlopende datatypes om te gaan én voldoende uitlegbaar zijn, zodat resultaten begrijpelijk en controleerbaar blijven. Zo wordt de methode niet alleen toepasbaar op het Verenigingsregister, maar in de toekomst ook herbruikbaar voor andere Basisregisters.
Uiteindelijk creëerden we een oplossing die miljoenen records in zeer korte tijd kan verwerken en een substantieel aantal duplicaten met hoge zekerheid én uitlegbaarheid weet te identificeren.
Wat volgt? We bouwen verder op het platform, brengen de toolbox naar een hoger niveau en ondersteunen tegelijkertijd nieuwe use cases en experimenten die data omzetten in concrete inzichten.