/DiSHACLed

DiSHACLed

Dissecting data workflows using SHACL

smart_industry

Het DiSHACLed-project heeft als doel de efficiëntie van data service providers binnen het Europese data-ecosysteem te verbeteren. DiSHACLed ontwikkelt een kader, standaarden en tools om de grotendeels handmatige processen voor het ontdekken en integreren van externe datasets binnen een specifieke zakelijke of onderzoekscontext te vervangen door semi-geautomatiseerde methodes.

Datatechnologie creëert waarde

De sleutel tot semantische interoperabiliteit ligt in het gebruik van gestandaardiseerde datamodellen bij het registreren van data. Om datasets beter vindbaar te maken, kunnen ze beschreven worden aan de hand van hun ‘shape’ – de gebruikte datastructuur – via de Shapes Constraint Language (SHACL).

Tot voor kort was het niet mogelijk om datasets te zoeken die volledig of gedeeltelijk voldoen aan een bepaalde minimale datastructuur van elementen en relaties. Door de snelgroeiende hoeveelheid open data vormt dit een grote hindernis om op een efficiënte, manier geschikte datasets te vinden om een bestaande dataset binnen een specifieke bedrijfscontext te verrijken.

Vlaanderen is met initiatieven zoals OSLO (Open Standaarden voor het Linken van Organisaties) al een leider op het vlak van semantische interoperabiliteit en data governance. Er werden al meer dan 134 semantische standaarden ontwikkeld die aansluiten bij Europese vocabularia. Dankzij deze inspanningen positioneren Vlaanderen en zijn Data Sharing Service Providers (DSSP’s) zich als pioniers in het gebruik van SHACL. Op basis van deze solide basis willen ze hun expertise nu ook economisch valoriseren, en dat in lijn met de doelstellingen van de Europese Data Governance Act (DGA).

Het DiSHACLed-project wil het exploreren van data, de interoperabiliteit van tools en de geautomatiseerde generatie van formulieren binnen het Europese data-ecosysteem verbeteren. In overeenstemming met de DGA versterkt het project de Vlaamse DSSP’s door SHACL in te zetten voor schaalbare en efficiënte oplossingen voor data governance. Door samenwerking tussen industrie en onderzoeksinstellingen levert DiSHACLed een bijdrage aan het bredere Europese ecosysteem voor datatechnologie en helpt het bij het vormgeven van de volgende generatie data governance.

Belangrijkste uitdagingen en onderzoeksdoelstellingen

DiSHACLed werkt aan een oplossing voor drie centrale doelstellingen:

  1. Verbeteren van het exploreren van datasets
  • Ontwikkelen van algoritmes om het vinden van datasets te automatiseren.
  • Verbeteren van 'recall rates' in dataportalen, met als doel tot 20 datasetontdekkingen per seconde.
  • Uitvoeren van proefprojecten in minstens twee dataportalen om de verbetering van de zoekefficiëntie aan te tonen.
  1. Ontwikkelen van interoperabele tools
  • Automatiseren van de integratie van verschillende dataverwerkingstools van meerdere leveranciers.
  • Uitwerken van een gestandaardiseerde aanpak om naadloze interoperabiliteit tussen systemen te garanderen.
  • Realiseren van interoperabiliteit tussen minstens twee verschillende dataverwerkingstools binnen een projectdemonstrator.
  1. Automatisch genereren van formulieren
  • Automatische generatie van webformulieren voor ontbrekende gegevens.
  • Garanderen dat minstens 80% van de bestaande datatypes bewerkbaar is via automatisch gegenereerde formulieren.
  • Verbeteren van de efficiëntie van ontwikkelaars door de nood aan handmatig ontworpen formulieren te verminderen.

Toepassingen en impact

De resultaten van DiSHACLed zullen breed inzetbaar zijn in uiteenlopende domeinen, waaronder:

  • Gegevens van de overheid: Versterken van interoperabiliteit binnen de Flanders Smart Data Space.
  • Business intelligence: Vereenvoudigen van data-integratie en -ontdekking voor bedrijven.
  • Smart Cities: Ondersteunen van stedelijke dataplatformen zoals Urban Sense.
  • Onderzoek en academische wereld: Vergemakkelijken van data-ontdekking en automatisatie voor grootschalige onderzoeksprojecten.

Hoewel het project zich richt op technologische vernieuwing, wordt er expliciet rekening gehouden met regelgeving rond data governance. Door data-interoperabiliteit en automatisering te stimuleren, wil DiSHACLed de manuele werklast verlagen, de toegankelijkheid van data vergroten en het vertrouwen in het delen van data versterken.

“DiSHACLed wil niet alleen manuele processen vereenvoudigen, maar ook bijdragen aan het Europese datatech-ecosysteem. Het doet dat door efficiënte en schaalbare oplossingen te ontwikkelen met een brede impact op dienstenleveranciers van gegevens, en op bedrijven en burgers.”

DiSHACLed

DiSHACLed ontwikkelt oplossingen op het vlak van de ontdekking van datasets, de interoperabiliteit van tools en de automatisatie van formulieren, met als doel een nieuwe standaard te creeëren voor efficiënte dataworkflows.

DiSHACLed is een imec.icon onderzoeksproject gesteund door imec en het Vlaams Agentschap Innoveren & Ondernemen (VLAIO).

Het project is gestart op 01.03.2025 en loopt tot 30.02.2027.

Projectinformatie

Industrie

  • Inuits
  • Redpencil
  • Sirus

Onderzoek

  • imec – IDLab Data Science Lab – UGent
  • imec – AI&Algorithms

Contact

  • Project lead: Johan Delaure, Redpencil
  • Research lead: Pieter Colpaert, imec – IDLab Data Science Lab – UGent
  • Proposal manager: Pieter Colpaert, imec – IDLab Data Science Lab – UGent
  • Innovation manager: Annelies Vandamme, innovation manager imec.icon