Overzicht van de data kwaliteiten en daarbij een aantal maatregelen die genomen kunnen worden om een Data kwaliteit met behulp van deze maatregelen (binnen een release) op een hoger niveau te krijgen.
Versie | 1.0 | Creatie datum | 22-06-2022 |
Dit is de mate waarin een data entiteit bij opslag en uitwisseling voldoet aan het gewenste formaat. Denk hierbij bijvoorbeeld aan het domein maar ook het datatype van de attributen van een data entiteit. Binnen ketenuitwisseling is dit bijvoorbeeld van het grootste belang.
Gebruik van reguliere expressie validaties in invoervelden om te voorkomen dat er invoerfouten worden gemaakt.
Transformeren van modellen en protocollen. Bijvoorbeeld van en naar een Canoniek Model transformeren en protocol transformeren XML naar JSoN vice versa.
Maak gebruik van berichtvalidatie bij het gebruik van services. Denk hierbij aan de inzet van XSD validatie voor het syntactisch testen van berichten voordat de database opslag plaatsvindt. Laat berichtenverkeer waar mogelijk via de bovengenoemde business laag lopen.
Inzet validatiecomponenten. Voor validatie van bijvoorbeeld berichten zijn componenten en agents beschikbaar die berichten eenvoudig kunnen valideren op syntactisch niveau. Deze kunnen ingezet worden op verschillende plekken in integratieketens indien dit gewenst is. Houdt rekening met de effecten die dit kan hebben op met name de performance binnen een keten.
Keuze (open) standaarden, deze zijn veelal gebaseerd op syntactisch in detail uitgewerkte informatiemodellen en kunnen daardoor goed gevalideerd worden door bijvoorbeeld de bovengenoemde validatiecomponenten. Daarnaast bieden deze standaarden zeker bij organisatie overstijgende integratie om deze validatie op een centrale plaats uit te voeren. Bijvoorbeeld in een sectoraal knooppunt of een compliance voorziening.
Validaties in teksten op basis van reguliere expressies. Denk bijvoorbeeld aan het format van een postcode of een emailadres
Transformeren naar atributen in datasets door omzetten naar samenvoegen tot een geaggregeerd kenmerk. Daarnaast het opsplitsen van delen van een attribuut op basis van een bepaald kenmerk. Splitsen opv komma of spatie.
Converteren van datatypes naar andere datatypes (tekst {-} Numeriek). Inclusief transformatie naar datatypen op andere platformen zoals database, XML, softwaretalen en localisatie.
Maak gebruik van een drielagenarchitectuur binnen softwarecomponenten waarbij de (middelste) business laag zorg draagt voor validiteitschecks en draag er zorg voor dat alle database mutaties via deze gecentraliseerde business laag verwerkt worden.
Check constraints zijn extra functionaliteit in een database waarin je op basis van een statement extra condities kunt toevoegen aan een of meerdere kolommen. Dit extra controles toe te voegen aan deze kolommen
Maak gebruik van voorzieningen bij data opslag, bijvoorbeeld in relationele databases die de validiteit van gegevens bij de opslag controleren. Denk bijvoorbeeld aan check constraints, foreign key en domein constraints etc.
Op basis van invoervelden kunnen andere invoerelementen beinvloed worden. Bijvoorbeeld invoerelementen zichtbaar/onzichtbaar of actief/inactief te maken. Bijvoorbeeld na kiezen van anders in een keuzelijst wordt een invoerveld met de titel anders actief gemaakt
Gebruik van extra structuren in schema's om extra beperkingen in attributen te implementeren op basis van domeinen (waardelijsten) of codelijsten
Transformeren van datastructuren in XML, HTML en Json naar interpreteerbare en valideerbare data tbv de kwaliteit
Stel generieke eisen aan gangbare validaties zoals datum en numerieke waarden, postcodes etc en beschrijf hoe en waar deze geïmplementeerd en getest moeten worden. Dit kan zowel op gegevensopslag als op gegevensintegratieval geïmplementeerd worden.
Beschrijving van data objecten en – attributen. Door een gedetailleerde en gestructureerde beschrijving te maken van data objecten die ingezet worden voor data integratie wordt het mogelijk om op basis van deze beschrijving validaties te ontwikkelen en deze te implementeren in bovengenoemde validatie componenten.
Verrijken van datasets op basis van kenmerken voor het toevoegen van beschrijvingen, lookups, hierarchien van generiek data attributen
Richt indien mogelijk een compliance voorziening in voor gangbare validaties etc.
Inzet syntactische validaties, met name bij berichtenverkeer op basis van XML kunnen berichten binnen de integratieketen op één of meerdere plaatsen gevalideerd worden. Deze validaties zorgen ervoor dat de berichtinhoud gecontroleerd wordt op correctheid op basis van definitiebestanden waarmee voorkomen wordt dat invalide gegevens opgeslagen worden of dat bij verder gebruik problemen in de verwerking van de gegevens ontstaan.
Gebruik van minimale en maximale cardinaliteiten voor zowel elementen als de attributen. Hiermee kan verplicht worden afgedwongen. Maar ook de mogelijkheid om meerdere elementen vast te leggen voor het realiseren van compleetheid
Invoervalidatie op verplichte invoer in het invulformulier in een vroeg stadium
Invoercontroles voor combinaties van invoervelden, controle validaties en check controles
Beschrijf de validatieregels van de attributen van data objecten en communiceer deze regels met ontwikkelpartijen. Regel daarnaast een voorziening in voor de ontsluiting van deze regels en draag zorg voor de toetsing.
Een begrijpelijke user interface voor medewerkers en gebruikers zorgt ervoor dat fouten en onduidelijkheden worden voorkomen. Daarnaast is een fijne user interface productiviteit verhogend
Inzetten van mathematische en statische berekeningen voor bepalen van de kwaliteit maar ook voor het aggregeren of het bepalen van afwijkende waarden in een dataset.
Bij invoerelementen kunnen near realtime validaties worden toegevoegd. Denk bijvoorbeeld aan, getal en datum tijd validaties of email patroon controls bij invoer
van schema's voor het valideren van data verzamelingen binnen een XML of JSoN gebaseerd bericht of bestand. Hiermee wordt afgedwongen dat de data voldoet aan de regels in het validatieschema.
Tooltips en helpteksten geven gebruikers ondersteuning als invoervelden en formulieren onduidelijk zijn of geven een toelichting bij complexe invoercombinaties
Maak inzichtelijk voor stakeholders die datakwaliteitsproblemen veroorzaken wat het effect is van handelen bij het werken met de data. Denk bijvoorbeeld aan het misbruiken van velden in schermen die daarmee de kwaliteit in de achterliggende databanken kunnen verlagen.
Bewustwording van kwaliteiten vergt training want het is gericht op bewustwording en gedragsverandering bij de verschillende stakeholders. Dit kan gedaan worden mat klassikale, peer to peer en ook e-learnings getraind worden
Wil je de kwaliteit van data waarborgen dan kun je zorgen dat er een kwaliteitsstap wordt ingebouwd in een werkproces. Hierbij zijn verschillende vormen mogelijk. Zoals dat de activiteit door de data producent zelf gedaan wordt of door een andere anders dan de stakeholder zelf. Bekendste voorbeeld is het twee paar ogen principe
Zorg dat data die geproduceerd of getransformeerd wordt, zeker bij handmatige verwerking van data in een validatie activiteit beoordeeld wordt. Dit biedt een punt in het proces waar issues gesignaleerd kunnen worden, maatregelen genomen kunnen worden of waar signalen zijn dat er in andere data management processen aandachtspunten zijn rond de data kwaliteit.
Zorg voor duidelijke werkinstructies vanuit het perspectief van data kwaliteit. Veelal wordt in werkinstructies een introductie gedaan van workarounds die een negatief effect kunnen hebben op de kwaliteit van de data