Overzicht van de data kwaliteiten en daarbij een aantal maatregelen die genomen kunnen worden om een Data kwaliteit met behulp van deze maatregelen (binnen een release) op een hoger niveau te krijgen.
Versie | 1.0 | Creatie datum | 22-06-2022 |
Dit heeft betrekking op het feit dat de ene data set van een bepaalde entiteit gelijk is aan een andere dataset. Met andere woorden is een data entiteit onafhankelijk van de bron altijd dezelfde.
Aanwijzen van unieke bronnen, hiermee wordt bereikt dat de consistent groter wordt omdat deze unieke bron het aantal replica’s en schaduw registraties terugdringt. De data-integratie is vervolgens gebaseerd op het ontsluiten van deze unieke bron.
Toepassen van architectuur principes, architectuur principes kunnen bij de uitwerking binnen projecten (bijvoorbeeld in een PSA) zorg dragen dat toegewerkt wordt naar een informatievoorziening die bijdraagt aan een hoge consistentie van data bij opslag, integratie en gebruik.
Signaleren van duplicaten in sleutels en in combinaties van attributen in dataobjecten.
Uitwerken van architectuur modellen van de bovengenoemde generieke entiteiten in relatie tot de andere architectuur concepten als functies, processen, actoren en componenten.
Beleggen eigenaarschap en beheerorganisatie. Hiermee wordt gerealiseerd dat de definitie van een gegevensentiteit bewaakt wordt door een eigenaar en dat de beheerorganisatie zorgdraagt voor de bewaking van deze consistentie op basis van de door de eigenaar benoemde definitie. De integratie is vervolgens gebaseerd op deze definitie.
Introduceren van voorzieningen als het datawarehouse, centrale gegevensvoorziening en gestandaardiseerde webservices. Bij het selecteren van applicaties en (cloud)services rekening houden met het feit dat er gewerkt wordt met authentieke- en kernregisters. Met andere woorden: inzet van applicaties is gebaseerd op een servicelaag waarbinnen generieke data entiteiten worden ingezet.
Inzetten van gestandaardiseerde koppelvlakken vergroot de kans op hergebruik door een grote groep afnemers. Hierdoor verminder de behoefte om replica’s in te zetten. Beheerprocessen kunnen bijdragen aan het introduceren van deze gestandaardiseerde koppelvlakken.
Inzet datavirtualisatie, hiermee wordt bewerkstelligd dat er slechts één versie van de gegevens beheerd wordt en beschikbaar wordt gesteld via de generieke voorziening voor datavirtualisatie. Door inzet van datavirtualisatie kan in een later stadium, indien gewenst, een andere dataopslag als unieke bron geselecteerd worden zonder dat dit gevolgen heeft voor de afnemers van deze dataset.
Triggers maken het mogelijk om op basis van bewerkingen in de database logica aan te roepen om controles te doen, historie op te bouwen of near real time signalen af te geven aan diverse betrokkenen rond de data.
Bepalen van generieke data entiteiten en bepalen van de mate van consistentie ten opzichte van de aanwezige applicaties.
Verrijken van data op basis van APIs en webservices voor toevoegen van extra kenmerken. Denk bijvoorbeeld aan postcode.nl voor aanvullen en valideren van adressen op basis van postcode en huisnummer.
Beperken van replica’s brengt met zich mee dat de kans op verschillende inhoud van datasets kleiner wordt. Zeker de situaties waarbij replica’s veranderd en verrijkt worden tijdens de data integratie zijn veroorzakers van inconsistentie en moeten daardoor ontmoedigd worden.
Inzetten van algoritmen om te zoeken naar patronen in tekstuele informatie. Denk bijvoorbeeld aan sentimentanalyse. Tellen van voorkomende woorden en nabijheid van woorden
Inzetten van machine learning algoritme om de kwaliteit van data te verbeteren. Bijvoorbeeld richting accuraatheid. Denk bijvoorbeeld aan Barneveld en bepalen of de woonplaats in Nederland of de VS is obv van andere attributen in de dataset.
Naast issue workshops kan het ook interessant zijn om samen met stakeholders op basis van issues te kijken naar relevante en (eenvoudig implementeerbare maatregelen en hiermee de datakwaliteit te verhogen. Deze maatregelen kunnen vervolgens worden opgenomen in het maatregelenregister
Maak inzichtelijk voor stakeholders die datakwaliteitsproblemen veroorzaken wat het effect is van handelen bij het werken met de data. Denk bijvoorbeeld aan het misbruiken van velden in schermen die daarmee de kwaliteit in de achterliggende databanken kunnen verlagen.
Bewustwording en gedragsverandering is helaas aan slijtage onderhevig binnen de populatie van een organisatie. Dat houdt in dat er iteratief opnieuw aandacht besteed moet worden aan de bewustwording. Ook hier kan een gaming element van grote hulp zijn.
Wil je de kwaliteit van data waarborgen dan kun je zorgen dat er een kwaliteitsstap wordt ingebouwd in een werkproces. Hierbij zijn verschillende vormen mogelijk. Zoals dat de activiteit door de data producent zelf gedaan wordt of door een andere anders dan de stakeholder zelf. Bekendste voorbeeld is het twee paar ogen principe
Zorg dat data die geproduceerd of getransformeerd wordt, zeker bij handmatige verwerking van data in een validatie activiteit beoordeeld wordt. Dit biedt een punt in het proces waar issues gesignaleerd kunnen worden, maatregelen genomen kunnen worden of waar signalen zijn dat er in andere data management processen aandachtspunten zijn rond de data kwaliteit.
ITIL/BISL processen zijn niet alleen inzetbaar voor ICT voorzieningen maar ook voor data wijzigingen die doorgevoerd moeten worden. Sluit aan bij bestaande inrichting in de organisatie voor wijzigingsbeheer en breid dit uit met specifieke implementaties voor data maatregelen. Echter zorg voor een generieke opzet van dit ITIL/BISL proces
Zorg voor duidelijke werkinstructies vanuit het perspectief van data kwaliteit. Veelal wordt in werkinstructies een introductie gedaan van workarounds die een negatief effect kunnen hebben op de kwaliteit van de data