Overzicht van de data kwaliteiten en daarbij een aantal maatregelen die genomen kunnen worden om een Data kwaliteit met behulp van deze maatregelen (binnen een release) op een hoger niveau te krijgen.
Versie | 1.0 | Creatie datum | 01-06-2023 |
Dit heeft betrekking op de mate waarin bepaalde attributen binnen een data entiteit aanwezig zijn. Daarnaast geldt de compleetheid ook voor het altijd voorkomen van een bepaalde set van entiteiten (rijen) in een data set.
Transformeren naar atributen in datasets door omzetten naar samenvoegen tot een geaggregeerd kenmerk. Daarnaast het opsplitsen van delen van een attribuut op basis van een bepaald kenmerk. Splitsen opv komma of spatie.
Triggers maken het mogelijk om op basis van bewerkingen in de database logica aan te roepen om controles te doen, historie op te bouwen of near real time signalen af te geven aan diverse betrokkenen rond de data.
Verrijken van data op basis van APIs en webservices voor toevoegen van extra kenmerken. Denk bijvoorbeeld aan postcode.nl voor aanvullen en valideren van adressen op basis van postcode en huisnummer.
Inzetten van algoritmen om te zoeken naar patronen in tekstuele informatie. Denk bijvoorbeeld aan sentimentanalyse. Tellen van voorkomende woorden en nabijheid van woorden
Verrijken en transformeren van data van en naar geo locaties bijvoorbeeld door gebruik van database logica en software
Stored procedures en functions maken het mogelijk om transformaties, controles en validaties te automatiseren in de vorm van scripts binnen deze stored procedures en functions. Hiermee heb je vanuit deze programmatuur direct toegang tot de inhoud van de verschillende tabellen.
Inzetten van machine learning algoritme om de kwaliteit van data te verbeteren. Bijvoorbeeld richting accuraatheid. Denk bijvoorbeeld aan Barneveld en bepalen of de woonplaats in Nederland of de VS is obv van andere attributen in de dataset.
Binnen de verschillende soorten stakeholders is veelal diepgaande kennis aanwezig van kwaliteitsissues in de data. In workshops is dit een zeer waardevolle bron van problemen in de data. Maar het is ook een mogelijkheid om de bewustwording van datakwaliteit te verhogen
Naast issue workshops kan het ook interessant zijn om samen met stakeholders op basis van issues te kijken naar relevante en (eenvoudig implementeerbare maatregelen en hiermee de datakwaliteit te verhogen. Deze maatregelen kunnen vervolgens worden opgenomen in het maatregelenregister
Maak inzichtelijk voor stakeholders die datakwaliteitsproblemen veroorzaken wat het effect is van handelen bij het werken met de data. Denk bijvoorbeeld aan het misbruiken van velden in schermen die daarmee de kwaliteit in de achterliggende databanken kunnen verlagen.
Wil je de kwaliteit van data waarborgen dan kun je zorgen dat er een kwaliteitsstap wordt ingebouwd in een werkproces. Hierbij zijn verschillende vormen mogelijk. Zoals dat de activiteit door de data producent zelf gedaan wordt of door een andere anders dan de stakeholder zelf. Bekendste voorbeeld is het twee paar ogen principe
Zorg dat data die geproduceerd of getransformeerd wordt, zeker bij handmatige verwerking van data in een validatie activiteit beoordeeld wordt. Dit biedt een punt in het proces waar issues gesignaleerd kunnen worden, maatregelen genomen kunnen worden of waar signalen zijn dat er in andere data management processen aandachtspunten zijn rond de data kwaliteit.
ITIL/BISL processen zijn niet alleen inzetbaar voor ICT voorzieningen maar ook voor data wijzigingen die doorgevoerd moeten worden. Sluit aan bij bestaande inrichting in de organisatie voor wijzigingsbeheer en breid dit uit met specifieke implementaties voor data maatregelen. Echter zorg voor een generieke opzet van dit ITIL/BISL proces