Versie | 1.0 | Creatie datum | 11-10-2022 |
Signaleren van duplicaten in sleutels en in combinaties van attributen in dataobjecten.
Validaties in teksten op basis van reguliere expressies. Denk bijvoorbeeld aan het format van een postcode of een emailadres
Transformeren naar atributen in datasets door omzetten naar samenvoegen tot een geaggregeerd kenmerk. Daarnaast het opsplitsen van delen van een attribuut op basis van een bepaald kenmerk. Splitsen opv komma of spatie.
Converteren van datatypes naar andere datatypes (tekst {-} Numeriek). Inclusief transformatie naar datatypen op andere platformen zoals database, XML, softwaretalen en localisatie.
Transformeren van datastructuren in XML, HTML en Json naar interpreteerbare en valideerbare data tbv de kwaliteit
Verrijken van datasets op basis van kenmerken voor het toevoegen van beschrijvingen, lookups, hierarchien van generiek data attributen
Verrijken van data op basis van APIs en webservices voor toevoegen van extra kenmerken. Denk bijvoorbeeld aan postcode.nl voor aanvullen en valideren van adressen op basis van postcode en huisnummer.
Inzetten van algoritmen om te zoeken naar patronen in tekstuele informatie. Denk bijvoorbeeld aan sentimentanalyse. Tellen van voorkomende woorden en nabijheid van woorden
Verrijken en transformeren van data van en naar geo locaties bijvoorbeeld door gebruik van database logica en software
Inzetten van mathematische en statische berekeningen voor bepalen van de kwaliteit maar ook voor het aggregeren of het bepalen van afwijkende waarden in een dataset.
Inzetten van machine learning algoritme om de kwaliteit van data te verbeteren. Bijvoorbeeld richting accuraatheid. Denk bijvoorbeeld aan Barneveld en bepalen of de woonplaats in Nederland of de VS is obv van andere attributen in de dataset.