Datawarehousing
Een datawarehouse is een gegevensverzameling voor het beantwoorden van terugkerende en ad-hoc vragen op het gebied van business intelligence; rapportages en data-analyse:
- Een datawarehous bevat geen originele data: Alle data komt van elders
- Deze data van elders wordt meestal automatisch geïmporteerd en opgeschoond
- Gebruikers voegen geen gegevens toe aan een datawarehouse, en wijzigen ook geen gegevens
Data Extraction
Data extraction is het proces waarbij gestructureerde data wordt gewonnen uit ongestructureerde of slecht-gestructureerde data.
OpenRefine
OpenRefine noemt zichzelf a free, open source, powerful tool for working with messy data
- Alles acties worden bewaard als JSON-code. Op die manier worden handelingen verifiëerbaar en herhaalbaar!
- Het maakt gebruik van een scripttaal
Explore
Identificeren & verhelpen van inconsistenties (video), wo.:
- Klusteren/samenvoegen van data (bv. varianten van dezelfde tekstwaarde samenvoegen)
- Distributie van numerieke waardes bekijken, wisselen tussen gewone getallen en logaritmes.
Clean & transform
- Ziet er goed uit! Vide.
- Templating export: Bv. een tabel exporteren in MediaWiki tabel-opmaak
Bronnen
OpenRefine