Datawarehousing
Een datawarehouse is een gegevensverzameling voor het beantwoorden van terugkerende en ad-hoc vragen op het gebied van business intelligence; rapportages en data-analyse:
- Een datawarehous bevat geen originele data: Alle data komt van elders
- Deze data van elders wordt meestal automatisch geïmporteerd en opgeschoond
- Gebruikers voegen geen gegevens toe aan een datawarehouse, en wijzigen ook geen gegevens
Data Extraction
Data extraction is het proces waarbij gestructureerde data wordt gewonnen uit ongestructureerde of slecht-gestructureerde data.
OpenRefine
OpenRefine noemt zichzelf a free, open source, powerful tool for working with messy data
- Beschikbaar voor Windows, Mac & Linux
- Alles acties worden bewaard als JSON-code. Deze acties zijn aan te roepen als undo, maar je kunt die acties ook als scripts opslaan. Dat maakt bewerkingen verifiëerbaar en herhaalbaar. Er bestaan zelfs libraries voor specifieke bewerkingen.
Zie OpenRefine voor details.