Datawarehousing: verschil tussen versies
Naar navigatie springen
Naar zoeken springen
Regel 15: | Regel 15: | ||
''OpenRefine'' noemt zichzelf ''a free, open source, powerful tool for working with messy data'' | ''OpenRefine'' noemt zichzelf ''a free, open source, powerful tool for working with messy data'' | ||
+ | * Beschikbaar voor Windows, Mac & Linux | ||
* Alles acties worden bewaard als [https://en.wikipedia.org/wiki/JSON JSON]-code. Op die manier worden handelingen verifiëerbaar en herhaalbaar! | * Alles acties worden bewaard als [https://en.wikipedia.org/wiki/JSON JSON]-code. Op die manier worden handelingen verifiëerbaar en herhaalbaar! | ||
Versie van 14 jul 2016 11:59
Een datawarehouse is een gegevensverzameling voor het beantwoorden van terugkerende en ad-hoc vragen op het gebied van business intelligence; rapportages en data-analyse:
- Een datawarehous bevat geen originele data: Alle data komt van elders
- Deze data van elders wordt meestal automatisch geïmporteerd en opgeschoond
- Gebruikers voegen geen gegevens toe aan een datawarehouse, en wijzigen ook geen gegevens
Data Extraction
Data extraction is het proces waarbij gestructureerde data wordt gewonnen uit ongestructureerde of slecht-gestructureerde data.
OpenRefine
OpenRefine noemt zichzelf a free, open source, powerful tool for working with messy data
- Beschikbaar voor Windows, Mac & Linux
- Alles acties worden bewaard als JSON-code. Op die manier worden handelingen verifiëerbaar en herhaalbaar!
Explore
Identificeren & verhelpen van inconsistenties (video), wo.:
- Klusteren/samenvoegen van data (bv. varianten van dezelfde tekstwaarde samenvoegen)
- Distributie van numerieke waardes bekijken, wisselen tussen gewone getallen en logaritmes.
Clean & transform
- Ziet er goed uit! Vide.
- Templating export: Bv. een tabel exporteren in MediaWiki tabel-opmaak
Reconcile & match
- Zie derde video
- Reconciliation means matching of data
- Voorbeeld: Geografische coördinaten toevoegen aan een adresbestand, afkomstig van een webservice
- Voorbeeld: Herkennen van een taal die gebruikt wordt in een deel van een document, weer icm. een webservice
Bronnen
OpenRefine