Datawarehousing: verschil tussen versies

Uit De Vliegende Brigade
Naar navigatie springen Naar zoeken springen
Regel 15: Regel 15:
 
''OpenRefine'' noemt zichzelf ''a free, open source, powerful tool for working with messy data''
 
''OpenRefine'' noemt zichzelf ''a free, open source, powerful tool for working with messy data''
  
 +
* Beschikbaar voor Windows, Mac & Linux
 
* Alles acties worden bewaard als [https://en.wikipedia.org/wiki/JSON JSON]-code. Op die manier worden handelingen verifiëerbaar en herhaalbaar!
 
* Alles acties worden bewaard als [https://en.wikipedia.org/wiki/JSON JSON]-code. Op die manier worden handelingen verifiëerbaar en herhaalbaar!
  

Versie van 14 jul 2016 11:59

Datawarehouse-architectuur bron. ETL staat voor Extraction, Transformation & Loading: Het proces waarbij originele data wordt ontsloten voor het datawarehouse

Een datawarehouse is een gegevensverzameling voor het beantwoorden van terugkerende en ad-hoc vragen op het gebied van business intelligence; rapportages en data-analyse:

  • Een datawarehous bevat geen originele data: Alle data komt van elders
  • Deze data van elders wordt meestal automatisch geïmporteerd en opgeschoond
  • Gebruikers voegen geen gegevens toe aan een datawarehouse, en wijzigen ook geen gegevens

Data Extraction

Data extraction is het proces waarbij gestructureerde data wordt gewonnen uit ongestructureerde of slecht-gestructureerde data.

OpenRefine

OpenRefine noemt zichzelf a free, open source, powerful tool for working with messy data

  • Beschikbaar voor Windows, Mac & Linux
  • Alles acties worden bewaard als JSON-code. Op die manier worden handelingen verifiëerbaar en herhaalbaar!

Explore

Identificeren & verhelpen van inconsistenties (video), wo.:

  • Klusteren/samenvoegen van data (bv. varianten van dezelfde tekstwaarde samenvoegen)
  • Distributie van numerieke waardes bekijken, wisselen tussen gewone getallen en logaritmes.

Clean & transform

  • Ziet er goed uit! Vide.
  • Templating export: Bv. een tabel exporteren in MediaWiki tabel-opmaak

Reconcile & match

  • Zie derde video
  • Reconciliation means matching of data
  • Voorbeeld: Geografische coördinaten toevoegen aan een adresbestand, afkomstig van een webservice
  • Voorbeeld: Herkennen van een taal die gebruikt wordt in een deel van een document, weer icm. een webservice

Bronnen

OpenRefine