Datawarehousing

Uit De Vliegende Brigade
Naar navigatie springen Naar zoeken springen
Datawarehouse-architectuur bron. ETL staat voor Extraction, Transformation & Loading: Het proces waarbij originele data wordt ontsloten voor het datawarehouse

Een datawarehouse is een gegevensverzameling voor het beantwoorden van terugkerende en ad-hoc vragen op het gebied van business intelligence; rapportages en data-analyse:

  • Een datawarehous bevat geen originele data: Alle data komt van elders
  • Deze data van elders wordt meestal automatisch geïmporteerd en opgeschoond
  • Gebruikers voegen geen gegevens toe aan een datawarehouse, en wijzigen ook geen gegevens

Data Extraction

Data extraction is het proces waarbij gestructureerde data wordt gewonnen uit ongestructureerde of slecht-gestructureerde data.

OpenRefine

OpenRefine noemt zichzelf a free, open source, powerful tool for working with messy data

  • Alles acties worden bewaard als JSON-code. Op die manier worden handelingen verifiëerbaar en herhaalbaar!
  • Het maakt gebruik van een scripttaal

Explore

Identificeren & verhelpen van inconsistenties (video), wo.:

  • Klusteren/samenvoegen van data (bv. varianten van dezelfde tekstwaarde samenvoegen)
  • Distributie van numerieke waardes bekijken, wisselen tussen gewone getallen en logaritmes.

Clean & transform

  • Ziet er goed uit! Vide.
  • Templating export: Bv. een tabel exporteren in MediaWiki tabel-opmaak

Bronnen

OpenRefine