Datawarehousing: verschil tussen versies

Uit De Vliegende Brigade
Naar navigatie springen Naar zoeken springen
Regel 20: Regel 20:
 
=== Explore ===
 
=== Explore ===
  
Identificeren & oplossen van inconsistenties, wo.:  
+
Identificeren & verhelpen van inconsistenties ([https://www.youtube.com/watch?time_continue=369&v=B70J_H_zAWM video]), wo.:  
  
 
* Klusteren/samenvoegen van data (bv. varianten van dezelfde tekstwaarde samenvoegen)
 
* Klusteren/samenvoegen van data (bv. varianten van dezelfde tekstwaarde samenvoegen)
* Distributie van numerieke waardes bekijken, wisselen tussen gewone getallen en logaritmes
+
* Distributie van numerieke waardes bekijken, wisselen tussen gewone getallen en logaritmes.
  
 
=== Clean & transform ===
 
=== Clean & transform ===

Versie van 14 jul 2016 11:42

Datawarehouse-architectuur bron. ETL staat voor Extraction, Transformation & Loading: Het proces waarbij originele data wordt ontsloten voor het datawarehouse

Een datawarehouse is een gegevensverzameling voor het beantwoorden van terugkerende en ad-hoc vragen op het gebied van business intelligence; rapportages en data-analyse:

  • Een datawarehous bevat geen originele data: Alle data komt van elders
  • Deze data van elders wordt meestal automatisch geïmporteerd en opgeschoond
  • Gebruikers voegen geen gegevens toe aan een datawarehouse, en wijzigen ook geen gegevens

Data Extraction

Data extraction is het proces waarbij gestructureerde data wordt gewonnen uit ongestructureerde of slecht-gestructureerde data.

OpenRefine

OpenRefine noemt zichzelf a free, open source, powerful tool for working with messy data

  • Alles acties worden bewaard als JSON-code. Op die manier worden handelingen verifiëerbaar en herhaalbaar!
  • Het maakt gebruik van een scripttaal

Explore

Identificeren & verhelpen van inconsistenties (video), wo.:

  • Klusteren/samenvoegen van data (bv. varianten van dezelfde tekstwaarde samenvoegen)
  • Distributie van numerieke waardes bekijken, wisselen tussen gewone getallen en logaritmes.

Clean & transform

  • Ziet er goed uit. Zie video 2 op de home page
  • Templating export: Bv. een tabel exporteren in MediaWiki tabel-opmaak

Bronnen