Datawarehousing

Uit De Vliegende Brigade
Versie door Jeroen Strompf (overleg | bijdragen) op 14 jul 2016 om 17:30 (→‎Bronnen)
(wijz) ← Oudere versie | Huidige versie (wijz) | Nieuwere versie → (wijz)
Naar navigatie springen Naar zoeken springen
Datawarehouse-architectuur bron. ETL staat voor Extraction, Transformation & Loading: Het proces waarbij originele data wordt ontsloten voor het datawarehouse

Een datawarehouse is een gegevensverzameling voor het beantwoorden van terugkerende en ad-hoc vragen op het gebied van business intelligence; rapportages en data-analyse:

  • Een datawarehous bevat geen originele data: Alle data komt van elders
  • Deze data van elders wordt meestal automatisch geïmporteerd en opgeschoond
  • Gebruikers voegen geen gegevens toe aan een datawarehouse, en wijzigen ook geen gegevens

Data Extraction

Data extraction is het proces waarbij gestructureerde data wordt gewonnen uit ongestructureerde of slecht-gestructureerde data.

OpenRefine

OpenRefine noemt zichzelf a free, open source, powerful tool for working with messy data

  • Beschikbaar voor Windows, Mac & Linux
  • Alles acties worden bewaard als JSON-code. Deze acties zijn aan te roepen als undo, maar je kunt die acties ook als scripts opslaan. Dat maakt bewerkingen verifiëerbaar en herhaalbaar. Er bestaan zelfs libraries voor specifieke bewerkingen.

Zie OpenRefine voor details.

Zie ook

Bronnen