Datawarehousing: verschil tussen versies

Uit De Vliegende Brigade
Naar navigatie springen Naar zoeken springen
 
(4 tussenliggende versies door dezelfde gebruiker niet weergegeven)
Regel 18: Regel 18:
 
* Alles acties worden bewaard als [https://en.wikipedia.org/wiki/JSON JSON]-code. Deze acties zijn aan te roepen als ''undo'', maar je kunt die acties ook als scripts opslaan. Dat maakt bewerkingen verifiëerbaar en herhaalbaar. Er bestaan zelfs libraries voor specifieke bewerkingen.
 
* Alles acties worden bewaard als [https://en.wikipedia.org/wiki/JSON JSON]-code. Deze acties zijn aan te roepen als ''undo'', maar je kunt die acties ook als scripts opslaan. Dat maakt bewerkingen verifiëerbaar en herhaalbaar. Er bestaan zelfs libraries voor specifieke bewerkingen.
  
=== Explore ===
+
Zie [[OpenRefine]] voor details.
  
Identificeren & verhelpen van inconsistenties ([https://www.youtube.com/watch?time_continue=369&v=B70J_H_zAWM video]), wo.:
+
== Zie ook ==
  
* Klusteren/samenvoegen van data (bv. varianten van dezelfde tekstwaarde samenvoegen)
+
* [[OpenRefine]]
* Distributie van numerieke waardes bekijken, wisselen tussen gewone getallen en logaritmes.
 
 
 
=== Clean & transform ===
 
 
 
* Ziet er goed uit! [https://www.youtube.com/watch?v=cO8NVCs_Ba0 Vide].
 
* ''Templating export:'' Bv. een tabel exporteren in MediaWiki tabel-opmaak
 
 
 
=== Reconcile & match ===
 
 
 
* Zie derde video
 
* ''Reconciliation'' means matching of data
 
* Data kan oa. verrijkt worden dankzij ''webservices'', zoals IMDB en vele, vele andere online diensten
 
* Voorbeeld: Geografische coördinaten toevoegen aan een adresbestand, afkomstig van een webservice
 
* Voorbeeld: Herkennen van een taal die gebruikt wordt in een deel van een document, weer icm. een webservice.
 
  
 
== Bronnen ==
 
== Bronnen ==
Regel 42: Regel 28:
 
* https://en.wikipedia.org/wiki/Data_warehouse
 
* https://en.wikipedia.org/wiki/Data_warehouse
 
* https://en.wikipedia.org/wiki/Data_extraction
 
* https://en.wikipedia.org/wiki/Data_extraction
 
''' OpenRefine '''
 
 
 
* http://openrefine.org/
 
* http://openrefine.org/
* https://www.youtube.com/watch?v=cO8NVCs_Ba0 - Video 1
 
* https://www.youtube.com/watch?v=5tsyz3ibYzk - Video 3
 

Huidige versie van 14 jul 2016 om 17:30

Datawarehouse-architectuur bron. ETL staat voor Extraction, Transformation & Loading: Het proces waarbij originele data wordt ontsloten voor het datawarehouse

Een datawarehouse is een gegevensverzameling voor het beantwoorden van terugkerende en ad-hoc vragen op het gebied van business intelligence; rapportages en data-analyse:

  • Een datawarehous bevat geen originele data: Alle data komt van elders
  • Deze data van elders wordt meestal automatisch geïmporteerd en opgeschoond
  • Gebruikers voegen geen gegevens toe aan een datawarehouse, en wijzigen ook geen gegevens

Data Extraction

Data extraction is het proces waarbij gestructureerde data wordt gewonnen uit ongestructureerde of slecht-gestructureerde data.

OpenRefine

OpenRefine noemt zichzelf a free, open source, powerful tool for working with messy data

  • Beschikbaar voor Windows, Mac & Linux
  • Alles acties worden bewaard als JSON-code. Deze acties zijn aan te roepen als undo, maar je kunt die acties ook als scripts opslaan. Dat maakt bewerkingen verifiëerbaar en herhaalbaar. Er bestaan zelfs libraries voor specifieke bewerkingen.

Zie OpenRefine voor details.

Zie ook

Bronnen