OpenRefine
OpenRefine noemt zichzelf a free, open source, powerful tool for working with messy data
- Beschikbaar voor Windows, Mac & Linux
- Alles acties worden bewaard als JSON-code. Deze acties zijn aan te roepen als undo, maar je kunt die acties ook als scripts opslaan. Dat maakt bewerkingen verifiëerbaar en herhaalbaar. Er bestaan zelfs libraries voor specifieke bewerkingen.
Overzicht
Explore
Identificeren & verhelpen van inconsistenties (video 1), wo.:
- Text facets: Selecteer rijen die in een bepaalde kolom dezelfde term hebben - Net als facet search
- Samenvoegen van data - Bv. als in een bepaalde kolom verschillende schrijfwijzes worden gehanteerd voor hetzelfde begrip (2:14)
- Clustering: OpenRefine kan zelf voorstellen doen voor samenvoegen van varianten van een begrip (3:23)
- Numeric facets: Inclusief histogram, log, transformaties, etc. (4:26)
Clean & transform
- Ziet er goed uit! Video.
- Templating export: Bv. een tabel exporteren in MediaWiki tabel-opmaak
Reconcile & match
- Zie derde video
- Reconciliation means matching of data
- Data kan oa. verrijkt worden dankzij webservices, zoals IMDB en vele, vele andere online diensten
- Voorbeeld: Geografische coördinaten toevoegen aan een adresbestand, afkomstig van een webservice
- Voorbeeld: Herkennen van een taal die gebruikt wordt in een deel van een document, weer icm. een webservice.
Installatie
- Installatie-instructies stellen weinig voor
- De daaropvolgende
Java Unsupported version exception
-foutmelding was verholpen door Java bij te werken - Start OpenRefine via executable
/opt/openrefine/refine
. Bv.: ALT-F2 → /opt/refine/openrefine - Open OpenRefine in je browser: http://127.0.0.1:3333/.
Concreet, sep. 2016:
sudo mkdir /opt/openrefine cd /tmp wget https://github.com/OpenRefine/OpenRefine/releases/download/2.6-rc.2/openrefine-linux-2.6-rc.2.tar.gz tar -xzf /tmp/openrefine-linux-2.6-rc.2.tar.gz sudo cp -r /tmp/openrefine-2.6-rc.2/* /opt/openrefine /opt/openrefine/refine
En klaar!