OpenRefine

Uit De Vliegende Brigade
Naar navigatie springen Naar zoeken springen

OpenRefine noemt zichzelf a free, open source, powerful tool for working with messy data

  • Beschikbaar voor Windows, Mac & Linux
  • Alles acties worden bewaard als JSON-code. Deze acties zijn aan te roepen als undo, maar je kunt die acties ook als scripts opslaan. Dat maakt bewerkingen verifiëerbaar en herhaalbaar. Er bestaan zelfs libraries voor specifieke bewerkingen.

Overzicht

Explore

Identificeren & verhelpen van inconsistenties (video 1), wo.:

  • Text facets: Selecteer rijen die in een bepaalde kolom dezelfde term hebben - Net als facet search
  • Samenvoegen van data - Bv. als in een bepaalde kolom verschillende schrijfwijzes worden gehanteerd voor hetzelfde begrip (2:14)
  • Clustering: OpenRefine kan zelf voorstellen doen voor samenvoegen van varianten van een begrip (3:23)
  • Numeric facets: Inclusief histogram, log, transformaties, etc. (4:26)

Clean & transform

  • Ziet er goed uit! Video.
  • Templating export: Bv. een tabel exporteren in MediaWiki tabel-opmaak

Reconcile & match

  • Zie derde video
  • Reconciliation means matching of data
  • Data kan oa. verrijkt worden dankzij webservices, zoals IMDB en vele, vele andere online diensten
  • Voorbeeld: Geografische coördinaten toevoegen aan een adresbestand, afkomstig van een webservice
  • Voorbeeld: Herkennen van een taal die gebruikt wordt in een deel van een document, weer icm. een webservice.

Installatie

Concreet, sep. 2016:

sudo mkdir /opt/openrefine
cd /tmp
wget https://github.com/OpenRefine/OpenRefine/releases/download/2.6-rc.2/openrefine-linux-2.6-rc.2.tar.gz
tar -xzf /tmp/openrefine-linux-2.6-rc.2.tar.gz
sudo cp -r /tmp/openrefine-2.6-rc.2/* /opt/openrefine
/opt/openrefine/refine

En klaar!

Zie ook

Bronnen