Aggregatie (dwh)

Uit De Vliegende Brigade
Ga naar: navigatie, zoeken

Aggregatie lijkt twee dingen te kunnen betekenen:

  1. Samenvoegen: Samenvoegen van identieke informatie - Hiermeer wordt informatie vervangen door een compactere representatie
  2. Afleiden (derive): Afleiden van informatie van een verzameling data - Hierbij wordt nieuwe (secundaire) informatie gecreëerd, die de oorspronkelijke informatie niet vervangt.

Samenvoegen - Voorbeeld (1)

ASIN     SKU-ca    SKU-cm    SKU-de
------   -------   -------   ------
123xyz   blub-01   blub-01   blub-01
124xyw   blub-02   blub-02   blub-02

Dit is een hypothetisch overzicht van ASIN's (Amazon product-ID's) en de corresponderende SKU's die gebruikt worden op diverse Amazon-marktplaatsen. Omdat overal dezelfde SKU wordt, gebruikt, kan deze data als volgt worden geaggregeerd:

ASIN     SKU
------   -------
123xyz   blub-01
124xyw   blub-02

Hieraan kun je zien dat aggregate betrekking heeft op samenvoegen van identieke informatie, niet op het vereenvoudigen van informatie (bv. vervangen van diverse datapunten door een gemiddelde).

Samenvoegen - Voorbeeld (2)

ASIN     SKU-ca    SKU-cm    SKU-de
------   -------   -------   ------
123xyz   blub-01   blub-01   blub-01
124xyw   blub-02   blub-02   blub-02
125xya   blub-03   blub-xx   blub-xx

In dit geval lukt aggregatie niet, want voor de laatste ASIN worden er verschillende SKU's gebruikt.

Die situatie is hier opgelost door de waarde NULL in te vullen in de kolom SKU. Of dat wijsheid is, hangt waarschijnlijk van de situatie af:

ASIN     SKU       SKU-ca    SKU-cm    SKU-de
------   -------   -------   -------   ------
123xyz   blub-01   blub-01   blub-01   blub-01
124xyw   blub-02   blub-02   blub-02   blub-02
125xya   NULL      blub-03   blub-xx   blub-xx

Afleiding - Voorbeeld

  • Gemiddelde omzet per SKU over verschillende marktplaatsen
  • De vroegste vermelding van een SKU op diverse marktplaatsen.

Zoektermen

  • Aggregation
  • Aggregation datawarehouse

Zie ook