Taxonomieën (Algemeen)

Uit De Vliegende Brigade
Naar navigatie springen Naar zoeken springen

Taxonomieën zijn systemen om gegevens hiërarchisch te klassificeren. Dit artikel behandelt taxonomieën in het algemeen. Ik vermoed, dat als ik de terminologie helder heb, het een stuk gemakkelijk wordt om er mee te werken.

Terminologie

Elementaire rang - Eindrang - Eindtaxon

  • De elementaire rang of eindrang, is de 'laatste' of 'laagste' rang
  • De eindrang bestaat uit één of meer eindtaxons
  • Deze rang geeft meestal aan, wat voor soort entiteiten in het betreffende taxonomische systeem worden geclassificeerd
  • Vaak (maar niet altijd!) kun je achterhalen hoeveel objecten in een taxonomie zitten, door deze te tellen in de eindrang.

Elementen

Elementen zijn de dingen die bij een taxon horen. Voorbeelden:

  • Biologie: Het taxon Eukaryoten bevat de elementen Dieren, Planten, Schimmels en Protisten
  • Sportwagenfabrikanten: Taxon Italiaanse fabrikanten bevat oa. de elementen Ferrari en Lamborghini.

Een element is niet een object. Dit is iets waar ik regelmatig mee in de war raakte.

Voorbeeld:

  • Taxonomie: Sportwagens
  • Hoofdrang: Land
  • Tweede rang: Fabrikant
  • Derde rang: Model.

Voorbeelden van elementen:

  • Testarossa is een element van taxon Model
  • Ferrari is een element van taxon Fabrikant. Echter, Testarossa is hier niet een element.

Hoofdrang & hoofdtaxon

  • De hoofdrang is de hoogste taxonomische rang, oftwel de rang met het hoogste indelingsniveau
  • Als ik rangen nummer, krijgt de hoofdrang nummer 1
  • Een hoofdrang heeft taxons, maar is zelf geen taxon (anders krijg je eindeloze verwarring)
  • Een hoofdtaxon is een element/taxon van de hoofdrang.

Voorbeeld uit de biologie:

  • Hoogste rang: Domein
  • Deze rang kent drie elementen/taxons: Bacteria, Archaea, Eukaryota
  • Bacteria, Archaea, Eukaryota zijn dus hoofdtaxons.

Labelen

Labelen is het associëren van objecten met taxons.

Objecten

Objecten zijn de dingen die je in een taxonomie indeelt. De eerste zin van het Wikipedia-artikel Taxonomie:

Taxonomie (Grieks: τάξις táxis ordening, schikking en νόμος nómos gebruik, wet) is, 
in wetenschappelijk en technologisch verband, 
het indelen van individuen of objecten in groepen (taxa, enkelvoud taxon)

Vaak kun je zien om wat voor objecten het gaat, aan de hand van de elementaire rang van een taxonomie. Als je daar het aantal elementen telt, kun je het aantal objecten vaststellen, vermits alle objecten vertegenwoordigt zijn in de elementaire rang (dat hoeft niet altijd).

Pad (path)

Een pad is een route van een rang naar een andere rang.

Als je binnen een biologische taxonomie vanaf de hoofdrang naar homo sapiens sapiens gaat, bevat het pad ergens de taxon zoogdieren.

Rang (Level)

  • Een rang (level [1]) is een laag in een taxonomisch systeem
  • Als je rangen nummert, is het hoofdtaxon nummer 1
  • Rang en taxon zijn niet hetzelfde. Een rang heeft (eventueel) taxons, maar is zelf geen taxon
  • De namen van taxons in een bepaalde rang, zijn uniek. Net als verzamelingen in de wiskunde (denk aan Venn-diagrammen) - Da's handig, bv. bij labelen van de eindrang
  • Een rang kan leeg zijn. Dat wil zeggen dat alle taxons op de betreffene laag, geen objecten bevatten. Da's vrij theoretisch, maar het kan

Voorbeelden - biologische taxonomie

  • Sommige biologische taxonomieën kennen 12 rangen, waarvan Tak en Geslacht er twee zijn [2]
  • Domein heeft drie hoofdtaxons: Bacteriën, Archaea en Eukaryoten - Domein is geen hoofdtaxon.
  • Waarschijnlijk zijn er lege rangen: Rangen die vroeger ergens voor gebruikt worden, maar nu compleet in onbruik zijn geraakt

Taxon - Term

Een taxon of term is een label, eigenschap, of criterium waarmee objecten ingedeeld kunnen worden.

Voorbeeld: Taxons + rang

Rang Voorbeelden van taxons
Merken electrisch handgereedschap AEG, Bosch, DeWalt
Merken Italiaanse sportwagens Ferrari, Lamborghini
Merken sportwagens naar land Italië, Zweden, Nederland
Modellen Intel-processoren Celeron, Pentium, Xenon
Biologische klasses Zoogdieren, maxillopoda, vogels, miljoenpoten

Voorbeeld: Taxon + boom

Nu wordt het duidelijk:

                                                Taxonomie van sportwagens

LAND:                    Italië                         Zweden               Nederland
                          /\                               |                    |
                         /  \                              |                    |
                        /    \                             |                    |
                       /      \                            |                    |
                      /        \                           |                    |
                     /          \                          |                    |
                    /            \                         |                    |
                   /              \                        |                    |
MERKEN:        Ferrari,          Lamborghini          Koningsegg             Spijker
                  /\                  /\                  /\                   /\
                 /  \                /  \                /  \                 /  \
                /    \              /    \              /    \               /    \ 
MODELLEN:     F40  Testarossa  Countach Aventador    Jesko  Regera    C8 Spyder  C8 Double 12S

Taxons - Contextgebonden taxons

Voorbeelden van taxons uit een WordPress-webwinkel. Je kunt hier goed zien, dat zonder context (bv. paden of rangen) je amper snapt wat met een taxon bedoeld wordt

Vaak kun je taxons niet loszien van hun plek in een taxonomische pad, en dat is vermoedelijk een reden waarom werken met taxonomieën zo abstract kan zijn. Taxons, die pas binnen een gegeven context betekenis krijgen, noem ik contextgebonden taxons.

Voorbeeld: Taxons zonder context

Zonder context (paden, rang) zeggen taxons nogal weinig - Dan kan letterlijk alles een taxon zijn:

  • AEG, Bosch, DeWalt
  • Ferrari, Lamborghini
  • Celeron, Pentium, Xenon
  • Zoogdieren, maxillopoda, vogels, miljoenpoten
  • A, B, C.

Voorbeeld: AEG & Atlas Copco

Productmodellen van AEG & Atlas Copco: Ze hebben dezelfde model-aanduidingen. Dus zonder het betreffende pad, weet je niet op welk merk een model-aanduiding betrekking heeft.

Taxonomie

Met taxonomie (taxonomy) wordt primair de boom bedoeld, los van de objecten. Maar meestal loopt dat door elkaar heen.

Voorbeeld biologie

Beschouw een systeem voor biologische klassificatie [3]:

Objecten

  • Organismen of Soorten (zie verderop) zijn het soort objecten die hier worden geklassificeerd
  • Volgens dit artikel zijn er zo'n 8,7 miljoen verschillende objecten in dit systeem.

Rangen

Dit systeem kent 15 rangen:

  1. Domein
  2. Supergroep
  3. Rijk
  4. Afdeling, stam, fylum
  5. Klasse
  6. Orde
  7. Familie
  8. Tak
  9. Geslacht
  10. Sectie
  11. Reeks
  12. Soort
  13. Ondersoort
  14. Variëteit
  15. Vorm.

Hoofdrang

Domein is de hoofdrang.

Elementaire rang - Eindrang

De elementaire rang of eindrang is Soorten (de rangen eronder zijn extra). Je kunt dus ook zeggen dat dit systeem gebruikt wordt voor het klassificeren van soorten.

Elementen & taxons

De rang Domein bevat drie elementen, oftewel taxons:

  • Bacteriën
  • Archaea
  • Eukaryoten.

Labelen

Stel dat je op een dag een insect vindt, waarvan je zeker weet dat het nog niet bekend is. Klassificeren van dit nieuwe insect, is het labelen. Hierbij kun je beginnen met de elementaire rang en vandaar terugwerken (al ligt deze aanpak niet voor de hand). Een meer voor de hand-liggende aanpak: Begin bij de hoofdrang, en daal daarna af.

Voorbeeld: Sportwagens

                                           Taxonomy van sportwagens

LAND:                    Italië                         Zweden               Nederland
                          /\                               |                    |
                         /  \                              |                    |
                        /    \                             |                    |
                       /      \                            |                    |
                      /        \                           |                    |
                     /          \                          |                    |
                    /            \                         |                    |
                   /              \                        |                    |
MERKEN:        Ferrari           Lamborghini          Koningsegg             Spijker
                  /\                  /\                  /\                   /\
                 /  \                /  \                /  \                 /  \
                /    \              /    \              /    \               /    \ 
MODELLEN:     F40  Testarossa  Countach Aventador    Jesko  Regera    C8 Spyder  C8 Double 12S

Labelen

Een paar practische zaken rondom labelen:

Ook tussenliggende rangen

WordPress-voorbeeld: Dit artikel heb ik handmatig geassociëerd met een eindrang. Je ziet dat-ie niet automatisch met de bovengelegen rangen geassociëerd wordt

Als je een object associëert met een eindrang, wil dat niet automatisch zeggen, dat dat object ook met alle hogere rangen geassociëerd wordt, ook niet als er maar één pad is

  • In biologische klassificaties ligt het voor de hand dat dit wél altijd gebeurt, maar ook daar zul je uitzonderingen hebben. Bv. rondom het klassificeren van een nieuw-ontdekt organisme, waarvan sommige details onduidelijk zijn
  • Bij klassificaties van producten in een webwinkel, kan dat heel gemakkelijk voorkomen: Simpelweg omdat de data niet compleet is. Dus geen merk, maar wel een model, of nog reëler: Geen model, maar wel een model-SKU - Het kan allemaal.

Niet-unieke taxonnamen

In biologische taxonomieën, zullen de namen van taxons waarschijnlijk altijd uniek zijn. Je hebt vermoedelijk maar één taxon gewervelden, en ook maar één taxon evenhoevigen. In het algemeen kun je echter niet aannemen dat taxonnamen uniek zijn. Daar moet je bij labelen rekening mee houden.

Voorbeelden van niet-unieke taxonnamen (taxonomie van een webwinkel):

  • Ooit had je het bedrijf AEG - Atlas-Copco. Dat is op een dag gesplitst in - jawel! - AEG en Atlas-Copco. Ze voeren dezelfde productmodellen → Niet-unieke taxonnamen
  • Een bedrijf heeft modellen 3S, 1290 en P 10. Goede kans dat er meer bedrijven zijn met dergelijke model-aanduidingen
  • Vervangende onderdelen voor apparaten van merk X worden soms niet door X gemaakt, maar door Y, terwijl Y ook vervangende onderdelen voor zijn eigen apparaten maakt.

Bij labelen moet je hier rekening mee houden, door in algoritmes de betreffende taxonomische paden langs te lopen.

Begin bij de hoofdrang

Begin met labelen bij de hoofdrang: Die is altijd (lijkt me), en de kans op verwarring met namen van andere taxons is minimaal, omdat je bij labelen waarschijnlijk gemakkelijk kunt testen dat dit de hoofdrang betreft (WordPress: parent=0?)

Zie ook