Taxonomieën (Algemeen)

Uit De Vliegende Brigade
Naar navigatie springen Naar zoeken springen

Taxonomieën zijn systemen om gegevens hiërarchisch te klassificeren. Dit artikel behandelt taxonomieën in het algemeen. Ik vermoed, dat als ik de terminologie helder heb, het een stuk gemakkelijk wordt om er mee te werken.

Voorbeeld: Widgets

Er zijn een paar aspecten rondom taxonomieën, die verrassend verwarrend zijn. Daarom doe ik het aan de hand van dit bijna-real-world-example: Een taxonomie van widgets om bezoekers op een webwinkel te helpen om zo gemakkelijk mogelijk de juiste widget te vinden:

Merk                             Bosch                                                           DeWalt
             {cas-00-01; cas-10-01; cas-00-12; cas-10-23}                     {cas-00-44; cas-10-45; cas-00-46; cas-10-89}
                          /                 \                                /                     |                      \
                         /                   \                              /                      |                       \
                        /                     \                            /                       |                        \
Toepassing         Boormachine               Zaagmachine               Boormachine              Zaagmachine            Schuurmachine
               {cas-00-01; cas-10-01}   {cas-00-12; cas-00-23}    {cas-00-44; cas-10-45}   {cas-00-44; cas-10-45} {cas-00-46; cas-10-89}
                     /  \                     /  \                      /   \                     /   \                      /  \
                    /    \                   /    \                    /     \                   /     \                    /    \
                   /      \                 /      \                  /       \                 /       \                  /      \
Flipflop       Z.ff        M.ff          Z.ff       M.ff           Z.ff        M.ff          Z.ff        M.ff          Z.ff        M.ff
           {cas-00-01} {cas-10-01}   {cas-00-12} {cas-00-23}   {cas-00-44} {cas-10-45}   {cas-00-44} {cas-10-45}   {cas-00-46} {cas-10-89}

Verzamelingen met elementen - Taxons

Een taxonomie bestaat in eerste aanleg uit verzamelingen (sets, taxa of taxons - Enkelvoud: het taxon) van elementen. Die verzamelingen zijn al of niet hiërarchisch gerangschikt. Net als bij Venn-diagrammen, komt een element maar één keer voor in een taxon.

In dit voorbeeld:

  • Er zijn 17 taxons (ik gebruik taxa en taxons door elkaar)
  • Een hoop taxa hebben identieke namen: Zonder flipflop (Z.ff) komt bv. 5 keer voor, net als Met flipflop (M.ff). Daaraan kun je zien, dat je vaak de context (=de plek in de hiërarchie; het pad) moeten weten, om iets zinnigs te kunnen zeggen over een taxon.

Rang - Level

Deze taxonomie heeft drie rangen (Engels: Level'):

  1. Merk
  2. Toepassing
  3. Flipflop.
  • Een rang is een niveau in het pad.
  • Rangen zijn genummerd zoals hierboven
  • Vaak hebben taxonomieën geen rangen: Het is maar zelden dat de taxa in verschillende delen van een boom zo overeenkomen qua soort taxa, dat dit relevant is
  • Zie ook de afbeelding hiernaast van biologische taxonomie: Daar wordt gebruik gemaakt van rangen, maar niet elk pad heeft dezelfde rangen: Soms worden er rangen overgeslagen. Daarnaast zijn niet alle paden evenlang.

Elementen & objecten

De dingen die je in taxa stopt, noem ik elementen. Je mag het ook objecten noemen, of wat dan ook. Wikipedia:

Taxonomie (Grieks: τάξις táxis ordening, schikking en νόμος nómos 
gebruik, wet) is, in wetenschappelijk en technologisch verband, 
het indelen van individuen of objecten in groepen (taxa, enkelvoud 
taxon)
  • Deze taxonomie bevat 8 widgets, oftewel elementen: {cas-00-01; cas-10-01; cas-00-12; cas-10-23; cas-00-44; cas-10-45; cas-00-46; cas-10-89}
  • In alle taxa komen deze elementen voor. Dat kun je goed zien in dit schema
  • Het zou voldoende zijn geweest, om de elementen alleen in de eindtaxa te vermelden: Dan kun je zelf achterhalen in welke taxa ze verder nog voorkomen.

Begintaxa

Hoeveel begintaxa??? Deze Wikipedia-pagina geeft de verwarring omtrent begintaxa goed weer: De tabel geeft aan dat Domein de beginrang is. Deze heeft - afhankelijk van wie je het vraagt - 3 taxa: {Bacteria; Archaea; Eukaryoten}. Er zijn dan dus 3 begintaxa. De afbeelding aan de rechterkant, heeft daar echter nog een rang boven geplaatst: Leven. Ik denk niet dat dat een rang is, maar de titel van de taxonomie. De verwarring gaat echter nog een stap verder, want in de uitleg bij de afbeelding, wordt het bovenste object inderdaad niet meegeteld

Deze taxonomie kent twee begintaxa:

  1. Bosch
  2. DeWalt.

Een klassificatie hoeft dus niet te beginnen met één taxon, ook al is dat misschien intuïtiever. Om dit verwarrender te maken: De titel of het onderwerp van een taxonomie wordt vaak gebombardeerd tot begintaxon of -rang. Zie afbeelding hiernaast.

Eindtaxon

  • Deze taxonomie kent 10 eindtaxa: 5 keer Z.ff en 5 keer M.ff
  • Een eindtaxon is gewoon het laatste taxon in een pad (zie elders).
  • Toevallig bevat in dit voorbeeld elk eindtaxon precies één element. Da's mooi, want het maakt het voor de bezoekers van deze webwinkel gemakkelijk om te kiezen.

Subtaxa & subrang

Voorbeelden:

  • Taxon Bosch heeft 2 subtaxa
  • Taxon DeWalt heeft 3 subtaxa
  • De subrang van Merk is Toepassing.

Waarom ik deze termen belangrijk vind: Om de eindeloze verwarring rondom taxa en elementen te beperken. Zie het voorbeeld van biologische klassificatie verderop in dit artikel: Het is verbluffend hoe vanzelfsprekend elementen, taxa en subtaxa in één adem genoemd worden. Als je dus niet precies weet waar het over gaat, raak je gemakkelijk het pad kwijt.

Supertaxon & superrang

Een supertaxon is een taxon hoger in het pad. Hetzelfde geldt voor rang.

Zuster- & neventaxon

  • Een zuster of zustertaxon of neventaxon is een taxon met dezelfde supertaxon als de taxon onder beschouwing:
  • In het voorbeeld is Bosch zuster van DeWalt.

Taxon ≠ element

Eén van de grootste bronnen van verwarring voor mij: Een taxon is niet hetzelfde als een element

Taxon ≠ element Dit is een klassificatie van sportwagens (dus type sportwagens, zoals Ferrari Testarossa of Toyota Celica). De eindtaxa zijn echter de namen van wat eigenlijk de elementen zijn. Als dit een klassificatie zou zijn van bv. aantal sportwagens verkocht in Nederland in 2019, dan zou dit wel kunnen kloppen - En dat maakt dit zo verwarrend

Unieke taxonnamen?

  • Mogelijk wordt de verwarring rondom Taxon ≠ element, veroorzaakt doordat taxa identieke namen hebben. Een oplossing kan zijn om dergelijke taxa unieke namen of globale namen te geven
  • Naast deze verwarring, is er nog een reden om unieke namen te hanteren: Als bezoekers via Google op een taxonpagina belanden, en die heet (in dit geval) bv. alleen met flipflop, dan weet een bezoeker niet om wat voor producten het gaat.
Taxon ≠ element: Zo ver ik weet, hebben in de biologische taxonomie alle taxa unieke namen. Dus er is maar één taxon genaamd Evenhoevigen, en dat scheelt een hoop verwarring. Dit is ook waarom je in de klassificatie van mensen taxa hebt met schier vergelijkbare namen, zoals
  • Hominoidea
  • Hominidae
  • Homininae
  • Hominini
Zie ook het voorbeeld verderop in dit artikel

Hier is opnieuw het voorbeeld van hierboven, maar nu met unieke namen voor alle taxe. Misschien is beter om hier te spreken van omschrijvingen dan van namen:

                  Widgets Bosch                                                  Widgets DeWalt
                   /         \                                               /           |         \
                  /           \                                             /            |          \
                 /             \                                           /             |           \
     Widgets Bosch            Widgets Bosch                  Widgets DeWalt         Widgets DeWalt    Widgets DeWalt
     boormachines             zaagmachines                   boormachines           zaagmachines      schuurmachines
        /  \                     /   \                      /      |                  /      |            |         \
       /    \                   /     \                    /       |                 /       |            |          \
      /      \                 /       \                  /        |                /        |            |           \
Widgets      Widgets      Widgets      Widgets     Widgets       Widgets      Widgets      Widgets      Widgets        Widgets 
Bosch        Bosch        Bosch        Bosch        DeWalt       DeWalt       DeWalt       DeWalt       DeWalt         DeWalt
boormachines boormachines zaagmachines zaagmachines boormachines boormachines zaagmachines zaagmachines schuurmachines schuurmachines
zonder       met          zonder       met          zonder       met          zonder       met          zonder         met
flipflop     flipflop     flipflop     flipflop     flipflop     flipflop     flipflop     flipflop     flipflop       flipflop

Beiden aanpakken hebben voor- en nadelen. Hoe ik dit in WordPress doe:

  • Taxon-namen zijn voor mij altijd de 'korte' namen, ook als ze niet uniek zijn
  • In de omschrijving van taxons vermeld ik de complete naam (meestal door het pad te vermelden)
  • WordPress verzint zelf een unieke slug voor zo'n taxon, en zo snel een naam niet meer uniek is, voegt WordPress zelf padonderdelen toe aan zo'n slug.

Beginrang & hoofdrang

De beginrang of hoofdrang in dit voorbeeld, is Merk.

Elementaire rang & eindrang

  • De eindrang heet Flipflop
  • De eindrang wordt ook elementaire rang genoemd, omdat elementen vaak alleen bij de eindrang vermeld worden - Wat ik heel verwarrend vind, want het suggereert dat deze elementen niet aanwezig zijn in de tussenliggende taxa of rangen.

Hoog & laag, bovenaan & onderaan

Oriëntatie is zoals in het schema. Bv.:

  • Merk staat boven Toepassing
  • Merk staat hoger in de hiërarchie dan Toepassing
  • Flipflop staat onderaan in de hiërarchie. Merk staat bovenaan in de hiërarchie.

Paden

Deze taxonomie kent 10 paden:

    Taxon   Taxon            Taxon
    ------   -------------   -----
1.  Bosch  » Boormachine   » Z.ff
2.  Bosch  » Boormachine   » M.ff
3.  Bosch  » Zaagmachine   » Z.ff 
4.  Bosch  » Zaagmachine   » M.ff
5.  DeWalt » Boormachine   » Z.ff
6.  DeWalt » Boormachine   » M.ff
7.  DeWalt » Zaagmachine   » Z.ff
8.  DeWalt » Zaagmachine   » M.ff
9.  DeWalt » Schuurmachine » Z.ff
10. DeWalt » Schuurmachine » M.ff

Je kunt een pad eenduidig beschrijven aan de hand van de taxa waaruit dat pad bestaat. Net als wanneer je binnen een biologische taxonomie van hoofdrand naar home sapiens sapiens gaat, het pad ergens het taxon Zoogdieren bevat.

Dit is een opvallend overzichtelijke taxonomie:

  • Alle paden zijn even lang
  • Paden gaan niet in elkaar over (daar is een naam voor - Synoniemen?)
  • Per eindtaxon (zie verderop) is er steeds hetzelfde aantal elementen (1 element in dit geval).

Taxonomie & Labelen

  • Met taxonomie wordt de boom bedoeld, zonder de inhoud. Dat onderscheid is rondom WordPress bepaald relevant: Ik moet vaak eerst de boom bouwen, en daarna de boom van inhoud voorzien
  • Met labelen bedoel ik 'de boom van inhoud voorzien'. Dus het invoegen van elementen in een taxonomie.

Voorbeeld: Sportwagens

                                        Taxonomie van sportwagens
                                        -------------------------

Land:                Italië                       Zweden               Nederland
                    /      \                        |                     |
                   /        \                       |                     |
                  /          \                      |                     |
Merk:         Ferrari       Lamborghini         Koningsegg             Spijker
           {Ferrari F40;     {L. Countach;    {Koningsegg Jesko;   {Spijker C8 Spyder;
        Ferrari Testarossa}  L. Aventador}   Koningsegg Regera}    Spijker C8 Double 12S}

Dit voorbeeld is misschien wat abstracter, want maar twee rangen. Er zitten een paar interessante aspecten aan:

Elementen

Deze taxonomie bevat 8 elementen:

  1. Ferrari F40
  2. Ferrari Testarossa
  3. Lamborghini Countach
  4. Lamborghini Aventador
  5. Koningsegg Jesko
  6. Koningsegg Regara
  7. Spijker C8 Spyder
  8. Spijker C8 Double 12S.

De elementen worden enkel benoemd in de eindtaxa.

Taxa

Er zijn 7 taxa:

  1. Italië
  2. Zweden
  3. Nederland
  4. Ferrari
  5. Lamborghini
  6. Koningsegg
  7. Spijker.

Begintaxa

Er zijn drie begintaxa:

  1. Italië
  2. Zweden
  3. Nederland.

Merk op dat Taxonomie van sportwagens de titel is. Niet het begintaxon.

Taxa & unieke namen

Merk op dat alle taxa unieke namen hebben. Desalniattemin zeggen de taxonnamen niet veel: Als dit landing pages van een webwinkel waren, zouden bezoekers nog steeds flink in de war kunnen raken, om wat voor pagina het gaat (bv. Nederland). Misschien dat omschrijving daarom een betere benaming is dan unieke namen:

  1. Italië - Italiaanse sportwagens
  2. Zweden - Zweedse sportwagens
  3. Nederland - Nederlandse sportwagens
  4. Ferrari - Ferrari sportwagens
  5. Lamborghini - Lamborghini sportwagens
  6. Koningsegg - Koningsegg sportwagens
  7. Spijker - Spijker sportwagens.

Rangen

Er zijn twee rangen:

  1. Land
  2. Merk.

Voorbeeld: Biologische klassificatie

Deel van de klassificatie van Domein Archaea. Dit is enkel de taxonomie, zonder bijbehorende elementen. Verder hebben alle taxa unieke namen - Dat zal nog een flinke klus zijn geweest

Beschouw een systeem voor biologische klassificatie [1]:

Elementen

  • Organismen of Soorten (zie verderop) zijn het soort objecten die hier worden geklassificeerd
  • Volgens dit artikel zijn er zo'n 8,7 miljoen verschillende elementen in dit systeem.

Rangen

Dit systeem kent 15 rangen:

  1. Domein
  2. Supergroep
  3. Rijk
  4. Afdeling, stam, fylum
  5. Klasse
  6. Orde
  7. Familie
  8. Tak
  9. Geslacht
  10. Sectie
  11. Reeks
  12. Soort
  13. Ondersoort
  14. Variëteit
  15. Vorm.

Hoofdrang

Domein is de hoofdrang.

Eindrang

De elementaire rang of eindrang is Soorten (de rangen eronder zijn extra).

Begintaxa

De rang Domein bevat drie taxa. Dat zijn dus de begintaxa van deze taxonomie:

  1. Bacteriën
  2. Archaea
  3. Eukaryoten.

Deze taxa bevatten elk vermoedelijk miljoenen elementen. Homo Sapiens Sapiens is een element van taxon Eukaryoten

Labelen

Stel dat je op een dag een insect vindt, waarvan je zeker weet dat het nog niet bekend is. Klassificeren van dit nieuwe insect, is het labelen. Hierbij kun je beginnen met de elementaire rang en vandaar terugwerken (al ligt deze aanpak niet voor de hand). Een meer voor de hand-liggende aanpak: Begin bij de hoofdrang, en daal daarna af.

Klassificatie van de mens

Dit was voor de lol, maar het liet me iets practisch zien: Op de betreffende Wikipedia-pagina's, werden de namen van elementen en subtaxons, moeiteloos door elkaar gebruikt:

1.  Domein: Dit is de hoofdrang. Deze kent drie taxa. Er zijn dus drie hoofdtaxa:
    * Eukaryoten ← Jij, beste lezer, bent hier
    * Archaea
    * Bacteria
2.  Supergroep
    * Unikonta ← Je bent hier
    * Excavata (eencelligen)
    * Archaeplastida (zoiets als planten)
    * Chromalveolata (fotosyntethiserende algen)
    * Rhizaria (soort eencelligen)
3.  Rijk, kingdom, regnum - Wordt niet meer gebruit ofzo. Vandaar de overlap met van alles en nog wat:
    * Archaea
    * Bacteriën
    * Protisten
    * Planten
    * Dieren, animalia ← Je bent hier
    * Schimmels, fungi
4.  Onderrijk
    * Choanozoa?
    * Mesozoa? (middendiertjes)
    * Parazoa? (sponsachtigen)
    * Eumetazoa? (orgaandieren) ← Je bent hier
5.  Afdeling, stam, fylum
    * Chordata
6.  Klasse
    * Mammalia
(x.  Mirorder)
    * Primatomorpha
7.  Orde
    * Primates ← Je bent hier
x.  Suborde
    * Strepsirrhini (lemurs e.d.)
    * Haplorhini (dry-nose primates) ← Je bent hier
x.  Infraorde
    * Simiiformes (monkeys, incl. apes)
    * Tarsiiformes (tarsiers, broertjes van lemurs)
x.  Parvorder
    * Catarrhini (old world monkeys) ← Je bent hier
    * Platyrrhini
x.  Superfamilie
    * †Oligopithecidae
    * †Propliopithecoidea
    * †Pliopithecoidea
    * †Saadanioidea
    * †Parapithecoidea
    * Cercopithecoidea
    * Hominoidea (apes)
9.  Familie
    * Hominidae (mensachtigen). Enkele elementen/subtaxa: Gorilla's, mensen, chimpansees, orang-oetans, bonobo's
10. Onderfamilie
    * Dryopithecianae
    * Homininae (bevat 2 geslachtengroepen, 5 soorten)
      1. Gorillini
        * Soort: Gorilla gorilla (Westelijke gorilla)
          * Gorilla gorilla gorilla
          * Gorilla gorilla diehli
        * Soort: Gorilla berengei (Oostelijke gorilla)
          * Gorilla beringei graueri (Oostelijke laaglandgorilla)
          * Gorilla beringei beringei (Berggorilla)
      2. Hominini ← Je bent hier
      3. Pan (Chimpansees) - Dit lijkt een laag lager te zijn, zonder tussenlaag
         * Chimpansees
         * Bonobo
    * Ouranopithecus
    * Ponginae
      * Sumatraanse orang-oetan
      * Tapanuli-orang-oetan
      * Borneose orang-oetan
10. Geslachtengroep
    * Hominini
      * Geslacht: Pan (chimpansees)
      * Geslacht: Sahelanthropus
      * Geslacht: Praeanthropus
      * Geslacht: Ardipithecus
      * Geslacht: Australiopithecus
      * Geslacht: Paranthropus
      * Geslacht: Homo ← Je bent hier
11. Geslacht: Deze rang heeft op dit pad maar 1 taxon:
    * Soort: Homo
12. Soort: Deze rang heeft op dit pad 15 taxons:
    * Homo antecessor
    * Homo cepranensis
    * Homo denisova
    * Homo erectus
    * Homo ergaster
    * Homo floresiensis
    * Homo georgicus
    * Homo habilis
    * Homo heidelbergensis
    * Homo helmei
    * Homo naledi
    * Homo neanderthalensis
    * Homo rhodesiensis
    * Homo rudolfensis
    * Homo sapiens ← Je bent hier
13. Ondersoort
    * Homo sapiens idaltu
    * Home sapiens sapiens (cro-magnonmens)
# Variëteit
# Vorm.

En voor nog meer fun:

Labelen

Een paar practische zaken rondom labelen:

Ook tussenliggende rangen

WordPress-voorbeeld: Dit artikel heb ik handmatig geassociëerd met een eindtaxon. Je ziet dat-ie niet automatisch met de bovengelegen taxa geassociëerd wordt

Als je een object associëert met een eindtaxon, wil dat niet automatisch zeggen, dat dat object ook met alle hogere taxa geassociëerd wordt, ook niet als er maar één pad is

  • In biologische klassificaties ligt het voor de hand dat dit wél altijd gebeurt, maar ook daar zul je uitzonderingen hebben. Bv. levensvormen waaran de supertaxon gek genoeg elders in de taxonomie voorkomt. Daar is een naam voor. Iets met fylem
  • Bij klassificaties van producten in een webwinkel, kan dat heel gemakkelijk voorkomen: Simpelweg omdat de data niet compleet is. Dus geen merk, maar wel een model, of nog reëler: Geen model, maar wel een model-SKU - Het kan allemaal.

Niet-unieke taxonnamen

In biologische taxonomieën, zullen de namen van taxons waarschijnlijk altijd uniek zijn. Je hebt vermoedelijk maar één taxon gewervelden, en ook maar één taxon evenhoevigen. In het algemeen kun je echter niet aannemen dat taxonnamen uniek zijn. Daar moet je bij labelen rekening mee houden.

Voorbeelden van niet-unieke taxonnamen (taxonomie van een webwinkel):

  • Ooit had je het bedrijf AEG - Atlas-Copco. Dat is op een dag gesplitst in - jawel! - AEG en Atlas-Copco. Ze voeren dezelfde productmodellen → Niet-unieke taxonnamen
  • Een bedrijf heeft modellen 3S, 1290 en P 10. Goede kans dat er meer bedrijven zijn met dergelijke model-aanduidingen
  • Vervangende onderdelen voor apparaten van merk X worden soms niet door X gemaakt, maar door Y, terwijl Y ook vervangende onderdelen voor zijn eigen apparaten maakt.

Bij labelen moet je hier rekening mee houden, door in algoritmes de betreffende taxonomische paden langs te lopen.

Begin bij de hoofdrang

Begin met labelen bij de hoofdrang: Die is altijd (lijkt me), en de kans op verwarring met namen van andere taxons is minimaal, omdat je bij labelen waarschijnlijk gemakkelijk kunt testen dat dit de hoofdrang betreft (WordPress: parent=0?)

Zie ook

Bronnen