Taxonomieën (Algemeen)
Taxonomieën zijn systemen om gegevens hiërarchisch te klassificeren. Dit artikel behandelt taxonomieën in het algemeen. Ik vermoed, dat als ik de terminologie helder heb, het een stuk gemakkelijk wordt om er mee te werken.
Voorbeeld: Widgets
Er zijn een paar aspecten rondom taxonomieën, die verrassend verwarrend zijn. Daarom doe ik het aan de hand van dit bijna-real-world-example: Een taxonomie van widgets om bezoekers op een webwinkel te helpen om zo gemakkelijk mogelijk de juiste widget te vinden:
Merk Bosch DeWalt {cas-00-01; cas-10-01; cas-00-12; cas-10-23} {cas-00-44; cas-10-45; cas-00-46; cas-10-89} / \ / | \ / \ / | \ / \ / | \ Toepassing Boormachine Zaagmachine Boormachine Zaagmachine Schuurmachine {cas-00-01; cas-10-01} {cas-00-12; cas-00-23} {cas-00-44; cas-10-45} {cas-00-44; cas-10-45} {cas-00-46; cas-10-89} / \ / \ / \ / \ / \ / \ / \ / \ / \ / \ / \ / \ / \ / \ / \ Flipflop Z.ff M.ff Z.ff M.ff Z.ff M.ff Z.ff M.ff Z.ff M.ff {cas-00-01} {cas-10-01} {cas-00-12} {cas-00-23} {cas-00-44} {cas-10-45} {cas-00-44} {cas-10-45} {cas-00-46} {cas-10-89}
Verzamelingen met elementen - Taxons
Een taxonomie bestaat in eerste aanleg uit verzamelingen (sets, taxa of taxons - Enkelvoud: het taxon) van elementen. Die verzamelingen zijn al of niet hiërarchisch gerangschikt. Net als bij Venn-diagrammen, komt een element maar één keer voor in een taxon.
In dit voorbeeld:
- Er zijn 17 taxons (ik gebruik taxa en taxons door elkaar)
- Een hoop taxa hebben identieke namen: Zonder flipflop (Z.ff) komt bv. 5 keer voor, net als Met flipflop (M.ff). Daaraan kun je zien, dat je vaak de context (=de plek in de hiërarchie; het pad) moeten weten, om iets zinnigs te kunnen zeggen over een taxon.
Rang - Level
Deze taxonomie heeft drie rangen (Engels: Level'):
- Merk
- Toepassing
- Flipflop.
- Een rang is een niveau in het pad.
- Rangen zijn genummerd zoals hierboven
- Vaak hebben taxonomieën geen rangen: Het is maar zelden dat de taxa in verschillende delen van een boom zo overeenkomen qua soort taxa, dat dit relevant is
- Zie ook de afbeelding hiernaast van biologische taxonomie: Daar wordt gebruik gemaakt van rangen, maar niet elk pad heeft dezelfde rangen: Soms worden er rangen overgeslagen. Daarnaast zijn niet alle paden evenlang.
Elementen & objecten
De dingen die je in taxa stopt, noem ik elementen. Je mag het ook objecten noemen, of wat dan ook. Wikipedia:
Taxonomie (Grieks: τάξις táxis ordening, schikking en νόμος nómos gebruik, wet) is, in wetenschappelijk en technologisch verband, het indelen van individuen of objecten in groepen (taxa, enkelvoud taxon)
- Deze taxonomie bevat 8 widgets, oftewel elementen: {cas-00-01; cas-10-01; cas-00-12; cas-10-23; cas-00-44; cas-10-45; cas-00-46; cas-10-89}
- In alle taxa komen deze elementen voor. Dat kun je goed zien in dit schema
- Het zou voldoende zijn geweest, om de elementen alleen in de eindtaxa te vermelden: Dan kun je zelf achterhalen in welke taxa ze verder nog voorkomen.
Begintaxa
Deze taxonomie kent twee begintaxa:
- Bosch
- DeWalt.
Een klassificatie hoeft dus niet te beginnen met één taxon, ook al is dat misschien intuïtiever. Om dit verwarrender te maken: De titel of het onderwerp van een taxonomie wordt vaak gebombardeerd tot begintaxon of -rang. Zie afbeelding hiernaast.
Eindtaxon
- Deze taxonomie kent 10 eindtaxa: 5 keer Z.ff en 5 keer M.ff
- Een eindtaxon is gewoon het laatste taxon in een pad (zie elders).
- Toevallig bevat in dit voorbeeld elk eindtaxon precies één element. Da's mooi, want het maakt het voor de bezoekers van deze webwinkel gemakkelijk om te kiezen.
Subtaxa & subrang
Voorbeelden:
- Taxon Bosch heeft 2 subtaxa
- Taxon DeWalt heeft 3 subtaxa
- De subrang van Merk is Toepassing.
Waarom ik deze termen belangrijk vind: Om de eindeloze verwarring rondom taxa en elementen te beperken. Zie het voorbeeld van biologische klassificatie verderop in dit artikel: Het is verbluffend hoe vanzelfsprekend elementen, taxa en subtaxa in één adem genoemd worden. Als je dus niet precies weet waar het over gaat, raak je gemakkelijk het pad kwijt.
Supertaxon & superrang
Een supertaxon is een taxon hoger in het pad. Hetzelfde geldt voor rang.
Zuster- & neventaxon
- Een zuster of zustertaxon of neventaxon is een taxon met dezelfde supertaxon als de taxon onder beschouwing:
- In het voorbeeld is Bosch zuster van DeWalt.
Taxon ≠ element
Eén van de grootste bronnen van verwarring voor mij: Een taxon is niet hetzelfde als een element
Unieke taxonnamen?
- Mogelijk wordt de verwarring rondom Taxon ≠ element, veroorzaakt doordat taxa identieke namen hebben. Een oplossing kan zijn om dergelijke taxa unieke namen of globale namen te geven
- Naast deze verwarring, is er nog een reden om unieke namen te hanteren: Als bezoekers via Google op een taxonpagina belanden, en die heet (in dit geval) bv. alleen met flipflop, dan weet een bezoeker niet om wat voor producten het gaat.
Hier is opnieuw het voorbeeld van hierboven, maar nu met unieke namen voor alle taxe. Misschien is beter om hier te spreken van omschrijvingen dan van namen:
Widgets Bosch Widgets DeWalt / \ / | \ / \ / | \ / \ / | \ Widgets Bosch Widgets Bosch Widgets DeWalt Widgets DeWalt Widgets DeWalt boormachines zaagmachines boormachines zaagmachines schuurmachines / \ / \ / | / | | \ / \ / \ / | / | | \ / \ / \ / | / | | \ Widgets Widgets Widgets Widgets Widgets Widgets Widgets Widgets Widgets Widgets Bosch Bosch Bosch Bosch DeWalt DeWalt DeWalt DeWalt DeWalt DeWalt boormachines boormachines zaagmachines zaagmachines boormachines boormachines zaagmachines zaagmachines schuurmachines schuurmachines zonder met zonder met zonder met zonder met zonder met flipflop flipflop flipflop flipflop flipflop flipflop flipflop flipflop flipflop flipflop
Beiden aanpakken hebben voor- en nadelen. Hoe ik dit in WordPress doe:
- Taxon-namen zijn voor mij altijd de 'korte' namen, ook als ze niet uniek zijn
- In de omschrijving van taxons vermeld ik de complete naam (meestal door het pad te vermelden)
- WordPress verzint zelf een unieke slug voor zo'n taxon, en zo snel een naam niet meer uniek is, voegt WordPress zelf padonderdelen toe aan zo'n slug.
Beginrang & hoofdrang
De beginrang of hoofdrang in dit voorbeeld, is Merk.
Elementaire rang & eindrang
- De eindrang heet Flipflop
- De eindrang wordt ook elementaire rang genoemd, omdat elementen vaak alleen bij de eindrang vermeld worden - Wat ik heel verwarrend vind, want het suggereert dat deze elementen niet aanwezig zijn in de tussenliggende taxa of rangen.
Hoog & laag, bovenaan & onderaan
Oriëntatie is zoals in het schema. Bv.:
- Merk staat boven Toepassing
- Merk staat hoger in de hiërarchie dan Toepassing
- Flipflop staat onderaan in de hiërarchie. Merk staat bovenaan in de hiërarchie.
Paden
Deze taxonomie kent 10 paden:
Taxon Taxon Taxon ------ ------------- ----- 1. Bosch » Boormachine » Z.ff 2. Bosch » Boormachine » M.ff 3. Bosch » Zaagmachine » Z.ff 4. Bosch » Zaagmachine » M.ff 5. DeWalt » Boormachine » Z.ff 6. DeWalt » Boormachine » M.ff 7. DeWalt » Zaagmachine » Z.ff 8. DeWalt » Zaagmachine » M.ff 9. DeWalt » Schuurmachine » Z.ff 10. DeWalt » Schuurmachine » M.ff
Je kunt een pad eenduidig beschrijven aan de hand van de taxa waaruit dat pad bestaat. Net als wanneer je binnen een biologische taxonomie van hoofdrand naar home sapiens sapiens gaat, het pad ergens het taxon Zoogdieren bevat.
Dit is een opvallend overzichtelijke taxonomie:
- Alle paden zijn even lang
- Paden gaan niet in elkaar over (daar is een naam voor - Synoniemen?)
- Per eindtaxon (zie verderop) is er steeds hetzelfde aantal elementen (1 element in dit geval).
Taxonomie & Labelen
- Met taxonomie wordt de boom bedoeld, zonder de inhoud. Dat onderscheid is rondom WordPress bepaald relevant: Ik moet vaak eerst de boom bouwen, en daarna de boom van inhoud voorzien
- Met labelen bedoel ik 'de boom van inhoud voorzien'. Dus het invoegen van elementen in een taxonomie.
Voorbeeld: Sportwagens
Taxonomie van sportwagens ------------------------- Land: Italië Zweden Nederland / \ | | / \ | | / \ | | Merk: Ferrari Lamborghini Koningsegg Spijker {Ferrari F40; {L. Countach; {Koningsegg Jesko; {Spijker C8 Spyder; Ferrari Testarossa} L. Aventador} Koningsegg Regera} Spijker C8 Double 12S}
Dit voorbeeld is misschien wat abstracter, want maar twee rangen. Er zitten een paar interessante aspecten aan:
Elementen
Deze taxonomie bevat 8 elementen:
- Ferrari F40
- Ferrari Testarossa
- Lamborghini Countach
- Lamborghini Aventador
- Koningsegg Jesko
- Koningsegg Regara
- Spijker C8 Spyder
- Spijker C8 Double 12S.
De elementen worden enkel benoemd in de eindtaxa.
Taxa
Er zijn 7 taxa:
- Italië
- Zweden
- Nederland
- Ferrari
- Lamborghini
- Koningsegg
- Spijker.
Begintaxa
Er zijn drie begintaxa:
- Italië
- Zweden
- Nederland.
Merk op dat Taxonomie van sportwagens de titel is. Niet het begintaxon.
Taxa & unieke namen
Merk op dat alle taxa unieke namen hebben. Desalniattemin zeggen de taxonnamen niet veel: Als dit landing pages van een webwinkel waren, zouden bezoekers nog steeds flink in de war kunnen raken, om wat voor pagina het gaat (bv. Nederland). Misschien dat omschrijving daarom een betere benaming is dan unieke namen:
- Italië - Italiaanse sportwagens
- Zweden - Zweedse sportwagens
- Nederland - Nederlandse sportwagens
- Ferrari - Ferrari sportwagens
- Lamborghini - Lamborghini sportwagens
- Koningsegg - Koningsegg sportwagens
- Spijker - Spijker sportwagens.
Rangen
Er zijn twee rangen:
- Land
- Merk.
Voorbeeld: Biologische klassificatie
Beschouw een systeem voor biologische klassificatie [1]:
Elementen
- Organismen of Soorten (zie verderop) zijn het soort objecten die hier worden geklassificeerd
- Volgens dit artikel zijn er zo'n 8,7 miljoen verschillende elementen in dit systeem.
Rangen
Dit systeem kent 15 rangen:
- Domein
- Supergroep
- Rijk
- Afdeling, stam, fylum
- Klasse
- Orde
- Familie
- Tak
- Geslacht
- Sectie
- Reeks
- Soort
- Ondersoort
- Variëteit
- Vorm.
Hoofdrang
Domein is de hoofdrang.
Eindrang
De elementaire rang of eindrang is Soorten (de rangen eronder zijn extra).
Begintaxa
De rang Domein bevat drie taxa. Dat zijn dus de begintaxa van deze taxonomie:
- Bacteriën
- Archaea
- Eukaryoten.
Deze taxa bevatten elk vermoedelijk miljoenen elementen. Homo Sapiens Sapiens is een element van taxon Eukaryoten
Labelen
Stel dat je op een dag een insect vindt, waarvan je zeker weet dat het nog niet bekend is. Klassificeren van dit nieuwe insect, is het labelen. Hierbij kun je beginnen met de elementaire rang en vandaar terugwerken (al ligt deze aanpak niet voor de hand). Een meer voor de hand-liggende aanpak: Begin bij de hoofdrang, en daal daarna af.
Klassificatie van de mens
Dit was voor de lol, maar het liet me iets practisch zien: Op de betreffende Wikipedia-pagina's, werden de namen van elementen en subtaxons, moeiteloos door elkaar gebruikt:
1. Domein: Dit is de hoofdrang. Deze kent drie taxa. Er zijn dus drie hoofdtaxa: * Eukaryoten ← Jij, beste lezer, bent hier * Archaea * Bacteria 2. Supergroep * Unikonta ← Je bent hier * Excavata (eencelligen) * Archaeplastida (zoiets als planten) * Chromalveolata (fotosyntethiserende algen) * Rhizaria (soort eencelligen) 3. Rijk, kingdom, regnum - Wordt niet meer gebruit ofzo. Vandaar de overlap met van alles en nog wat: * Archaea * Bacteriën * Protisten * Planten * Dieren, animalia ← Je bent hier * Schimmels, fungi 4. Onderrijk * Choanozoa? * Mesozoa? (middendiertjes) * Parazoa? (sponsachtigen) * Eumetazoa? (orgaandieren) ← Je bent hier 5. Afdeling, stam, fylum * Chordata 6. Klasse * Mammalia (x. Mirorder) * Primatomorpha 7. Orde * Primates ← Je bent hier x. Suborde * Strepsirrhini (lemurs e.d.) * Haplorhini (dry-nose primates) ← Je bent hier x. Infraorde * Simiiformes (monkeys, incl. apes) * Tarsiiformes (tarsiers, broertjes van lemurs) x. Parvorder * Catarrhini (old world monkeys) ← Je bent hier * Platyrrhini x. Superfamilie * †Oligopithecidae * †Propliopithecoidea * †Pliopithecoidea * †Saadanioidea * †Parapithecoidea * Cercopithecoidea * Hominoidea (apes) 9. Familie * Hominidae (mensachtigen). Enkele elementen/subtaxa: Gorilla's, mensen, chimpansees, orang-oetans, bonobo's 10. Onderfamilie * Dryopithecianae * Homininae (bevat 2 geslachtengroepen, 5 soorten) 1. Gorillini * Soort: Gorilla gorilla (Westelijke gorilla) * Gorilla gorilla gorilla * Gorilla gorilla diehli * Soort: Gorilla berengei (Oostelijke gorilla) * Gorilla beringei graueri (Oostelijke laaglandgorilla) * Gorilla beringei beringei (Berggorilla) 2. Hominini ← Je bent hier 3. Pan (Chimpansees) - Dit lijkt een laag lager te zijn, zonder tussenlaag * Chimpansees * Bonobo * Ouranopithecus * Ponginae * Sumatraanse orang-oetan * Tapanuli-orang-oetan * Borneose orang-oetan 10. Geslachtengroep * Hominini * Geslacht: Pan (chimpansees) * Geslacht: Sahelanthropus * Geslacht: Praeanthropus * Geslacht: Ardipithecus * Geslacht: Australiopithecus * Geslacht: Paranthropus * Geslacht: Homo ← Je bent hier 11. Geslacht: Deze rang heeft op dit pad maar 1 taxon: * Soort: Homo 12. Soort: Deze rang heeft op dit pad 15 taxons: * Homo antecessor * Homo cepranensis * Homo denisova * Homo erectus * Homo ergaster * Homo floresiensis * Homo georgicus * Homo habilis * Homo heidelbergensis * Homo helmei * Homo naledi * Homo neanderthalensis * Homo rhodesiensis * Homo rudolfensis * Homo sapiens ← Je bent hier 13. Ondersoort * Homo sapiens idaltu * Home sapiens sapiens (cro-magnonmens) # Variëteit # Vorm.
En voor nog meer fun:
Labelen
Een paar practische zaken rondom labelen:
Ook tussenliggende rangen
Als je een object associëert met een eindtaxon, wil dat niet automatisch zeggen, dat dat object ook met alle hogere taxa geassociëerd wordt, ook niet als er maar één pad is
- In biologische klassificaties ligt het voor de hand dat dit wél altijd gebeurt, maar ook daar zul je uitzonderingen hebben. Bv. levensvormen waaran de supertaxon gek genoeg elders in de taxonomie voorkomt. Daar is een naam voor. Iets met fylem
- Bij klassificaties van producten in een webwinkel, kan dat heel gemakkelijk voorkomen: Simpelweg omdat de data niet compleet is. Dus geen merk, maar wel een model, of nog reëler: Geen model, maar wel een model-SKU - Het kan allemaal.
Niet-unieke taxonnamen
In biologische taxonomieën, zullen de namen van taxons waarschijnlijk altijd uniek zijn. Je hebt vermoedelijk maar één taxon gewervelden, en ook maar één taxon evenhoevigen. In het algemeen kun je echter niet aannemen dat taxonnamen uniek zijn. Daar moet je bij labelen rekening mee houden.
Voorbeelden van niet-unieke taxonnamen (taxonomie van een webwinkel):
- Ooit had je het bedrijf AEG - Atlas-Copco. Dat is op een dag gesplitst in - jawel! - AEG en Atlas-Copco. Ze voeren dezelfde productmodellen → Niet-unieke taxonnamen
- Een bedrijf heeft modellen 3S, 1290 en P 10. Goede kans dat er meer bedrijven zijn met dergelijke model-aanduidingen
- Vervangende onderdelen voor apparaten van merk X worden soms niet door X gemaakt, maar door Y, terwijl Y ook vervangende onderdelen voor zijn eigen apparaten maakt.
Bij labelen moet je hier rekening mee houden, door in algoritmes de betreffende taxonomische paden langs te lopen.
Begin bij de hoofdrang
Begin met labelen bij de hoofdrang: Die is altijd (lijkt me), en de kans op verwarring met namen van andere taxons is minimaal, omdat je bij labelen waarschijnlijk gemakkelijk kunt testen dat dit de hoofdrang betreft (WordPress: parent=0
?)