Tekencodering (MySQL)
Versie door Jeroen Strompf (overleg | bijdragen) op 25 jul 2018 om 08:56
Multibyte characters
Ooit had je alleen ASCII en vergelijkbare eenvoudige tekenset-coderingen. ASCII is van oorsprong een 7-bit codering en kent dus 127 verschillende waardes. Da's voldoende voor hoofdletters, kleine letters, cijfers, een handjevol symbolen en enkele control characters, maar daarna houdt het al snel op. Zelfs met 8-bit ASCII-codering kom je niet erg ver
Uitgebreidere systemen, zoals UTF-x en de diverse Microsoft-tekencoderingen, zijn zodoende multibyte: Voor een groot aantal karakters wordt meer dan één byte gebruikt. '€' Schijnt bv. drie bytes te vergen, en '𝔊' vergt zelfs vier bytes. Wellicht dat je dat kunt terugzien aan de bijbehorende URL escape code: %F0%9D%94%8A. Merk op dat deze systemen een variabele byte-lengte gebruiken