Tekencodering achterhalen

Uit De Vliegende Brigade
Versie door Jeroen Strompf (overleg | bijdragen) op 25 jul 2018 om 10:53 (Jeroen Strompf heeft pagina Bestandscodering achterhalen hernoemd naar Tekencodering achterhalen)
Naar navigatie springen Naar zoeken springen

Welke tekencodering [1], of character encoding [2], character set of karakterset wordt er gebruikt voor een bepaald tekstdocument? Waar moet ik rekening mee houden bij exporteren of uitwisselen van gegevens?

Detectie

vim is een gemakkelijke en betrouwbare manier om de codering van een bestand te achterhalen, vermits een bestand gebruik maakt van maar één karakterset!

Bestand openen
:set fileencoding

Wat ik zoal in het wild tegenkom

fileencoding=latin1     iso-8859-1. 'Latin1' is de 1-subset van iso-8859. Dit is de standaard Microsoft-codering. 
                        Oa. in gebruik voor import Bol.com en Amazon
fileencoding=utf-8      Standaard voor nieuwe tekstbestanden op Unix?
fileencoding=utf-161e   Export Google AdWords-editor

Meerdere character sets in één bestand

MySQL-exports willen zomaar meerdere coderingen in één export-bestand gebruiken, omdat je per kolom de karakterset kunt bepalen, en dat wil nogal eens gebeuren.

Zie ook

Bronnen