Tekencodering achterhalen: verschil tussen versies
Naar navigatie springen
Naar zoeken springen
Regel 3: | Regel 3: | ||
== Detectie == | == Detectie == | ||
− | <code>vim</code> is een gemakkelijke | + | <code>vim</code> is een gemakkelijke manier om de codering van een bestand te achterhalen, ''vermits'' een bestand gebruik maakt van maar één karakterset! Daarnaast ben ik in oktober 2018 gaan twijfelen of dit wel accuraat werkt |
Bestand openen | Bestand openen |
Versie van 31 okt 2018 08:40
Welke tekencodering [1], of character encoding [2], character set of karakterset wordt er gebruikt voor een bepaald tekstdocument? Waar moet ik rekening mee houden bij exporteren of uitwisselen van gegevens?
Detectie
vim
is een gemakkelijke manier om de codering van een bestand te achterhalen, vermits een bestand gebruik maakt van maar één karakterset! Daarnaast ben ik in oktober 2018 gaan twijfelen of dit wel accuraat werkt
Bestand openen :set encoding
(of: set fileencoding
)
Wat ik zoal in het wild tegenkom
fileencoding=latin1 iso-8859-1. 'Latin1' is de 1-subset van iso-8859. Dit is de standaard Microsoft-codering. Oa. in gebruik voor import Bol.com en Amazon fileencoding=utf-8 Standaard voor nieuwe tekstbestanden op Unix? fileencoding=utf-161e Export Google AdWords-editor
Meerdere character sets in één bestand
MySQL-exports willen zomaar meerdere coderingen in één export-bestand gebruiken, omdat je per kolom de karakterset kunt bepalen, en dat wil nogal eens gebeuren.