Non-breaking whitespace (MySQL): verschil tussen versies

Uit De Vliegende Brigade
Ga naar: navigatie, zoeken
(2 tussenliggende versies door dezelfde gebruiker niet weergegeven)
Regel 1: Regel 1:
[[file:20191201-0548.png|thumb|Dit is het probleem: De eerste spatie is geen gewone spatie (<code>0x20</code>), maar ''NBSP'' (''Non-breaking whitespace''): <code>0xc2a0</code>. Hoe fix ik dat?]]
+
[[file:20191201-0548.png|thumb|Dit leek het initiële probleem te zijn: De eerste spatie is geen gewone spatie (<code>0x20</code>), maar ''NBSP'' (''Non-breaking whitespace''): <code>0xc2a0</code>. Hoe fix ik dat?]]
Tijdens verwerken van een UTF-8 import-bestand in MySQL, leek het alsof MySQL spaties niet herkende (Dec. 2019). Uiteindelijk bleken de betreffende strings geen gewone spaties te bevatten (<code>20</code>), maar ''Non-breaking white spaces'' (<code>c2 a0</code>).  
+
 
 +
Tijdens verwerken van een UTF-8-import-bestand in MySQL (dec. 2019), bleken sommige spaties geen echte spaties te zijn, maar ''non-breaking whitespace'' (of zoiets - zie verderop). Daardoor kon ik die data niet zomaar verwerken, omdat sommige algorithmes ervan uitgingen, dat spaties eh, spaties zijn.
 +
 
 +
* Hoe herken je NBSP (of andere afwijkende 'spaties') in strings?
 +
* Hoe vervang je NBSP (of andere afwijkende 'spaties') door gewone spaties?
 +
 
 +
== Het probleem: Een spatie is niet een spatie ==
 +
 
 +
Er bleken twee problemen te zijn:
 +
 
 +
=== NBSP? ===
 +
 
 +
Het gaat om een handjevol records in een bepaalde tabel: De betreffende strings bleken geen gewone spaties te bevatten (<code>20</code>), maar ''Non-breaking white spaces'' (<code>c2 a0</code>). Zie de afbeelding bovenaan dit artikel.
 +
 
 +
=== Iets anders? ===
 +
 
  
* Hoe herken je NBSP in strings?
 
* Hoe vervang je NBSP voor gewone spaties?
 
  
 
== Niet ==
 
== Niet ==
Regel 18: Regel 31:
  
 
Ongetwijfeld kunnen regular expressions overweg met karaktercodering, maar dit lijkt niet de manier te zijn (met <code>\\\</code> lukt 't ook niet).
 
Ongetwijfeld kunnen regular expressions overweg met karaktercodering, maar dit lijkt niet de manier te zijn (met <code>\\\</code> lukt 't ook niet).
 +
 +
=== unhex ===
 +
 +
<code>unhex</code> lijkt precies te zijn wat ik zoek, behalve dat 't niet lijkt te werken.
 +
 +
<pre>
 +
select unhex(
 +
</pre>
  
 
== Bronnen ==
 
== Bronnen ==

Versie van 1 dec 2019 om 07:32

Dit leek het initiële probleem te zijn: De eerste spatie is geen gewone spatie (0x20), maar NBSP (Non-breaking whitespace): 0xc2a0. Hoe fix ik dat?

Tijdens verwerken van een UTF-8-import-bestand in MySQL (dec. 2019), bleken sommige spaties geen echte spaties te zijn, maar non-breaking whitespace (of zoiets - zie verderop). Daardoor kon ik die data niet zomaar verwerken, omdat sommige algorithmes ervan uitgingen, dat spaties eh, spaties zijn.

  • Hoe herken je NBSP (of andere afwijkende 'spaties') in strings?
  • Hoe vervang je NBSP (of andere afwijkende 'spaties') door gewone spaties?

Het probleem: Een spatie is niet een spatie

Er bleken twee problemen te zijn:

NBSP?

Het gaat om een handjevol records in een bepaalde tabel: De betreffende strings bleken geen gewone spaties te bevatten (20), maar Non-breaking white spaces (c2 a0). Zie de afbeelding bovenaan dit artikel.

Iets anders?

Niet

Regular expressions

Filteren mbv. ASCII-codes in regular expressions, lijkt niet zomaar te werken:

select device_sku from device_tmp
where
	device_sku regexp "\x42";

Ongetwijfeld kunnen regular expressions overweg met karaktercodering, maar dit lijkt niet de manier te zijn (met \\\ lukt 't ook niet).

unhex

unhex lijkt precies te zijn wat ik zoek, behalve dat 't niet lijkt te werken.

select unhex(

Bronnen