HTML-filtering
Versie door Jeroen Strompf (overleg | bijdragen) op 6 mei 2018 om 14:56
Hoe kan ik alle HTML-tags en speciale tekens uit een bestand of database-tabel filteren?
- Python heeft daar een library voor [1]
- HTML Purifier: PHP-bibliotheek: [2]
- Waarschijnlijk beter in een 'echte' programmeertaal doen, en niet in SQL: [3]
- En toch kan het heel aardig in MySQL [4]
SQL
In SQL kun je een heel eind komen. Denk bv. aan:
- regex → Nee: Dat werkt niet voor find-&-replace
- substring_index, left(), right()
- instr
Hyperlinks?
Het wordt ingewikkelder als je meerdere hyperlinks in een veld hebt, maar niet onmogelijk: Waarschijnlijk kun je die dynamisch uitfilteren met bv. substring_index
.
...Of toch maar niet
In de praktijk valt dit tegen: Ik heb in het voorjaar van 2018 hier ca. een middagje op gezeten, en er bleken steeds opnieuw situaties te zijn waar ik geen rekening mee had gehouden. Bv. wat te doen met complete tabellen?
Bronnen
- https://stackoverflow.com/questions/753052/strip-html-from-strings-in-python
- http://htmlpurifier.org/
- https://www.dbrnd.com/2016/03/mysql-udf-to-remove-html-tag-from-the-string-data/ - Voorbeeld MySQL - Primitief, maar leuk begin
- https://stackoverflow.com/questions/9970437/mysql-query-to-remove-html-tags-while-inserting-into-or-selecting-from-a-table
- https://stackoverflow.com/questions/40827908/remove-html-link-from-mysql-database-field-with-sql