Dateien die eigentlich UTF-8 sein sollten sind über verschiedene Ordner verteilt im ISO Format auf dem Dateisystem. Wer kennt das Problem nicht? 🙂
Hier ein kleines Script um ISO codierte Text Dateien rekursiv in UTF-8 codierte Dateien zu konvertieren.

#! /bin/sh
 
FILES=$(find "$1" -type f -name *.txt)
 
for FILE in $FILES; do
	iconv -f ISO-8859-1 -t UTF-8  "${FILE}" > "${FILE}.tmp"; mv "${FILE}.tmp"  "${FILE}"
done

Die Dateierweiterung sollte nach Wunsch angepasst werden. Eine Installation von iconv ist möglicherweise nötig.

Keine Kommentare »
 

Bei Arbeiten wurde ich auf ein merkwürdiges Zeichen „“ im HTML Dokument aufmerksam, weil dieses die Darstellung des Layouts beinträchtigte. Nach einiger Recherche fand ich heraus das es sich hierbei um das UTF-8 Byte Order Mark kurz BOM handelt. Das Byte Order Mark ist eine Bytefolge die von einigen Programmen verwendet wird um anzuzeigen das ein Dokument UTF-8 codiert ist. Anderen Programmen, wie Browsern, ist diese Bytefolge nicht geläufig. Häufig wird es dann in dieser Form  dargestellt.

Einen Webbasierenden Test ob das BOM in einem Dokument vorhanden ist findest du hier: BOM Tester

Keine Kommentare »