Kennen Sie das? Jemand schickt Ihnen Textvorlagen in Form einer TXT-Datei. Sie öffnen diese und stellen fest, dass Umlaute, Eszett und andere Zeichen kryptisch dargestellt werden. Wo »Müllerstraße« stehen soll, steht plötzlich »Müllerstraße«.
Selbst professionelle Anwender sind nicht selten ratlos, wie man mit diesem Problem umgehen soll. Schließlich versichert der Ersteller der Datei, dass sie bei ihm korrekt angezeigt wird. Gar nicht selten fängt man dann sogar an, die Sonderzeichen im ganzen Text manuell zu korrigieren … Doch das muss nicht sein!
Wie entsteht Sonderzeichensalat?
Zum Verständnis ist es zunächst wichtig zu wissen, dass Textdateien überhaupt keine Schriftzeichen im eigentlichen Sinne enthalten. Eine Textdatei ist nichts anderes als lange Anordnung von Kodes. Erst wenn die Textdateien geöffnet und angezeigt werden sollen, werden die Kodes in Schriftzeichen umgewandelt. Dazu benutzt das Betriebssystem bzw. Anwendungsprogramm eine so genannte Zeichenkodierung. Vereinfacht gesagt sind dies Tabellen, in denen jedem Kode ein bestimmtes Zeichen zugeordnet ist. Das Programm arbeitet einen Kode nach dem anderen ab und wandelt diese in eine darstellbare Zeichenfolge.
(Eine ausführliche Erklärung der Zeichenkodierungen findet sich in unserer Artikelserie »Die Geschichte der Zeichenkodierung«.)
Wie behebt man den Sonderzeichensalat?
Die Anwendungsprogramme können in der Regel mit einer Vielzahl solcher Zeichenkodierungen umgehen. Das heißt, sie wandeln beim Öffnen des Textdokumentes automatisch die Kodierung des Quelldokumentes in die benutzte Standardkodierung des Zielprogrammes. Damit diese Konvertierung gelingt, muss jedoch das Programm die benutzte Zeichenkodierung des Dokuments kennen! Und genau hier liegt in der Regel das Problem. Denn Dateiformaten wie TXT fehlt schlicht die Information, welche Zeichenkodierung ursprünglich zum Einsatz kam. TXT ist daher als Austauschformat schlicht ungeeignet und sollte weder angefordert noch versandt werden. Im englischen Sprachraum ist es als Austauschformat verbreitet und macht hier viel weniger Probleme, da nahezu allen westlichen Standardkodierungen auf den ASCII-Zeichensatz aufbauen und somit dessen englische Zeichen immer korrekt dargestellt werden. Doch sobald irgendein Zeichen außerhalb des ASCII-Zeichensatzes benutzt werden soll, fangen die Probleme an.
Tipps zum Umgang mit Sonderzeichensalat
RTF statt TXT: Benutzen Sie statt TXT wann immer möglich ein Austauschformat wie RTF (Rich Text Format), das alle gängigen Textprogramme verstehen. Fordern Sie Dateien zukünftig in diesem Format an.
Mit anderen Programm öffnen: Wenn Ihr Standardprogramm (Notepad, Textedit etc.) den zu öffnenden Text falsch darstellt, probieren Sie ein anderes Programm. Viele professionelle Texteditoren verfügen über eine Automatikfunktion, die den Kode analysiert und die benutzte Zeichenkodierung so gegebenenfalls erraten kann.
Manuelles Öffnen mit bestimmter Zeichenkodierung: Versagt die Automatikfunktion können Sie in den meisten Texteditoren auch beim Öffnen die zu verwendende Zeichenkodierung auswählen (siehe Beispielabbildung aus Textedit). Probieren Sie hier einfach gängige Zeichenkodierungen wie Latin1/CP1252, Mac Roman, UTF8, UTF16 aus. Wenn der Sonderzeichensalat verschwindet, haben Sie die richtige Kodierung gefunden.
Achten Sie auch darauf, dass sie die mit falscher Kodierung geöffnete Datei nicht zwischenzeitlich speichern. Sonst bleibt das Müllerstraße dauerhaft im Dokument.