Gumbo
Erfahrenes Mitglied
Das ist falsch. In beiden Zeichensätzen, ISO 8859-1 und Unicode, ist das Zeichen ä enthalten und kann somit auch mit ISO 8859-1 beziehungsweise UTF-8 (für Unicode) kodiert werden, muss also nicht durch eine Zeichenreferenz dargestellt werden.Wobei UTF-8 die Umlaute mit 'ä' darstellt...
Nur wird dieses Zeichen aber mit beiden Kodierungen unterschiedlich kodiert.
Bei der für den ISO-8859-1-Zeichensatz verwendete 8-Bit-Kodierung (jedes der 256 Zeichen wird mit 8 Bit kodiert) wird das ä-Zeichen, das sich im ISO-8859-1-Zeichensatz an der Position 0xE4 befindet, mit derselben Bit-Sequenz kodiert.
Beim Unicode-Zeichensatz befindet sich das ä-Zeichen zwar an derselben Position (ebenfalls 0xE4). Doch UTF-8 kodiert diese etwas anders kodiert, nämlich mit 0xC3A4. Dies hängt mit der „Dynamik“ der UTF-8-Kodierung zusammen, da nur die ersten 128 Zeichen mit 8 Bit kodiert werden, nachfolgende Zeichen aber je nach Position mit 16, 24 oder 32 Bit kodiert werden.
Da ISO 8859-1 und UTF-8 somit nur bei den ersten 128 Zeichen kompatibel sind, kann es so zu Fehlinterpretationen kommen, wenn die Daten nicht richtig kodiert oder die Kodierung nicht richtig angegeben werden.