eclipse linux und charset bzw. mime-encoding

TheGreenDragon

Erfahrenes Mitglied
hallo,

ich habe hier ein PHP Projekt von dem ich ausgegangen bin, dass es sich um UTF-8 handelt. Schliesslich ist UTF-8 in den proberties -> general festgelegt. Wenn mir jedoch die Dateien in der Linus Konsole anschaue über 'file --mime *' dann steht bei den meisten charset=us-ascii und nicht uft-8. Warum ist das so?
 
Wenn du in den Files, die als US-ASCII erkannt worden sind, keine Buchstaben aus dem UTF-8 bzw. erweiterten Ascii-Bereich (z.B. Deutsche Umlaute) verwendet hast, warum sollte 'file' davon ausgehen, das es sich um Unicode-Dateien handelt? Die regulären latinen Buchstaben, also A-Z, a-z, 0-9 usw werden auch in UTF-8 von 0x00 bis 0x7f (0-127) indiziert. Erst ab 0x80 (eigentlich 128-255 im erweiterten ASCII-Bereich) gehen die Unicode-Zeichen los. Das kannst du dieser Tabelle entnehmen.

File kann erst dann erkennen, das es sich um UTF-8 handelt, wenn UTF-8 Zeichen drin vorkommen. Ich weiß aber jetzt nicht, ob 'file' die Byte-Order-Mark auswertet.
 
Zurück