html mit php auslesen

newbi_1

Mitglied
Ich habe eine Html Seite, bei der ich nur noch den Text brauche - also alle Html Tags weg (strip_tags) - kein Problem.
Leider bleiben mir Zeichen übrig, die einen Zeilenumbruch hervorrufen. Die HTML-Seite kommt im HEADER mit charset=Shift_JIS
Was kann das noch sein?

Bitte um Hilfe:(
 
Zuletzt bearbeitet:
Shift JIS wird normalerweise für Japanische Zeichen verwendet. Wenn du wirklich nur den Text mit "deutschen" Buchstaben haben willst, könntest du mit einem regulären Ausdruck alle Sonderzeichen außer die Standard (?, ! etc.) entfernen, nachdem du die HTML Tags entfernt hast.
 
z.B. so (das entfernt aber ALLE Sonderzeichen).
PHP:
$str = preg_replace('/[^\pL\s]+/u', '', $str);

Jetzt musst du dir halt ein Pattern basteln das deinen Ansprüchen gerecht wird.
 
Zurück