Empfehlung für HTML Parser

torax13

Erfahrenes Mitglied
Hallo,
ich will demnächst HTML Parsen und daraus bestimmte Werte auslesen (größtenteils ins Tabellen).

Nun gibts ja entpsrechende Bibliotheken wie Sand am Meer. Könnt Ihr was empfehlen? Eine gewisse Fehlertoleranz gegenüber invalid HTML wäre eventl ganz gut (hab noch nicht so genau die zu parsenden Seiten angeschaut). Wichtig wär für mich, das ich auf die Elemente der Seite DOM artig (so wie im Firefox DOM Inspector) zugreifen kann.

Kennt ihr da was?

Vielen Dank im Vorraus.

Torax
 
Hi Torax,
ich habe mal etwas ähnliches gemacht. Allerdings habe ich da nicht allzuviel gefunden. Wichtig ist ja gerade das der Parser dreckiges xml (nämlich html) lesen muss.
Schau dir mal das tagsoup Projekt an, damit habe ich damals meinen html site scraper zum auslesen von Informationen auf Webseiten umgesetzt.

VG,
chefkoch
 
Vielen Dank Euch beiden. Ich hatte/hab zwischenzeitlich bereits angefangen, die Seite mit den Opensource Parsern (aus Thomas Link) hatte ich bereits gefunden und mich erstmal für den Parser aus dem Lobo Projekt (Cobra) antschieden. Mittlerweile hab ich den DOM Tree und muss mich jetzt etwas mit DOM beschäftigen (nutzte bisher immer JDom für XML). Cobra scheint soweit auch ganz gut zu sein. Ich kann am Ende ja mal meine Erfahrungen Posten.

Gruß Torax
 
Zurück