Empfehlung für HTML Parser

torax13 · 30. Juli 2007

Hallo,
ich will demnächst HTML Parsen und daraus bestimmte Werte auslesen (größtenteils ins Tabellen).

Nun gibts ja entpsrechende Bibliotheken wie Sand am Meer. Könnt Ihr was empfehlen? Eine gewisse Fehlertoleranz gegenüber invalid HTML wäre eventl ganz gut (hab noch nicht so genau die zu parsenden Seiten angeschaut). Wichtig wär für mich, das ich auf die Elemente der Seite DOM artig (so wie im Firefox DOM Inspector) zugreifen kann.

Kennt ihr da was?

Vielen Dank im Vorraus.

Torax

Chefkoch333 · 1. August 2007

Hi Torax,
ich habe mal etwas ähnliches gemacht. Allerdings habe ich da nicht allzuviel gefunden. Wichtig ist ja gerade das der Parser dreckiges xml (nämlich html) lesen muss.
Schau dir mal das tagsoup Projekt an, damit habe ich damals meinen html site scraper zum auslesen von Informationen auf Webseiten umgesetzt.

VG,
chefkoch

Thomas Darimont · 1. August 2007

Hallo,

schau mal hier:
http://www.java-source.net/open-source/html-parsers
Ich hab mal JTidy benutzt und war damit weitesgehend zufrieden.

Gruß Tom

torax13 · 2. August 2007

Vielen Dank Euch beiden. Ich hatte/hab zwischenzeitlich bereits angefangen, die Seite mit den Opensource Parsern (aus Thomas Link) hatte ich bereits gefunden und mich erstmal für den Parser aus dem Lobo Projekt (Cobra) antschieden. Mittlerweile hab ich den DOM Tree und muss mich jetzt etwas mit DOM beschäftigen (nutzte bisher immer JDom für XML). Cobra scheint soweit auch ganz gut zu sein. Ich kann am Ende ja mal meine Erfahrungen Posten.

Gruß Torax

Empfehlung für HTML Parser

torax13

Erfahrenes Mitglied

Chefkoch333

Erfahrenes Mitglied

Thomas Darimont

Erfahrenes Mitglied

torax13

Erfahrenes Mitglied

Neue Beiträge