✔ html Parser

Katzenbauer · 20. März 2006

Ich greife mittels libcurl auf eine www Seite zu und würde gerne viele Daten aus der Seite extrahieren. Gibt es da eine lib, die mich da etwas unterstützt, oder muss ich mich da wirklich komplett mit Regex durchbeißen?

Thomas Kuse · 22. März 2006

Da gibt es eine ganze Reihe freier Umsetzungen und Bibliotheken.
Nur einmal eine kurze Auswahl derer:

HTML-Tree: http://homepage.mac.com/pauljlucas/software/html_tree/
Xerces: http://xml.apache.org/xerces-c/

Es gibt auch einige minimale Browser, deren Implementation für das HTML-Parsen recht einfach übernommen werden kann (Lizenz beachten!) Kommt halt auf deine Anforderungen an.

http://www.dillo.org/
http://www.mozilla.org/newlayout/
http://www.mozilla.org/projects/minimo/
http://elinks.or.cz/

Katzenbauer · 22. März 2006

Cool danke für die Info

✔ html Parser

Katzenbauer

Erfahrenes Mitglied

Thomas Kuse

Erfahrenes Mitglied

Katzenbauer

Erfahrenes Mitglied

Neue Beiträge