html Parser

Katzenbauer

Erfahrenes Mitglied
Ich greife mittels libcurl auf eine www Seite zu und würde gerne viele Daten aus der Seite extrahieren. Gibt es da eine lib, die mich da etwas unterstützt, oder muss ich mich da wirklich komplett mit Regex durchbeißen?
 
Da gibt es eine ganze Reihe freier Umsetzungen und Bibliotheken.
Nur einmal eine kurze Auswahl derer:

HTML-Tree: http://homepage.mac.com/pauljlucas/software/html_tree/
Xerces: http://xml.apache.org/xerces-c/

Es gibt auch einige minimale Browser, deren Implementation für das HTML-Parsen recht einfach übernommen werden kann (Lizenz beachten!) Kommt halt auf deine Anforderungen an.

http://www.dillo.org/
http://www.mozilla.org/newlayout/
http://www.mozilla.org/projects/minimo/
http://elinks.or.cz/
 
Zurück