# Webseiten mit dynamischen Inhalten (AJAX) mittels Java parsen



## christian- (2. Februar 2012)

Hallo zusammen!

Ich würde gerne mittels Java den html Code von Webseiten parsen. Das klappt eigentlich soweit auch recht gut. Nun habe ich aber das Problem, dass bei manchen Seiten der benötigte Inhalt dynamisch (AJAX) generiert wird. Möchte ich eine solche Seite parsen, erhalte ich leider nur den entsprechenden javascript Code und nicht den tatsächlichen Inhalt, den ich auswerten möchte. Könnt ihr mir vielleicht einen Ratschlag geben, wie ich auch solche Webseiten verarbeiten kann?

Vielen Dank schon einmal für eure Mühe.

Gruß Christian


----------



## ComFreek (2. Februar 2012)

Hallo,

entweder ermittelst du die spezifischen URLs und stellst Regeln auf, sodass du sie nachladen kannst oder du musst das JS parsen*.

Vom Parsen & Interpretieren des JavaScripts würde ich abraten, denn erstmal bräuchtest du erstmal einen JavaScript Parser, usw. Da wäre es ein sog. Headless Browser einfacher zu implementieren.
*was mehrere andere Konsequenzen verlangt, also nicht sehr leicht.


----------



## Thomas Darimont (2. Februar 2012)

Hallo,

eine Variante wäre HTMLUnit zu verwenden:
http://htmlunit.sourceforge.net/faq.html#AJAXDoesNotWork

eine weitere Möglichkeit wäre die Verwendung eines Webdrivers (Selenium) http://code.google.com/p/selenium/?redir=1

Gruß Tom


----------



## christian- (2. Februar 2012)

Hi!

Also erst einmal vielen Dank für eure Antworten! Das klingt schon alles ziemlich kompliziert und ich bin kein Experte auf dem Gebiet. Ich habe gehofft, es wäre etwas einfacher 

Gruß Christian


----------

