Document auslesen mit XPath wenn kein xml?

newbeet · 19. Juni 2010

Hallo,

ich habe ein Programm, dass mir aus XML-Dokumenten oder beliebigen Internetseiten ein w3c Document erstellt.

Aus diesem möchte ich mit XPath teile auslesen (nutze hierfür den üblichen Code):

Code:

XPath xpath = XPathFactory.newInstance().newXPath();
org.w3c.dom.Document DOMTree = doc.content.getDOMTree();
NodeList nodes = (NodeList) xpath.evaluate(xpathExpression, DOMTree, XPathConstants.NODESET);

Als Parser für die Internetseiten nutze ich Tidy.

Ich habe jetzt das Problem, dass bei den Internetseiten, bei der Erstellung der NodeList irgendwas nicht klappt, denn die enthält egal was ich selektiere immer nur komische Sachen.

Als Beispiel:
Ich lese twinlab.de ein und parse nach "//a"
Ergebnis:
Anzahl in nodes:
1
Inhalt des 1. node:
org.w3c.tidy.DOMElementImpl@575fadcf
(das Document enthält aber durchaus sinnvolle Sachen)

Könnte mir vorstellen, dass es daran liegt, dass die Seite kein xml ist?

Welche Möglichkeiten habe ich dann, den Baum auszulesen? Habe dazu nichts gefunden außer immer die XPath Möglichkeiten.

Bin für jede Hilfe dankbar!

pizza1234 · 21. Juni 2010

Hi,
also für mich sieht das aus, als würdest du die Node ausgeben und nicht den Wert der Node. Zeig doch mal die Stelle, wo du alles ausgibst.

Grüße
Peter

Document auslesen mit XPath wenn kein xml?

newbeet

Grünschnabel

pizza1234

Erfahrenes Mitglied

Neue Beiträge