Hallo,
ich habe ein Programm, dass mir aus XML-Dokumenten oder beliebigen Internetseiten ein w3c Document erstellt.
Aus diesem möchte ich mit XPath teile auslesen (nutze hierfür den üblichen Code):
Als Parser für die Internetseiten nutze ich Tidy.
Ich habe jetzt das Problem, dass bei den Internetseiten, bei der Erstellung der NodeList irgendwas nicht klappt, denn die enthält egal was ich selektiere immer nur komische Sachen.
Als Beispiel:
Ich lese twinlab.de ein und parse nach "//a"
Ergebnis:
Anzahl in nodes:
1
Inhalt des 1. node:
org.w3c.tidy.DOMElementImpl@575fadcf
(das Document enthält aber durchaus sinnvolle Sachen)
Könnte mir vorstellen, dass es daran liegt, dass die Seite kein xml ist?
Welche Möglichkeiten habe ich dann, den Baum auszulesen? Habe dazu nichts gefunden außer immer die XPath Möglichkeiten.
Bin für jede Hilfe dankbar!
ich habe ein Programm, dass mir aus XML-Dokumenten oder beliebigen Internetseiten ein w3c Document erstellt.
Aus diesem möchte ich mit XPath teile auslesen (nutze hierfür den üblichen Code):
Code:
XPath xpath = XPathFactory.newInstance().newXPath();
org.w3c.dom.Document DOMTree = doc.content.getDOMTree();
NodeList nodes = (NodeList) xpath.evaluate(xpathExpression, DOMTree, XPathConstants.NODESET);
Als Parser für die Internetseiten nutze ich Tidy.
Ich habe jetzt das Problem, dass bei den Internetseiten, bei der Erstellung der NodeList irgendwas nicht klappt, denn die enthält egal was ich selektiere immer nur komische Sachen.
Als Beispiel:
Ich lese twinlab.de ein und parse nach "//a"
Ergebnis:
Anzahl in nodes:
1
Inhalt des 1. node:
org.w3c.tidy.DOMElementImpl@575fadcf
(das Document enthält aber durchaus sinnvolle Sachen)
Könnte mir vorstellen, dass es daran liegt, dass die Seite kein xml ist?
Welche Möglichkeiten habe ich dann, den Baum auszulesen? Habe dazu nichts gefunden außer immer die XPath Möglichkeiten.
Bin für jede Hilfe dankbar!