Hallo alle zusammen!
Ich möchte mit dom4j und jaxen eine html parsen.
hier meine html:
und von dieser möchte ich gern den inhalt des div-tags haben, also dacht ich so:
Wenn ich das selbe versuche mit XPather zu machen geht das sehr gut.
Wo ist das Problem?
Ich möchte mit dom4j und jaxen eine html parsen.
hier meine html:
XML:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="de" lang="de">
<head>
<meta content="test" />
</head>
<body>
<div>So ne ********</div>
</body>
</html>
und von dieser möchte ich gern den inhalt des div-tags haben, also dacht ich so:
Java:
SAXReader reader = new SAXReader();
// weil der parser sonst exceptions wirft
reader.setValidation(false);
reader.setFeature("http://apache.org/xml/features/nonvalidating/load-external-dtd", false);
// xml laden
Document doc = reader.read(new File("test.html"));
@SuppressWarnings("unchecked")
// das hier geht nicht
List<Element> list = doc.selectNodes("//div");
// das einzige was geht ist "//html"
// im debugger ist die liste an dieser stelle leer
for(Element e : list) {
System.out.println(e.toString());
}
Wenn ich das selbe versuche mit XPather zu machen geht das sehr gut.
Wo ist das Problem?