Hallo Leute,
ich hoffe das mir einer bei diesem besonderen Problem helfen kann. Also folgendes:
Ich will ein Stück Software schreiben das Webseiten crawlt. Aber manche Webserver senden mir ein "Transfer-Encoding: chunked" was im Grunde heißt dsa die mir die Webseite in kleinen Stücken nacheinander sendet, da er am Anfang nicht weiß wie groß das Dokument ist. Nun habe ich aber das Problem das ich mit der Java(Was aber jeder dumme Webbrowser kann) die HTML-Seite nicht auslesen kann. Ich bekomme nur ein kleinen Teil der HTML-Seite (Eben ein Chunk). Dies habe ich übrigens mit Wireshark ausprobiert und mit der normalen Java-Api die alle nur ein kleinen Teil auswerten können. Wireshark zeigt merkwürdigerweise nur beim betrachten der bytes den richtigen ganzen Code an, während in der Textform der gleiche falsche unvollständige Code steht.
Eine Beispielseite mit diesem Problem ist z.B. Google nach einer Suche :
http://www.google.de/search?hl=de&q=chunked&btnG=Suche&meta=
P.s: Das ist übrigens nur eine Vermutung warum ich nur ein Teil der Webseite erhalte.
Für Hilfe wäre ich sehr Dankbar
ich hoffe das mir einer bei diesem besonderen Problem helfen kann. Also folgendes:
Ich will ein Stück Software schreiben das Webseiten crawlt. Aber manche Webserver senden mir ein "Transfer-Encoding: chunked" was im Grunde heißt dsa die mir die Webseite in kleinen Stücken nacheinander sendet, da er am Anfang nicht weiß wie groß das Dokument ist. Nun habe ich aber das Problem das ich mit der Java(Was aber jeder dumme Webbrowser kann) die HTML-Seite nicht auslesen kann. Ich bekomme nur ein kleinen Teil der HTML-Seite (Eben ein Chunk). Dies habe ich übrigens mit Wireshark ausprobiert und mit der normalen Java-Api die alle nur ein kleinen Teil auswerten können. Wireshark zeigt merkwürdigerweise nur beim betrachten der bytes den richtigen ganzen Code an, während in der Textform der gleiche falsche unvollständige Code steht.
Eine Beispielseite mit diesem Problem ist z.B. Google nach einer Suche :
http://www.google.de/search?hl=de&q=chunked&btnG=Suche&meta=
P.s: Das ist übrigens nur eine Vermutung warum ich nur ein Teil der Webseite erhalte.
Für Hilfe wäre ich sehr Dankbar
Zuletzt bearbeitet: