✔ "chunked" Webseite auswerten

fsmarine · 1. Juni 2009

Hallo Leute,

ich hoffe das mir einer bei diesem besonderen Problem helfen kann. Also folgendes:

Ich will ein Stück Software schreiben das Webseiten crawlt. Aber manche Webserver senden mir ein "Transfer-Encoding: chunked" was im Grunde heißt dsa die mir die Webseite in kleinen Stücken nacheinander sendet, da er am Anfang nicht weiß wie groß das Dokument ist. Nun habe ich aber das Problem das ich mit der Java(Was aber jeder dumme Webbrowser kann) die HTML-Seite nicht auslesen kann. Ich bekomme nur ein kleinen Teil der HTML-Seite (Eben ein Chunk). Dies habe ich übrigens mit Wireshark ausprobiert und mit der normalen Java-Api die alle nur ein kleinen Teil auswerten können. Wireshark zeigt merkwürdigerweise nur beim betrachten der bytes den richtigen ganzen Code an, während in der Textform der gleiche falsche unvollständige Code steht.

Eine Beispielseite mit diesem Problem ist z.B. Google nach einer Suche

:
http://www.google.de/search?hl=de&q=chunked&btnG=Suche&meta=

P.s: Das ist übrigens nur eine Vermutung warum ich nur ein Teil der Webseite erhalte.

Für Hilfe wäre ich sehr Dankbar

fsmarine · 1. Juni 2009

Ok Leute, vergesst es... Ich habe das Problem schon gelöst... Versteh zwar noch nicht warum es so ist wie es ist, aber nun Funktioniert es.

Man muss einfach nicht Stringbasiert auslesen sondern sondern Char mässig bzw. Byte mässig und anschließend in ein String umwandeln

... Dann geht es...

Vielleicht hilft das mal jemanden der das gleiche Problem hat

...

✔ "chunked" Webseite auswerten

fsmarine

Mitglied

fsmarine

Mitglied

Neue Beiträge