curl und SessionID / Cookies

ev0lst

Erfahrenes Mitglied
Hallo zusammen,

ich möchte für mein System eine Art Scrapper für Quellcode machen und diesen dann verarbeiten, also den Quellcode auslesen. Nun habe ich heute den Fall gehabt und eine Domain versucht auszulesen, welche aber mit einem 302 Header auf eine neue URL weißt: http://www.domain.de/;jssessionid=2hc93ch38fzggd (als Beispiel)

Nun meine Frage: Wie kann ich sowas umgehen oder damit umgehen? Ich würde die URL gerne öfters auslesen, somit würde vermutlich immer eine andere SESSID kommen. Wie kann ich hier vorgehen?

Danke für jeden Hinweis und Hilfe!
 
Ja, das habe ich bereits probiert. Das Problem ist aber nicht das "folgen", sondern dass immer eine Weiterleitung auf eine URL mit sessionID erfolgt. Als Beispiel habe ich gesehen, dass das bei http://www.idealo.de der Fall ist, wenn ich diese URL mit Curl aufrufe. Allerdings passiert das nur bei Curl... vermutlich weil keine Cookies abgespeichert werden, daher die SessionID...
 
Zurück