# komplette webseite runterladen (mit bildern usw.)



## MrPink (3. Februar 2002)

hi
wi man eine eine einzelne webseite runterläd weiß ich aber wie kann ich eine komplette webseite runterladen mit bildern und allen links auf der webseite. ne große hilfe wäre es wenn mir einer sagen könnte wie ich daraus die links und image urls extrahieren kann?
oder gibts da noch ne einfachere möglichkeit?
ich bin über jede hilfe dankbar

MfG
MrPink


----------



## frucht (3. Februar 2002)

Unter http://www.maximumsoft.com ist ein Programm "Web Copier", damit kannst die ganze Seite laden!


----------



## MrPink (3. Februar 2002)

thx aber so hab ich das nicht gemeint... das ist ja auch nur nen programm mit dem du das machen kannst ich will das ja in mein vc++ projekt einbinden und die daten danach weiterverarbeiten aber trotzdem thx 

MfG
MrPink


----------



## Xeragon (3. Februar 2002)

Parse doch einfach die Dateien rekursiv, bis zu einem bestimmten Level.


----------



## MrPink (3. Februar 2002)

ja und wie mache ich das am besten? nen kleiner beispiel code wär cool..


----------



## Xeragon (3. Februar 2002)

Für Beispielcode hab ich im Moment leider keine Zeit, du musst aber im Prinzip nur einen Teil des HTML-Formats parsen, wenn ich mich nicht irre musst du in diesem Fall nur nach "href=" suchen (sofern du JavaScript usw. ignorierst).


----------



## MrPink (3. Februar 2002)

hmm ich werd mal schaun.
hat du vieleicht nen link wo ich mehr zum parsen erfahre?
mir ist noch nicht so ganz klar wie das am besten mache

Thx


----------



## Xeragon (3. Februar 2002)

Hmm, nein leider nicht, allerdings wirst du hier eh keinen vollstädnigen HTML-Parser brauchen... Prinzipiell funktionierts in diesem Fall so:

1) Datei einlesen
2) nach "href=" suchen
3) folgenden String (die URL) einlesen
4) URL herunterladen
5) Falls die URL eine HTML-Datei ist: mit dem selben Algroithmus auswerten (Achtung: Rekursion; Die Tiefe sollte beschränkt werden)
6) Solange das Dateiende nicht erreicht ist -> Schritt 2

Das ganze funktioniert natürlich auch iterativ.


----------



## MrPink (3. Februar 2002)

wie kann ich den den string der die url enthält am einfachsten extahieren? bessergesagt wie kann ich rausfinden wo er endet den anfang krieg ich ja indem ich nach "href=" suche aber wie krieg ich jetzt das ende?


----------



## Xeragon (4. Februar 2002)

Hmm ich würd mal sagen du suchst nach dem ersten Zeichen nach href= (' oder ") wenn ich mich recht erinnere und das selbe Zeichen ist dann auch wieder das Ende des Strings. (Das kannst du sowohl "manuell" (Zeichenweise) machen oder bestehende String-Routinen verwenden.


----------



## five (7. Februar 2002)

ich kann nur WebZip empfehlen
is zwar 30 tage shareware
aber ich habe es schon 1/2 Jahr laufen ohne zu registrieren!?
kannst dir bei computerchannel runterladen:

http://www.computerchannel.de/download/dl_detailseite3_db.phtml?progid=4673 
...wie gesagt nur zu empfehlen
five


----------

