Statische oder dynamische Seiten?

Du könntest den Betreiber auch noch einmal fragen, ob er eine API für seine Webseite hat, und ob Du diese nutzen kannst. Somit würde sich nämlich das Datenaufkommen auf beiden Seiten massiv reduzieren.Vielleicht
 
@visurox
String-Befehle sind langsam, also möglichst nicht benutzen. anisearch hat irgendeine Art von AusleseAPI, die per JS/Ajax angesprochen wird. In Firefox mal Firebug anschalten und auf die Netzwerkbewegungen achten, wenn man wo raufdrückt.
 
Nun gut. Aber lass den Blödsinn mit händisch kopieren weg, das ist Mumpitz. Setz Dich lieber noch 1-2 Monate ran und verstehe das parsen/scrapen, dann macht das wenigstens Sinn. Angenommen, Du brauchst für einen Eintrag 1 Minute, so brauchst Du für das vollständige "Kopieren" ~50.000 Minuten, das sind 35 Tage am Stück, ohne Pause, ohne Essen, ohne Problemchen, ohne Updates, 24 Stunden am Tag. Über solch eine Idee brauchst Du nicht mal ansatzweise nachdenken, denn reell würde es Dich vielleicht die 20fache Zeit kosten. Jeden Tag 10.000 Einträge? NEVER!

(Unten in meiner Signatur ist diese dslr-kleinanzeigen-Seite, die basiert auf dem Auslesen von Webseiten (wo die Erlaubnis vorliegt).)

* welche Finden-Philosophie (per http) ist die Beste (via Buchstabensortierung, per ID? etc pp) In Deinem Beispiel ist die Übersichtsliste vorzüglich geeignet. Auslesen, wieviele Seiten es sind (pro Seite hier 40 Einträge), dann die Variablen in der url ändern und
* mittels regex oder DOM die Einträge durcharbeiten.
* Jede Url einzeln ansprechen, wieder auslesen.
* Zu speichernde Daten in "Dein" Datenbankformat zurechtschieben, speichern.

* Von Anfang an so programmieren, dass es virtuell nach neuen Einträgen sucht (ist dieser Eintrag schon in meiner DB). Dafür bietet sich die ID der url an ( zB a Channel ist bei anisearch id 6585). Somit hast Du ein Modul, dass Du zB einmal die Woche rüberfliegen lassen und Deine DB sich selbst aktualisieren kann. Bitte immer mit den Seitenbetreibern eine Absprache finden, wann Du Deinen Code ackern lässt, Du könntest den Server zu sehr beanspruchen.

Vielen Dank für deine ausführliche Antwort, ich verstehe nur leider aktuell noch(!) kein Wort.
Es wird wohl oder übel darauf hinauslaufen das ich meinen Coder selbst ersetzen muss.
Es ärgert mich zwar sehr und mit Sicherheit würde es hier genug Leute geben, die das gegen Bezahlung auch machen würden, aber dafür bin ich zu ergeizig.
Alle Abgriffe werden morgens gegen 2-3 gemacht und die Betreiber verfügen alle über ein unlimitiertes Traffic Angebot ihres Hosters.

Zeitlich habe ich mir kein Ziel gesetzt, es ist aber natürlich logisch das es unnötig lange dauern würde.

Du könntest den Betreiber auch noch einmal fragen, ob er eine API für seine Webseite hat, und ob Du diese nutzen kannst. Somit würde sich nämlich das Datenaufkommen auf beiden Seiten massiv reduzieren.Vielleicht

Leider verfügt nur einer von 5 über eine entsprechende API, welche zur Zeit aber nicht aktiv ist.
Das Datenaufkommen wird durch ein unlimitiertes Traffic Angebot eher unwichtig. :)

@visurox
String-Befehle sind langsam, also möglichst nicht benutzen. anisearch hat irgendeine Art von AusleseAPI, die per JS/Ajax angesprochen wird. In Firefox mal Firebug anschalten und auf die Netzwerkbewegungen achten, wenn man wo raufdrückt.

Wenn ich mich nur genug damit auskennen würde. :/
Aber ich werds mir anschauen, Danke für den Hinweis!
 
Zuletzt bearbeitet:
Zurück