Parantatatam
mag Cookies & Kekse
Du könntest den Betreiber auch noch einmal fragen, ob er eine API für seine Webseite hat, und ob Du diese nutzen kannst. Somit würde sich nämlich das Datenaufkommen auf beiden Seiten massiv reduzieren.Vielleicht
Folge dem Video um zu sehen, wie unsere Website als Web-App auf dem Startbildschirm installiert werden kann.
Anmerkung: Diese Funktion ist in einigen Browsern möglicherweise nicht verfügbar.
Nun gut. Aber lass den Blödsinn mit händisch kopieren weg, das ist Mumpitz. Setz Dich lieber noch 1-2 Monate ran und verstehe das parsen/scrapen, dann macht das wenigstens Sinn. Angenommen, Du brauchst für einen Eintrag 1 Minute, so brauchst Du für das vollständige "Kopieren" ~50.000 Minuten, das sind 35 Tage am Stück, ohne Pause, ohne Essen, ohne Problemchen, ohne Updates, 24 Stunden am Tag. Über solch eine Idee brauchst Du nicht mal ansatzweise nachdenken, denn reell würde es Dich vielleicht die 20fache Zeit kosten. Jeden Tag 10.000 Einträge? NEVER!
(Unten in meiner Signatur ist diese dslr-kleinanzeigen-Seite, die basiert auf dem Auslesen von Webseiten (wo die Erlaubnis vorliegt).)
* welche Finden-Philosophie (per http) ist die Beste (via Buchstabensortierung, per ID? etc pp) In Deinem Beispiel ist die Übersichtsliste vorzüglich geeignet. Auslesen, wieviele Seiten es sind (pro Seite hier 40 Einträge), dann die Variablen in der url ändern und
* mittels regex oder DOM die Einträge durcharbeiten.
* Jede Url einzeln ansprechen, wieder auslesen.
* Zu speichernde Daten in "Dein" Datenbankformat zurechtschieben, speichern.
* Von Anfang an so programmieren, dass es virtuell nach neuen Einträgen sucht (ist dieser Eintrag schon in meiner DB). Dafür bietet sich die ID der url an ( zB a Channel ist bei anisearch id 6585). Somit hast Du ein Modul, dass Du zB einmal die Woche rüberfliegen lassen und Deine DB sich selbst aktualisieren kann. Bitte immer mit den Seitenbetreibern eine Absprache finden, wann Du Deinen Code ackern lässt, Du könntest den Server zu sehr beanspruchen.
Du könntest den Betreiber auch noch einmal fragen, ob er eine API für seine Webseite hat, und ob Du diese nutzen kannst. Somit würde sich nämlich das Datenaufkommen auf beiden Seiten massiv reduzieren.Vielleicht
@visurox
String-Befehle sind langsam, also möglichst nicht benutzen. anisearch hat irgendeine Art von AusleseAPI, die per JS/Ajax angesprochen wird. In Firefox mal Firebug anschalten und auf die Netzwerkbewegungen achten, wenn man wo raufdrückt.