Crawler automatisch laufen lassen?

tsbmusic

Erfahrenes Mitglied
Moin,

ich habe mit PHP einen Crawler geschrieben der die Daten von Websites liest und speichert. Dabei sollen jetzt aber die Daten immer auf dem neuesten Stand sein. Gibt es eine Möglichkeit mit PHP oder auch einer anderen Sprache den Crawler automatisch laufen zu lassen ohne das ich irgendetwas tun muss und möglichst, das mein PC dabei nicht laufen muss?

Hoffe ihr könnt mir da helfen!

Gruß
tsbmusic
 
Also dieser Crawler muss mehrere Tausend Links durchlaufen und soll erst von vorne anfangen wenn er einmal durch ist. Wie soll das mit einem CronJob funktionieren?
 
Dann mach ne sich selbst aufrufende Endlosschleife. Logischerweise pro url ein Aufruf, damit umgehst Du nen Timeout.

PHP:
// array der links
$urls=array( "link1","link2","link3");

// arrayindex abfragen
if(isset($_GET['id']))
{
  $aktuell = $_GET['id'];
}
else
{
  $aktuell = 0;
}


// und jetzt die eigentliche Tat
echo "Hier die Ausgabe - ";
echo $urls[$aktuell];

// id erhöhen, damits in der
// nächsten Runde weitergeht
$aktuell++;

// was tun, wenn am index Ende angelangt?
if($aktuell==len($urls))
{
  // bei 0 beginnen
  $aktuell = 0;
}

// am Ende noch ein dreckiges reload per javascript
// damit darf man dennoch Ausgaben tätigen
// im Gegensatz zu einem php-header redirect
echo '<script type="text/javascript">window.location = "ichselbst.php?id='.$aktuell.'"</script>';
Das ist jetzt schnell mal hingekliert, sollte logisch richtig sein..

(ich frag mich gerade aber, wie man dieses Ding wieder beenden kann..
oha, Büchse der Pandora..)

mfg chmee
 
Zuletzt bearbeitet:
Aber dafür muss ja der Computer laufen und ich mit dem Internet verbunden sein. Gibt es auch eine Backend Lösung?
 
Wo läuft denn dein Crawler? auf einem Webspace bei einem Hoster? Bei dir zuhause im Netzwerk/eigener PC?
 
Was meint ihr mit der Flag-Datei?

Der Crawler wird bei Domain.com gehostet werden, ist aber im Augenblick noch in Produktion deswegen auf meinem localhost Server.

Edit:

Zur Info (falls es wichtig ist): Der Crawler/Bot ist dazu gedacht um für jede beliebige URL einen Titel, ein Bild und eine Beschreibung zu finden.

Edit: CronJob würde nicht funktionieren, da ich einen Server auf Windows habe
 
Zuletzt bearbeitet:
Zurück