Crawler automatisch laufen lassen?

tsbmusic · 12. April 2012

Moin,

ich habe mit PHP einen Crawler geschrieben der die Daten von Websites liest und speichert. Dabei sollen jetzt aber die Daten immer auf dem neuesten Stand sein. Gibt es eine Möglichkeit mit PHP oder auch einer anderen Sprache den Crawler automatisch laufen zu lassen ohne das ich irgendetwas tun muss und möglichst, das mein PC dabei nicht laufen muss?

Hoffe ihr könnt mir da helfen!

Gruß
tsbmusic

Yaslaw · 12. April 2012

Richte ein CronJob ein (oder lass ihn durch dein Provider einrichten)

tsbmusic · 12. April 2012

Also dieser Crawler muss mehrere Tausend Links durchlaufen und soll erst von vorne anfangen wenn er einmal durch ist. Wie soll das mit einem CronJob funktionieren?

chmee · 12. April 2012

Dann mach ne sich selbst aufrufende Endlosschleife. Logischerweise pro url ein Aufruf, damit umgehst Du nen Timeout.

PHP:

// array der links
$urls=array( "link1","link2","link3");

// arrayindex abfragen
if(isset($_GET['id']))
{
  $aktuell = $_GET['id'];
}
else
{
  $aktuell = 0;
}


// und jetzt die eigentliche Tat
echo "Hier die Ausgabe - ";
echo $urls[$aktuell];

// id erhöhen, damits in der
// nächsten Runde weitergeht
$aktuell++;

// was tun, wenn am index Ende angelangt?
if($aktuell==len($urls))
{
  // bei 0 beginnen
  $aktuell = 0;
}

// am Ende noch ein dreckiges reload per javascript
// damit darf man dennoch Ausgaben tätigen
// im Gegensatz zu einem php-header redirect
echo '<script type="text/javascript">window.location = "ichselbst.php?id='.$aktuell.'"</script>';

Das ist jetzt schnell mal hingekliert, sollte logisch richtig sein..

(ich frag mich gerade aber, wie man dieses Ding wieder beenden kann..
oha, Büchse der Pandora..)

mfg chmee

tsbmusic · 12. April 2012

Aber dafür muss ja der Computer laufen und ich mit dem Internet verbunden sein. Gibt es auch eine Backend Lösung?

Yaslaw · 12. April 2012

chmee hat gesagt.:
(ich frag mich gerade aber, wie man dieses Ding wieder beenden kann..
oha, Büchse der Pandora..)

Per FTP die Datei löschen?
Oder eine Flag-Datei setzen die jedesmal geprüft wird.

chmee · 12. April 2012

..die Idee mit der flag-Datei klingt gut..

mfg chmee

Maniac · 12. April 2012

Wo läuft denn dein Crawler? auf einem Webspace bei einem Hoster? Bei dir zuhause im Netzwerk/eigener PC?

tsbmusic · 12. April 2012

Was meint ihr mit der Flag-Datei?

Der Crawler wird bei Domain.com gehostet werden, ist aber im Augenblick noch in Produktion deswegen auf meinem localhost Server.

Edit:

Zur Info (falls es wichtig ist): Der Crawler/Bot ist dazu gedacht um für jede beliebige URL einen Titel, ein Bild und eine Beschreibung zu finden.

Edit: CronJob würde nicht funktionieren, da ich einen Server auf Windows habe

ByeBye 154279 · 12. April 2012

tsbmusic hat gesagt.:
Was meint ihr mit der Flag-Datei?

Sobald eine bestimmte Datei XYZ vorhanden ist, bricht das Script ab.
Oder andersrum.
Solange eine Datei XYZ existiert läuft das Script.

Vor jeder n.ten Aktion prüft dein Script die Existenz der Datei.

mfg
bo

Crawler automatisch laufen lassen?

tsbmusic

Erfahrenes Mitglied

Yaslaw

alter Rempler

tsbmusic

Erfahrenes Mitglied

chmee

verstaubtes inventar

tsbmusic

Erfahrenes Mitglied

Yaslaw

alter Rempler

chmee

verstaubtes inventar

Maniac

Erfahrenes Mitglied

tsbmusic

Erfahrenes Mitglied

ByeBye 154279

Neue Beiträge