Domain Crawler entwickeln

kramoo

Mitglied
Hallo ins Forum,

komme aus dem Bereich SEO und brauche zur Arbeitserleichterung einen Crawler der mir eine vorgegebene Domain nach einen Link durchsucht. Wie fange ich am besten an ? gibt es ein Tutorial zum entwickeln von crawlern ?
 
Im Prinzip musst du nur die Website einlesen und dort mit regulären Ausdrücken nach dem Link suchen bzw direkt nach dem Link suchen, wenn du ihn schon kennst.
 
nur die Website einlesen!**** Das ist aber etwas allgemein ausgedrückt.
Die ganze Website einlesen wird nicht so einfach sein denke ich?
 
Du gehst am besten so vor, dass das Skript auf der Startseite anfängt, dort alle Links einsammelt und in eine Liste schreibt. Wenn die Steite eingelesen ist, wird mit der nächsten Seite auf der Liste weitergemacht, usw. Musst halt immer checken, ob eine Seite nicht schon mal eingelesen wurde, da du ja sicher viele Querverweise auf deiner Seite hast.

Ich hatte auch mal den Plan, so einen Crawler zu schreiben. Hab dann aber drauf verzichtet, da mir PHP dafür nicht geeignet erschien. Bei PHP hast du nämlich das Problem mit der Laufzeit. Wenn die Seite entsprechend groß ist und viele Unterseiten hat, kann es sehr viel länger als 30 Sekunden dauern, bis die ganze Seite durchsucht ist. 30 Sekunden ist aber die maximale Skriptlaufzeit meines Providers :-(

Hab das Projekt verschoben, bis ich besser Java kann...

Viele Grüße,
Fred



// EDIT: Oder du schaust einfach mal, ob hier was für dich dabei ist: http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators
 
Zuletzt bearbeitet:
Zurück