Domain Crawler

KingDiggyDag

Grünschnabel
hallo zusammen,

ich habe eine kleine Frage ich will einen domain crawler programmieren, der soll immernach domains suchen und namen die dann in der datenbank abgespeichert werden.
wie knn ich sowas programmieren habt ihr vlt eine kleine liste die ich abarbeiten aknn woran ich mich halten soll odder vlt eine idee und vorschläge wie so was zu realisieren wäre ?
:confused:
Grus KDD
 
Also ganz ganz wichtig dabei ist die Einhaltung der Regeln der deutschen Sprache. Vor allem die Gross- und Kleinschreibung darf bei so einem Projekt keinesfalls zu kurz kommen... :rolleyes:

Ansonsten waere noch interessant was alles in der Datenbank festgehalten werden soll und wie genau der Crawler crawlen soll.
Allgemein kann man sagen dass sowas sicher mit PHP machbar ist, ob es aber praktisch ist ist die Frage.
 
ok lol sorry.

Also nun gut, was würdest du denn vorschlagen womit ich da am besten programmiere ?

Das Programm soll eigentlich domains auslesen und checken ob der Name der internet Seite momentan vergeben ist oder Frei?

Kann ich hier die programmiersprache C und Php kombinieren was meint ihr

:confused::)
 
Also wenn Du pruefen willst ob eine Domain vergeben ist sollte eine simple whois-Abfrage ausreichen. Diese kann auch recht einfach mit PHP durchgefuehrt werden, siehe hier.

Das Problem was ich bei einem "klassischen" Crawler eher gesehen haette als bei einer whois-Abfrage ist ja das Zeitlimit dem PHP-Scripts unterliegen. Vor allem macht sowas als Web-Anwendung wenig Sinn da so ein Web-Crawler ja praktisch endlos laeuft.
 
ok das habe ich mir auch gedacht.
ich will folgendes probieren ich denke da muss ich in die C Programmierabteilung. ist es möglich ein kleines C programm zu schreiben was endlos läuft und freie seiten die er ermittelt hat in eine Datenbank schreibt?
gleichzeitig auch immer wieder sagen wir alle 24 std darauf testet ob die seiten verfügbar sind die er in die Datenbank geschrieben hat ?
 
Klar, sowas ist machbar.

Ich koennte mir das Ganze so vorstellen:
Du hast eine Seite wo man per Formular eine Domain auf Verfuegbarkeit checken kann.
Dieser Check findet per PHP statt und dabei wird die Domain, falls nicht schonmal gecheckt, in die Datenbank eingetragen.

Diese Domains, die vom PHP-Script in die DB geschrieben wurden, werden dann regelmaessig vom C-Programm ausgelesen und erneut gecheckt. Bei Status-Aenderung wird die Datenbank aktualisiert.

Fehlt nur noch irgendwo eines Ausgabe der Domains, denn ich denk dass es wohl besser waere dass auch Domains die schonmal gecheckt wurden bei einem erneuten Check wirklich ueberprueft werden und nicht einfach nur der Status aus der DB gelesen wird, damit Du auch wirklich einen gueltigen Status hast.
 
Hallo,

ich weis ja nicht, ob ich was falsch verstehe. Aber irgendwie kommt es mir vor, als willst du die Bruteforce-Attake zum Domain-Suchen umfunktionieren. Also das Programm mögliche Domainnamen generieren lassen und dann gucken, ob diese noch frei ist. Ich weis ja nicht was die anderen davon halten, aber ich seh da keinen Sinn drin, weil es ja ziemlich viel Kombinationen gibt.

Ansonsten kannst du PHP und C kombinieren. PHP bzw. das ganze Paket (PHP, HTML, MySQL, usw.) benutzt du für die reine Ein-/Ausgabe, also die Oberfläche bzw. das Suchformular.
Und dann läßt du ein C-Programm laufen, dass wie bereits von Dennis beschrieben permanent nachguckt, ob die in der Datenbank liegenden Domains noch immer den selben Status wie beim letzten Check haben.

Die Theorie hört sich für mich ziemlich simpel an, aber die Umsetzung in C dürfte sich als schwieriger erweisen.

MfG ichnicht

P.s. das ganze in fertiger Ausführung habe ich auch noch nicht gesehen.
 
Hallo,

ich weis ja nicht, ob ich was falsch verstehe. Aber irgendwie kommt es mir vor, als willst du die Bruteforce-Attake zum Domain-Suchen umfunktionieren. Also das Programm mögliche Domainnamen generieren lassen und dann gucken, ob diese noch frei ist. Ich weis ja nicht was die anderen davon halten, aber ich seh da keinen Sinn drin, weil es ja ziemlich viel Kombinationen gibt.

Sehe ich ähnlich, das wäre vergleichbar mit einem Programm, welches alle möglichen Ziehungsergebnisse beim Lotto ermittelt und dann prüft, ob diese Kombination schon mal gezogen wurde...nur mit dem Unterschied, dass beim Lotto die Anzahl unterschiedlicher Kombinationen begrenzt ist :suspekt:
 
Zurück