kleiner Crawler

maxikey

Erfahrenes Mitglied
Heyhooooo,
ich brauche ein Script, welches die Anzahl der Google-suchergebnisse einer beliebigen Website, oder Meta-tags oder so, in eine Datenbank (MySQL) schreibt.:rolleyes::rolleyes::rolleyes:
Wo fang ich an

DANKE im Vorraus!! :):):)

MFG Maxi
 
Wie wäre es denn damit?... ich weiß allerdings nicht ob das Google gerne sieht, ich meine ich hab mal irgendwo irgendwann was gelesen, dass man das nicht darf. (Muss aber nicht stimmen)

PHP:
function in_google_index ($domain)
{
    $google_result = file_get_contents("http://www.google.de/search?q=site%3A".$domain);
    preg_replace_callback("/(.*)(von ungef(.+){1}hr <b>)([0-9]+)(<\/b>)(.*)/Usi", "in_index_callback", $google_result);
}

function in_index_callback ($erg)
{
    echo "Im index: ".$erg[4]." Seiten.<br />\n";
}

in_google_index("nepda.de");

Also, diese zwei Funktionen geben dir die ungefähre Anzahl der Seiten Ergebnisse zurück.

Viel Spaß
 
Sehr gut!
Bloß wenn ich z.B nepda.de google, dann finde ich 158 Ergebnisse oder so...
Im Script zeigt er mir nur zwölf...

MFG MAXI
 
Ich selbst hatte auch eine Zeitlang einen Google Ranking Crawler.. jedoch nach ca 10 abfragen wird die IP Permanent gebannt. Also ohne dem XML Zugriff wirst du kaum dauerhaft etwas machen können.
 
Was soll ich dann tun? Gibt es eine Möglichkeit die alle gefundenen Meta-tags zählt oder so?

MFG Maxi
 
Du hättest dir meine Funktion genauer anschauen sollen. Bei Google gibt es so ein paar Tricks (die eigentlich gar keine sind), wie zum Beispiel, wenn du "site:nepda.de" eintippst alle Seiten gefunden werden, die "nepda.de" in ihrere Domain beinhalten. Die Schreibweise "site:" ist schon in der URL eingebaut. Das heißt, du musst nur die URL in der Funktion anpassen um auf alle Suchergebnisse zuzugreifen.

Das sähe dann ungefähr so aus:
PHP:
$google_result = file_get_contents("http://www.google.de/search?q=".$domain);

@Michael Engel: ich habe mir schon fast gedacht, dass Google das nicht besonders mag :)
 
hab ich doch gerade gepostet, du musst einfach die URL in der Funktion file_get_contents() ändern.
 
Ich Idiot! Sry!
Noch was: wenn ich das ("nepda.de") durch eine andere Adresse ersetze, dann funktioniert das script nich mehr...

MFG Maxi
 
Wenn in deiner Funktion jetzt die Zeile so aussieht:
PHP:
 $google_result = file_get_contents("http://www.google.de/search?q=".$domain);
verwende den Parameter $domain einfach als würdest du im Google-Suchfeld etwas suchen. Bevor du weitere Fragen stellst, schau dir die Funktion (oder um was es eben gerade geht) genauer an. Und :google:!
 
Zurück