Googlebot verfälscht Zugriffstatistiken!

breytex · 15. November 2011

Hallo zusammen!

Ich habe ein Problem mit meinem CMS.
Es laufen ca 50 Internetseiten auf einem zentralen CMS,
dieser enthält einen, in PHP gebauten, Counter mit Statistiken etc.

Seit ein paar Wochen fällt mir bei 3 der 50 seiten eine extrem falsche Statistik der Zugriffe auf. (Sowas wie 5000 Zugriffe pro Besucher (durchschnittlich)).

Vermutung: Suchmaschienenbots

Habe dann mal die Logs ausgewertet, und, wie vermutet, kommt bei den 3 besagten Seiten
der Googlebot einfach alle 2 Sekunden. (3-4 IP-Adressen, welche 98% der Aufrufe verursachen).

Habe nun überlegt ob ich die Zugriffe dieser Bots einfach aus den statistiken rausnehme,
aber das ist ja keine gute Lösung auf dauer, da sich die IPs der Crawler ja auch nal ändern können.

Gibt es eine Möglichkeit,, z.b. per robot.txt, den Suchmaschienen zu sagen, dass sie nur z.b. ein mal am Tag kommen sollen?

Habe dazu im net leider nix gefunden :-/

Vielen Dank für eure Hilfe

sheel · 15. November 2011

Hi

Filtere die Bots nicht nach IP, sondern nach "Browser"-Kennung raus.
So, wie man darn IE/Firefox/etc. unterscheiden kann,
haben auch Suchmaschinen typische Strings.

Zum Einmal-am-Tag: Es gibt zwar HTML-mäßig ein revisit-after,
aber daran hält sich inzwischen kein Bot mehr.
Bin mir nicht sicher, ob es überhaupt irgendwann mal beachtet wurde.

Gruß

Dr Dau · 15. November 2011

Hallo!

breytex hat gesagt.:
Seit ein paar Wochen fällt mir bei 3 der 50 seiten eine extrem falsche Statistik der Zugriffe auf. (Sowas wie 5000 Zugriffe pro Besucher (durchschnittlich)).

Vermutung: Suchmaschienenbots

Habe dann mal die Logs ausgewertet, und, wie vermutet, kommt bei den 3 besagten Seiten
der Googlebot einfach alle 2 Sekunden. (3-4 IP-Adressen, welche 98% der Aufrufe verursachen).

Was mich vermuten lässt dass Dein Counter keine IP-Sperre hat.
Bei einer IP-Sperre wird die IP samt Zugriffszeit zwischengespeichert (z.b. in einer Datenbank) und bei jedem erneuten Zugriff verglichen.
Wenn zwischen den einzelnen Zugriffszeiten eine vorgegebene Zeit (z.b. 60 Sekunden) unterschritten wird, wird der Zugriff nicht erfasst.
Bei jedem erneuten Zugriff wird die zwischengespeicherte Zugriffszeit aktuallisiert.
Wenn nun also z.b. im Sekundentakt auf die Seite zugegriffen wird, wird der Zugriff nur einmal in Deiner Statistik erfasst.
Erst wenn der letzte Zugriff die vorgegebene Zeit her ist, wird er erneut in der Statistik erfasst.
So kann also auch ein verfälschen der Statistik durch User zumindest eingedämmt werden (der Finger auf der F5-Taste bringt also nicht viel

).

breytex hat gesagt.:
Gibt es eine Möglichkeit,, z.b. per robot.txt, den Suchmaschienen zu sagen, dass sie nur z.b. ein mal am Tag kommen sollen?

Über die robots.txt (wird mit "s" geschrieben) kannst keine Zeit angeben.
Siehe auch: http://de.selfhtml.org/diverses/robots.htm

Wie sheel schon gesagt hat, senden Bots eine Art Browserkennung mit.
Diese kannst Du auch in besagter IP-Sperre mit berücksichtigen (Du kannst die IP-Sperre also auch ganz allgemein verwenden).
Wenn Dir die Kennungen der Bots bekannt sind, und Du diese irgendwo speicherst, könntest Du bei der Zeitspanne der IP-Sperre auch zwischen Bots und User unterscheiden.

Grundsätzlich sein noch angemerkt:
Jeder Bot kann, genauso wie ein Browser, seine Kennung verfälschen (bei mir gibt sich z.b. wget nicht als wget zu erkennen, sondern als Opera

).
Ein Bot soll sich an die robots.txt halten..... zwingen kann man ihn dazu jedoch nicht.
Eine IP-Sperre sollte eine vernünftige Zeitspanne haben, da es ja auch User/Bots mit statischer IP gibt und/oder über einen Proxy-Server zugreifen.
Man muss bei allen Techniken also einen "gesunden" Mittelweg finden.
Auf jedenfall mach es aber mehr Sinn verschiedene Techniken zu kombinieren, als sich auf eine allein zu verlassen.

Gruss Dr Dau

Googlebot verfälscht Zugriffstatistiken!

breytex

Mitglied

sheel

I love Asm

Dr Dau

ich wisch hier durch

Neue Beiträge