Google & Co erkennen

NomadSoul · 2. November 2005

Gumbo also ich lese das so, das das Archiv das troz Robots.txt indiziert hat. Und das letztendlich zu diesem verfahren geführt hat.. weil wäre die Datei beachtet worden hätte man dort nichts finden können.

Gumbo · 2. November 2005

Meiner Erfahrung nach beachten aber Suchmaschinen wie Google diese Datei.

BSA · 2. November 2005

Wie würde das mit der Robots.txt funktionieren? Würde er einfach niemals diese Seite aufrufen oder würde er sie nur nicht Indexieren? Muss ich die Robots.txt irgendwie im Script benennen oder einbinden?

Gumbo · 2. November 2005

Lies dir mal die Beschreibung Wikipedias zum Robots-Exclusion-Standard durch. Ich biete Verweise zu weiterführenden Informationen nicht ohne Grund an.

BSA · 2. November 2005

Alles klar!

BSA · 3. November 2005

Okay, ich hab mich jetzt mal ein wenig darüber Informiert und bin leider auf den Entschluss gekommen, dass mir das auch nicht weiterhilft. Also, ich werde euch mal erzählen wa sich vor habe.

Ich möchte unterbinden das irgendjemand meine Komplette Webseite runterladen kann mittels eines Offline Explorers oder wie auch immer man das nennt. Dazu wollte ich auf meiner Seite einen Link einbauen:

Code:

<a href="bannuser.php"></a>

In der Datei bannuser.php wird dann die IP des Users ermittelt und ín eine Datenbank eingetragen. Wenn der User nun normal auf meine Seite kommt, passiert ihm ja nicht solange er nicht den Link anklickt, der er ja aber auf Grund der notation nicht finden wird....

Wenn jetzt aber solch ein Offline Explorer kommt dann verfolgt der ja jeden Link auf meiner Seite, das heißt also dieser Link muss ziemlich weit oben auf die Seite, dass der Explorer diesen Link mit als erstes Aufruft, und dann die IP gebannt wird und kein weiterer Text mehr ausgegeben wird und das Script abgebrochen wird.

Wenn ich das jetzt mit der robots.txt machen würde, dann hätte ich das Problem das ich von jedem dieser Offline Explorer den User Agent kennen müsste und diesem expliziet alles verbieten müsste mit Dissallow: /
Das wird aber sehr unsicher.

Hat noch jemand eine Idee wie ich das machen könnte?

Dennis Wronka · 3. November 2005

Aber wie willst Du so einen Offline-Explorer zuverlaessig erkennen?
Am User-Agent? Der kann ja ohne weiteres gefaelscht sein.

BSA · 3. November 2005

Eben deswegen würde ich gerne einfach nur unterbinden das das die Suchmaschinen auf diese Seite gelangen, das wäre das einfachste. Und dazu benötige ich eine Lösung!
Ist das verständlich oder gibts noch fragen die ich beantworten soll?

Dennis Wronka · 3. November 2005

Aber jetzt gerade sprichst Du von einem Offline-Browser.
Ich koennte ja auch mit wget Deine Website angeben und das Programm die komplette Seite mit allen Bildern und Unterseiten runterladen lassen.
Dabei kann ich mir auch noch alle Links so manipulieren lassen, sodass ich die Website von Festplatte betrachten kann.
Auch mit PHP kann ich die ganze Website durchwuehlen. Und dabei auch noch selbst festlegen welchen User-Agent ich uebergeben will.

Fuer die Suchmaschinenfrage wuerde ich dafuer sorgen, dass bestimmte User-Agents den Link zu den entsprechenden Seiten nicht sehen wenn die robots.txt und das Robots-Meta-Tag nichts fuer Dich sind.

BSA · 3. November 2005

Also, nochmal:

Wenn du mit einem Offline-Browser alle meine Seiten saugen willst, gelangst du automatisch auch auf die bannuser.php dann auf jeder Seite den Link auf diese Datei einbinde. Und wenn der Offline-Browser dann auf diese Seite gelangt, schwupps hab ich ihn gefangen bzw. seine IP gesperrt (in diesem Fall auch die IP des Users). Wenn der User dann also auch ohne Offline-Browser auf die Seite will hat er keine Chance, erst mit einer neuen die nicht gebannt ist. Verstehst du das Prinzip?

Google & Co erkennen

NomadSoul

Erfahrenes Mitglied

Gumbo

Erfahrenes Mitglied

BSA

Erfahrenes Mitglied

Gumbo

Erfahrenes Mitglied

BSA

Erfahrenes Mitglied

BSA

Erfahrenes Mitglied

Dennis Wronka

Soulcollector

BSA

Erfahrenes Mitglied

Dennis Wronka

Soulcollector

BSA

Erfahrenes Mitglied

Neue Beiträge