Aussperren von unerwünschten Suchmaschinen

  • Es gibt Tage, da "rappelt es in der Kiste".
    Tausende Besucher gleichzeitig, die Seite geht fast in die Knie weil die Ressourcen ausgehen ... trotzdem freut es den Seitenbetreiber, weil er ja denkt, dass es "echte Besucher" sind , die seine Seite interessant finden.


    Das "böse Erwachen" kommt dann, wenn er in die Aufzeichnungen (Logs) schaut:
    Die Zigtausend Besucher pro Minute waren nur Suchmaschinen, die faktisch den kompletten Seiteninhalt aufgenommen haben indem sie hunderte von "Streams" (Abrufvorgänge) gleichzeitig gestartet haben.


    Natürlich geht so etwas zu Lasten der Ressourcen der Internetseite. Schließlich muss die Seite auch eine Suchmaschine so behandeln als wenn es ein echter Besucher wäre. Während also die Suchmaschinen den gesamten Arbeitsspeicher "wegfressen" , bekommen echte Besucher eventuell nur noch Fehlermeldungen zu sehen.


    Muss man sich das gefallen lassen ? NEIN :cursing:

    Zunächst einmal gibt es eine Datei, die "robots.txt" an die sich seriöse Suchmaschinen halten.

    In diese kleinen Datei schreibt man rein, was die einzelnen Suchmaschinen machen dürfen oder was eben nicht.


    Hier einmal ein Beispiel, wie so eine Datei aussehen kann
    robots.txt
    Das Platzhaltersternchen (*) bedeutet: "Das gilt für alle Suchmaschinen"
    Im Folgenden führt man dann jede Suchmaschine auf, denen man den Zugriff verbieten will. Man kann auch den Zugriff auf bestimmte Ordner und Dateien untersagen


    Auch wenn man immer allen Suchmaschinen den Zugriff erlauben will, sollte man doch gleich zu Anfang so eine Datei einbauen. Je früher, desto besser.
    Suchmaschinen schauen in unregelmäßigen Abständen nach, ob es die Datei "robots.txt" gibt oder nicht. In größeren Abständen sehen sie dann auch nach, ob sie selbst darin extra erwähnt werden.


    Doch machen wir uns nichts vor: Das ist wie ein Schild an einer offenen Tür " Hausieren verboten".
    Unseriöse Suchmaschinen interessiert dieses Schild nicht.



    Wenn die höfliche Form nicht ausreicht, müssen wir eben die Tür abschließen
    Das machen wir dann mit einer Datei die sich ".htaccess" nennt.
    In diese Datei schreiben wir die IP-Adresse der Suchmaschine rein oder wenn sie immer die gleiche Kennung oder Internetadresse hat, kann man die auch da hinein schreiben.


    Beispiel

    Zitat

    # Datei zu Regelung von Zugriffen
    Order deny,allow
    Deny from .xxxx.com
    Deny from 127.0.0.168
    Allow from 192.168.0.225


    Um diese Datei zu erstellen, benutzt einfach einen Texteditor. Speichert die Datei als".htaccess.txt" ab. Ladet sie dann auf den Server hoch und entfernt die Endung ".txt".
    Diese Datei ist keine Bitte an die Suchmaschine mehr .. sondern eine Anweisung an den Server, den entsprechenden Suchmaschinen keinen Zugriff mehr zu gewähren. :pompf:
    DAS ist das "Vorhängeschloss" vor eurer Seite.


    Leider ist das Schloss aber nicht mehr sicher, wenn die Suchmaschine ihre IP wechselt oder die Kennung ändert.
    Gerade bei Suchmaschinen sollte man also über eine entsprechende Liste verfügen, in der alle bekannten IPs aufgelistet sind.
    Keine Bange. Solche Listen gibt es schon lange und sie werden auch immer wieder aktualisiert.


    Unter http://www.botsvsbrowsers.com findet ihr eine Datenbank von bald 1 Million Suchmaschinenkennungen aller Art.
    In das Suchfeld unten Rechts könnt ihr eine IP eingeben oder die Kennung und ihr bekommt die nötigen Daten angezeigt.


    Unnötige Suchmaschinen
    Das sind Suchmaschinen, die weder euch noch euren Besuchern helfen können.
    Beispiel:
    Du betreibst eine Seite nur auf Deutsch. Nun siehst du dass eine Suchmaschine aus einem Land ankommt, in dem ganz andere Schriftzeichen verwendet werden.
    Statt des Wortes "Hallo" müsste die Suchmaschine also eigentlich --> <<-- anzeigen.
    Diese Seite kann es absichtlich nicht (deshalb auch ein Bild wie das Wort aussieht). Der Benutzer der Suchmaschine müsste also seinen Rechner ganz anders eingestellt haben als es für sein Land normal ist.
    Hab ihr auch Chinesische Zeichensätze installiert ? Nein ? OK. Wie hoch ist dann die Chance, dass ein Nutzer aus einem anderen Land einen völlig fremden Zeichensatz installiert hat ? Sehr gering.


    Jetzt kommt die Suchmaschine jeden Tag und belastet eure Seite .. nur auf den vagen Verdacht hin, dass sich einmal jemand findet, der deine Seite im Original lesen kann ... denn in deren Sprache wird deine Seite sowieso nicht angezeigt werden.
    Solche Suchmaschinen kann man also getrost ausschließen, wenn sie sich nicht an die "robots.txt" halten wollen.


    Andere Suchmaschinen belasten NUR deine Seite. Es sind nämlich keine "wirklichen Suchmaschinen" , sondern sie werden zu völlig anderen (oft kommerziellen) Zwecken betrieben.
    Da durchsucht zum Beispiel eine Firma deine Internetseite ... und bietet dann deine Inhalte gegen Gebühr an ?
    Aussperren solcher Suchmaschinen ist fast schon Pflicht ... denn .. du bietest deine Inhalte ja öffentlich und ohne Bezahlung an. Sollen andere Firmen dann daran verdienen ? Nööö


    Die dritte Art von Suchmaschinen hat illegale Ziele
    Spambots. E-Mail-Crawler , Datenscammer .. alles "Crawler", die nur darauf aus sind, persönliche Daten zu filtern und sie dann illegal zu nutzen.
    Weg damit. Sie nutzen keinem außer den Betreibern .. der dann die Daten zu unseriösen Zwecken weiter verkauft.