Das Ziel fast aller Internetseiten ist, dass man sie möglichst schnell findet und dass sich ihre Inhalte verbreiten.
Es gibt aber Internetseiten, die wollen nur als Geheimtipp gehandelt werden. Gleichzeitig wollen sie aber trotzdem für jeden zugänglich sein.
Dazu muss man natürlich dafür sorgen, dass Suchmaschinen die Seite nicht finden und auch nicht indexieren können.
Ich beschreibe hier jetzt einmal, welche Mittel man dazu einsetzen kann.
Die Seite wird damit nicht "SEO", sondern "Anti-SEO" - wir optimieren also nicht, sondern de-optimieren die Seite.
Als Einleitung:
Suchmaschinen und andere Crawler nutzen nur Technik, die sehr verbreitet ist. Jede "Unnormalität" behindert sie bei ihrer Arbeit. Dauert es zu lange , machen sie nicht weiter, sondern kommen später noch einmal wieder.
- Abschreckend wirkt auf sie auch ein "veralteter Code" oder einer der viel zu umständlich ist.
- Frames und Tabellen mögen sie partout nicht. Das ist Uralt-Technik, die sie immer abwerten.
- Suchmaschinen können Bilder auswerten, sammeln und indexieren. Sie können aber keine Bildteile logisch zusammensetzen.
- Flash-Inhalte gelten für Suchmaschinen als "no content". Sie können sie nicht erfassen
- Diverse JS-Funktionen werden nicht erfasst oder können nicht zielgerichtet genutzt werden
- Hotlinking-Content ist für sie kein eigener Content. Sie erfassen ihn nicht
PS:
Ich werde im Folgenden immer wieder die Begriffe wechseln: Bot , Crawler, Suchmschine. Da sind alles Bezeichnungen für Suchmaschinen und Indexierungsdienste. Ich verwende sie gemischt, weil der Begriff "Suchmaschine" auf die Dauer einfach viel zu mühsam zu tippen ist. Sorry, aber hier sitzt auch nur ein Mensch, der eben manchmal ganz gerne etwas abkürzt
Wir beginnen mit der einfachsten Maßnahme, Suchmaschinen zu zeigen, dass sie unerwünscht sind:
Wir legen die Datei robots.txt an
In dieser Datei können wir bestimmte Suchmaschinen zulassen oder einschränken, dass bestimmte Bereiche nicht indexiert werden sollen.
Wir wollen, dass keine Suchmaschine indexiert. Wir öffnen einen Editor/Schreibprogramm und fügen folgenden Text ein:
ZitatUser-agent: *
Disallow: /
Jetzt speichern wir die Datei als "robot.txt" im ASCII ab und setzen sie überall dorthin wo sie gültig werden soll.
Denkt immer daran, dass Suchmaschinen auch Links folgen, die von anderen Seiten kommen. Wenn sie durch so einen Link in einem Unterordner ankommen, müssen sie auch dort diese Datei finden. Setzt sie also in alle Unterordner hinein, sonst bekommen es die Suchmaschinen nicht mit.
Die "robots.txt" ist aber kein Schutz, sondern nur eine Bitte.
Hängt einen Zettel an euer Fenster und schreibt drauf "Bitte nicht hineinsehen". Er ist genauso wirkungsvoll wie die "robots.txt": Nur wer sich daran halten will, wird sie/ihn beachten.
Anweisungen in der Seite selbst
Setzt folgende Meta-Codes in den Quellcode der Seite:
Zitat<meta name="revisit-after" content="9999 days" />
<meta content="index,nofollow" name="robots"/>
Der erste Befehl gibt an, wann der Bot wieder kommen soll.
"Logisch" wäre es gewesen, wenn ich "0" als Wert eingegeben hätte. Der Wert wird jedoch manchmal anders ausgelegt. "0" kann bedeuten, dass der Bot eben nicht wieder kommen soll - oder - der Bot interpretiert den Befehl als "Befehl ohne Inhalt" = "verwende deine eigenen Grundeinstellungen".
Damit der Bot den Befehl nicht auslegen kann, gebe ich ihm 9.999 Tage vor. Wenn er sich daran hält und dann erst in mehr als 27 Jahren wiederkehrt, ist der Indexierungsschutz auch lange genug gewesen.
ABER:
Wenn er sich daran hält, nutzt es nichts, wenn du danach den Zeitraum wieder änderst. Er wird es ja doch erst in 27 Jahren mitbekommen.
Der zweite Befehl gibt an, wie er sich bei Links verhalten soll.
Er soll Links nicht folgen.
Auch diese Anweisungen sind kein Schutz. Sie stellen auch nur eine Bitte dar, die der Bot einfach ignorieren kann.
Wenn die Suchmaschine unsere Bitten nicht beachten will, müssen wir "größere Geschütze auffahren". Wir beginnen mit einfachen Abschreckungsmaßnahmen
Wir schalten eine "Müll-Seite" vor
Diese Seite enthält alle Bitten und bildet gleichzeitig einen Absprungprunkt und Weiterleitungen.
Wir fügen jetzt noch einige völlig sinnlose Meta-Befehle hinzu:
Zitat<meta name="description" content="NO CONTENT " />
<meta name="keywords" content="no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content, no content" />
Für den Fall, dass der Bot indexieren will, schreiben wir transparent die ganze Seite mit einem und dem selben Begriff voll z.B.:
ZitatNOFOLLOW NOCONTENT NOFOLLOW NOCONTENT NOFOLLOW NOCONTENT NOFOLLOW NOCONTENT NOFOLLOW NOCONTENT NOFOLLOW NOCONTENT NOFOLLOW NOCONTENT NOFOLLOW NOCONTENT NOFOLLOW NOCONTENT
Der menschliche Besucher wird (durch die Transparenz) aber davon nichts erblicken, sondern sieht nur einen für ihn bestimmten Text.
Die ersten Arten, wie man Suchmaschinen beeinflussen konnte, waren Meta-Befehle und nicht sichtbare Texte. Damals hat das sehr gut geklappt. Die Suchmaschinenbetreiber haben das aber irgendwann erkannt und ihre Systeme darauf abgestimmt.
Wenn man diese Techniken heute benutzt, richtet sich der Bot nicht danach sondern schaut erst einmal, ob das einen Sinn ergibt. Sind es nur Aneinanderreihungen von Wörtern, wertet er die Seite ab. Er stuft sie als Spam ein.
Gleichzeitig erhält die Seite noch einen Negativpunkt für den Versuch, den Bot beeinflussen zu wollen.
Wir nutzen jetzt also eine veraltete Suchmaschinenoptimierungstechnik, damit die Seite bei Suchmaschinen möglichst schlecht da steht.
Aus SEO wird also Anti-SEO. Das ist ja auch der Sinn der Übung.
Übrigens ergeht es auch "SEO überoptimierten" Seiten so. Je mehr erkennbar wird, dass die Seite speziell für Suchmaschinen gestaltet wird, desto eher bekommt sie einen Minuspunkt.
--------
Eigentlich sollten jetzt schon alle seriösen Bots abgeschreckt worden sein, aber es gibt ja immer noch die, die alles mitnehmen .. und wenn es Müll ist.
Wir gestalten die Müll-Seite grafisch
Über diesen ganzen Code-Müll legen wir ein riesiges Bild. Schließlich wollen wir nicht die Besucher abhalten, sondern nur die Crawler.
Das Bild ist aber kein Gesamtbild, sondern besteht aus vielen kleinen Einzelbildern. Jeder Bildausschnitt bekommt einen nichtssagenden Namen, der so verbreitet ist, das Suchmaschinen sie längst nicht mehr indexieren wollen:
left1, left2, left, right1, right2, right3, middle1, middle2, middle3 usw.
Als Bildformat verwenden wir *.GIF. Das wird für Designsachen benutzt und in der Regel nicht mehr als normales Bildformat gesucht.
Jetzt gibt es natürlich noch das Problem: "Wie gestalte ich so viele Bilder so, dass sie zusammen ein Gesamtbild ergeben?"
Und wieder einmal wird ganz alte Technik benutzt. Wir wollen es möglichst "altertümlich" machen. Suchmaschinen SOLLEN abgeschreckt werden. Gleichzeitig wollen wir uns aber keine Gedanken um Auflösungen und Bildschirmeinstellungen machen müssen.
Wir benutzen Tabellen und Frames. Wir legen die Bilder in verschiedenen Bereichen ab und hotlinken sie von dort aus. Wir kombinieren weiterhin mit iframes.
Es MUSS ein Chaos aus vielen verschiedenen Techniken werden, das möglichst veraltet ist, aber im Browser immer identisch dargestellt wird. Mit Frames und Tabellen können wir dann die Optik einheitlich gestalten.
Für den Besucher wird auch hier wieder nichts davon sichtbar werden. Damit sie aber durch die vielen Bilder keinen Nachteil haben, lasst die Gifs erst mit geringer Auflösung erscheinen oder bastelt sie gleich so, dass alle zusammen nur maximal 80-100 Kb haben.
Uralte HTML-Technik die auf gar keinen Fall W3f konform sein darf oder soll. Wir WOLLEN "Abwertungen in allen Bereichen" damit sich Suchmaschinen scheuen, die Seite in ihren Index aufzunehmen.Je schlechter der Code, desto besser für unseren Zweck.
------
Vielleicht geistern jetzt noch alte Suchmaschinen herum oder solche, die einfach erst einmal wirklich alles mitnehmen wollen ? Auweia. Jetzt müssen wir doch langsam an "wirkliches Coden" gehen.
Wir fügen iframes und JS-Scripte ein
Die sind nur für menschliche Benutzer gedacht.
Der Mensch soll es weiterhin möglichst einfach haben. Über einen iframe hotlinken wir also ein JS-Dropdown-Menü in diese Müllseite.
Für den Bot sollte schon das iframe faktisch unsichtbar werden. Seinen Inhalt wird er nicht erfassen und falls doch wird er wieder einen Code sehen, den er in der Regel nicht akzeptiert.
Der Mensch sieht ihm iframe einen Hinweis, was er zu machen hat. Er muss im Menü auf einen bestimmten Punkt scrollen. Von dort aus gelangt er dann weiter.
Entweder schon hier auf der "Müll-Seite" oder aber erst am nächsten Ziel, werden denn die Abwehrmaßnahmen etwas wirkungsvoller. Ich schlage vor, sie erst am nächsten Ziel einzusetzen.
Der Browser muss schließlich jetzt schon so viel an Codes laden, dass weitere Maßmahm,en zu Verzögerungen führen könnten/werden. Das ist NICHT Sinn der Sache.
Hinweis zu den Bildern:
Man könnte sie natürlich auch per PHP nachladen lassen. Wir wollen aber durch die Abschreckungsmaßnahmen nicht mehr Serverlast erzeugen als unbedingt nötig. Alles soll völlig ohne Datenbank ablaufen und damit den eigentlichen Inhalt möglichst viel Reserven belassen. Ich setze deshalb weiterhin auf ganz einfache Technik, die hauptsächlich im Browser selbst ausgeführt wird.
Stufe 2: Direkter Kontakt zu Suchmaschinenbetreibern
Bei manchen Suchmaschinen kann man sich direkt oder indirekt registrieren. Eigentlich ist das zur Suchmaschinenoptimierung (SEO) gedacht. Es lässt sich aber auch sehr gut zur Anti-SEO benutzen.
Beispiel: Google-Webmaster-Tools
Man holt sich eine Mailadresse bei Google. Damit kann man auch die Webmaster-Tools benutzen.
Zunächst einmal muss man sich "legitimieren", dass einem die Seite auch gehört.
Dazu setzt man eine einfache (leere) HTML-Datei auf den Root der Internetseite. Diese trägt nur eine Nummer. Alles Weitere basiert nur auf dieser Datei. Sie darf danach nicht wieder entfernt werden.
Wir "verbieten" jegliche Indexierung der Domain.
Das ist jetzt keine Bitte an den Crawler, sondern eine "Seitenbetreiberanweisung an den Suchmaschinenbetreiber". Mit den nächsten Suchdurchläufen wird sie auch umgesetzt.
Immer wenn ein Google-Bot kommt, sieht er die Datei und befolgt die dazugehörigen Anweisungen (soweit sie das Nichtindexieren betrifft)
Wir lassen alle bisherigen Verweise aus der Indexierung löschen
Alle Links zur eigenen Seite werden damit aus den Datenbanken gelöscht oder tauchen nicht bei den Treffern auf. Das dauert einige Zeit. In Kombination mit der anderen Maßnahme zeigt es aber langfristig Erfolg.
Wir lassen alle zukünftigen Links zur Seite ausschließen
Jetzt werden auch Links zur Seite völlig ignoriert. Die Crawler folgen ihnen nicht mehr
Ich habe Google genommen, weil "mit Google alles beginnt".
Aus der SEO wissen wir:
Zuerst brauchst du einige Links im Netz und ein paar Besucher,Dann "bettelst du um Suchmaschinen". Sobald Google ankommt, folgen ihr in der Regel auch alle anderen "Großen".
Viele Suchmaschinen greifen bei ihrer Suche auf die Daten von Google zu .
Verhindere ich also die Indexierung bei Google, besteht große Aussicht darauf, dass viele andere Suchmaschinen garnicht erst ankommen.
Wir setzen nicht mehr auf Bitten oder Verzögerung sondern auf Verhinderung und Abwehr
Suchmaschinen, die bisher trotzdem weiter machten, lassen sich nicht stören. Wir müssen sie jetzt also effektiv abwehren. Dazu benutzen wir verschiedene Techniken.
"zurück zum Anfang"
REF setzen
Wir setzen in die Müll-Seite eine Funktion, die einen Refer setzt. Alle Besucher, die nicht dieses REF haben, werden zur Müll-Seite geleitet. Suchmaschinen kommen in der Regel ohne REF an. Sie erhalten also keinen Zugriff auf den Rest der Seite , sondern landen immer wieder nur auf dieser Seite.
Weiter zu einer speziellen Fehlerseite
User-Agent auslesen
Suchmaschinen haben in der Browser-Kennung auch einen Hinweis stehen, dass es sich um eine Suchmaschine handelt. Diese "Selbstauskunft" benutzen wir, um alle (oder bestimmte) Suchmaschinen zu blockieren. Wir leiten alle Besucher mit so einer Kennung auf eine Fehlerseite, die wir extra für Suchmaschinen erstellen.
Zitat403: Kein Zutriit für Suchmaschinen. Crawler forbidden
Nicht erfassbarer Inhalt
Wir gestalten eine weitere "Vorschaltseite". Diese besteht jetzt nur aus einem Flash-Inhalt.
Wer einen passenden REF hat, wird dorthin geleitet.
Die Seite leitet am Ende des Flashs automatisch in die nächste Sperre weiter.
Zutritt-Seite mit Passwort
In der Eingabeaufforderung schreiben wir für menschliche Besucher, welchen Namen und welches Passwort sie benutzen sollen.
Normale Suchmaschinen erkennen diese Anweisung in der Regel nicht.
Wird das Passwort korrekt gesetzt, bekommt der Besucher einen Cookie, der ihm die Passworteingabe beim nächsten Mal erspart.
Wir wollen nicht Besucher verhindern, sondern nur Suchmaschinen.
Da die Suchmaschinen keine Cookies dauerhaft mitnehmen, ist es nicht von Nachteil, wenn sie einmal einen richtigen Treffer hatten. Beim nächsten Mal müssen sie ja wieder die richtige Kombination herausbekommen.
Natürlich kann man den Cookie auch weglassen, wenn man mit Spambots rechnet, die Passwörter knacken können.
Wer dieses Problem (zusätzlich zu Suchmaschinen) hat, kann auch immer wieder andere Passwortkombinationen anzeigen lassen.
Ein kleiner Zusatztrick:
Listet in der Eingabeaufforderung Begriffe auf, die NICHT benutzt werden dürfen.
ZitatBitte benutzen Sie NICHT den Begriff "Gast" als Username. Alles andere ist gestattet.
Bitte benutzen Sie NICHT das Passwort "12345" als Passwort. Alle anderen sind gestattet.
Ein Spambot wird diesen Text erfassen wollen und dann ganz genau diese Begriffe eingeben.
Weiterleitungen, Umleitungen und alle anderen Sachen realisieren wir mit einer ganz einfachen ".htaccess" Datei.
- Abgleich von User-Agents können per User-Agent-Liste oder per Datenbank erfolgen.
- Zugangsname + Passwort kann auch mit einer .htaccess realisiert werden. Die Daten dazu liegen selbst auch hinter so einer Sperre, die jeden Zugriff verhindert.
Wer lieber mit Datenbanken arbeitet, kann natürlich auch entsprechend umfangreiche Tabellen anlegen, die durch die htaccess geprüft werden, bevor es weiter geht. Dabei sollte dann aber auch sicher gestellt sein, dass man nicht über Umwege in die Datenbank kommen kann. Die .htaccess kann nur durch speziellen ftp-Zugriff umgangen und manipuliert werden. Datenbänke kann man auch anders erreichen.
Auweia - nichts hat geholfen ?
Jetzt kommen die ganz "dicken Geschütze"! dran. Ab jetzt gibt es auch Kollateralschäden.
Wir bauen eine Datenbank auf, die sowohl User-Agents als auch die IPs aller Suchmaschinen enthält.
Dazu benutzen wir schon bestehende Datenbänke.
Unter http://www.botsvsbrowsers.com werden zurzeit zum Beispiel schon über 1,3 Mio. User-Agents mit IP aufgelistet.
Zusätzlich beziehen wir Spammerlisten in unsere eigene Datenbank ein.
Taucht ein User-Agent auf oder eine der gelisteten IP, bekommt der Crawler eine spezielle Fehlerseite angezeigt.
Zitat403: Forbidden for crawlers and spammesr
Die entsprechende .htaccess hinterlegen wir auf jeder Seite unseres Internetauftritts. Egal ob ein User die Passwortsperre umgangen hat oder sie korrekt beantwortete .. trägt er nicht den richtigen REF und/oder eine Information aus der Datenbank, fliegt er sofort wieder raus.
Sollte ein Crawler dann wirklich meinen, dass diese Fehlermeldungen eine Indexierung wert wären, wird es Suchende nicht mehr interessieren. 403 und 404 Fehlermeldungen gibt jede Seite aus. Man würde also zig Milliarden Treffer erhalten.. die alle sinn- und nutzlos für einen Suchenden sind.
Ich glaube, das war es jetzt endlich mit den Anti-SEO.
Mit diesen Maßnahmen ist die Seite für menschliche Besucher immer noch ohne Registrierung erreichbar. Suchmaschinen, Bots und Crawler sollten jedoch abgewiesen werden.
Gleichzeitig erweisen sich die vielen kleinen Weiter- und Umleitungen auch als kleiner Schutz gegen einfache Flooding-Versuche. Sie kommen jedenfalls nicht zur eigentlichen Seite um dort Traffic zu ziehen und das eigentliche System zu belasten, sondern Funktionen
Wenn das alles nicht hilft, gibt es nur noch eine letzte Lösung: Zugang nur für registrierte Benutzer.
Um sich dabei dann keine Spambots einzufangen, sollte man aber keine normale Registrierung benutzen, sondern eine ganz "altertümliche".
Legt nur eine Startseite an, auf der ein Hinweis steht.
ZitatUm Zugang zu erhalten, senden Sie eine Mail an xxxx@yyyy.zzz
Wenn Sie schon registriert sind, geben Sie Ihre Kennung ein
Der Zugang wird dann eben per Mail gegeben. Die nötigen Daten werden in einer .htaccess + .htaccesspw per Hand eingetragen.
Alles Weitere hat dann nichts mehr mit Anti-SEO zu tun. Die Seite ist dann nicht mehr öffentlich zugänglich und darüber muss man sich keine Sorgen mehr machen.
Copyrights by D.Handke 2014
Kopieren, Weiterverbreitung auch in geänderter Form zur sinnentsprechenden Verwendung ausdrücklich zugelassen. Bitte diesen "Copyright-Hinweis" auch übernehmen, damit sich "Anti-SEO-Maßnahmen" herum sprechen.
Ein Link zu dieser Seite ist rein freiwillig, wird aber sehr gern gesehen.