Dieser Bot / Crawler trägt die Browser-Kennung / Browser-Agent
ZitatMozilla/5.0 (compatible; SemrushBot/0.98~bl; +http://www.semrush.com/bot.html)
Aktuell bekannte IPs:
46.229.164.112
46.229.164.113
46.229.164.114
Der Bot scannt eine Seite immer wieder und versucht dabei auch immer wieder , mit einer anderen IP anzukommen, wenn man ihn versucht mit einem IP-Block auszusperen.
Die robots.txt werden ignoriert.
Wendet man sich den den Betreiber und fordert ihn auf, seinen Bot zu stoppen, erhält man folgende Antwort
ZitatHello,
Thank you for contacting SEMrush! After looking at your robots.txt file, it appears that you have successfully blocked our bot from crawling your site. We most likely found your site due to a backlink. You should not see our bot visit your page anymore.
I am sorry for any inconvenience. If you have any other questions, please feel free to ask!
Frei übersetzt:
Nachdem wir Ihre robots.txt geprüft haben, haben wir festgestellt, dass Sie unseren Bot erfolgreich vom Crawlen Ihrer Seite ausgesperrt haben. Wir haben wahrscheinlich Ihre Seite durch einen Backlink gefunden. Sie sollten unseren Bot nun nicht mehr auf Ihrer Seite sehen.
Diese Antwort kam am Mi 04.02.2015 22:57 Uhr
Was von dieser Antwort zu halten ist , zeigen folgende Momentaufnahmen.
05.02.2015
07.02.2015
----------------------------
Dem Betreiber ist also nicht zu trauen und seine Aussagen, weshalb der Bot die robots.txt nicht beachtet hat, sind einfach nur "laue Erklärungen für völlige Anfänger".
Wenn der Betreiber keine Kontrolle über seinen Bot hat - oder sie nicht ausüben will - muss man eben selbst dafür sorgen, dass dieser Bot draußen bleibt. Hier der Nachweis , beginnend nach der Zeit der Mail , dass dieser Bot die Seite fortwährend weiter aufsuchen will.
Änderung 07.02.1015:
Liste mit über 100 Auftauchen als TXT-Datei angehängt . Die Bilder oben zeigen aber, dass jedes einzelne Auftauchen gleichzeitig auch mit vielen Zugriffsversuchen verbunden ist.
Das ist übrigens ein Auszug aus dem Sicherheitssystem. Der Bot lässt sich zwar nicht durch den Browser-Agent aussperren, aber relativ leicht per IP-Block mit Wildcard blockieren.
Dass dieser Bot NICHT für den Seitenbetreiber nützlich ist, kann man u.a. unter https://www.mywot.com/en/scorecard/semrush.com nachlesen. Scheinbar handelt es sich um einen Content-Klau-Bot. Definitiv sorgt er aber für massig überflüssigen Traffics auf eurer Seite.
ZitatWe collect massive amounts of SERP data for more than 106 million keywords and about 100 millions domains, including: AdWords ad copies and positions, organic positions for domains and landing URLs, search volumes, CPC, competition, number of results, and so much more.
So, don´t trust this bot. Block it, because it`s better for your own page
Meinung geändert. Siehe folgenden abschließenden Mailverkehr. Alle entsprechenden Passagen wurden im Nachhinein durchgestrichen by "Ratgeber" am 10.02.2015