Suchmaschinenoptimierung

transparent und partnerschaftlich

Jetzt anfragen!

Einige Hintergründe der robots.txt

Die robots.txt oder auch Robot Exclusion Standard genannt, wurde zur besseren Steuerung der Suchmaschinen-Crawler geschaffen. Die Webmaster sollten eine Möglichkeit haben, mit den automatischen Bots kommunizieren zu können und ein paar Stoppschilder für einzelne Unterseiten oder ganze Homepages aufzustellen. Da dieses Robot Exclusion Protocol aber aus dem Jahr 1994 stammt, stellt sich die berechtigte Frage, wie aktuell und vor allem wie effizient diese Textdatei auf dem Root-Server noch ist.

Funktionen der robots.txt

Doch zunächst sehen wir uns die Funktionen der robots.txt an. Natürlich sollten in der heutigen Zeit immer alle Webcrawler über

User-agent: *

angesprochen werden, da man trotz Googles Marktanteilen in Europa, nie genau sagen kann, welche Suchmaschinen die eigene Website crawlen. Es könnte sich ja auch um koreanische Touristen handeln, die ihrer Gewohnheit nach Naver verwenden und auch über diese Suchmaschine Ihre Seite ansteuern wollen. Der Stern bezeichnet dabei einen sogenannten Wildchar, der kurz gesagt „alle“ bzw. „alles“ beschreibt.

In weiterer Folge ist der Befehl:

Disallow: /

von großer Bedeutung, da er ein generelles Verbot für die Crawler bei der Indexierung der Seite aufstellt.

Bei folgender Kombination werden folglich alle Seiten und Unterseiten der Domain für alle Crawler geblockt:

User-agent: *

Disallow: /

Die robots.txt soll natürlich auch weitere Funktionen als nur ein generelles Verbot bieten. Man kann zum Beispiel nur einzelne Crawler mit diesem File ansprechen:

User-agent: Googlebot

Disallow: /

Sehr interessant wird es aber beim Ausschließen nur einzelner Unterseiten.

Disallow: /* 2010

Dieser Befehl lässt keine Indexierung von URLs zu, welche 2010 enthalten. Der Crawler stoppt an dem Punkt an dem „2010“ zuerst erkannt wird. Dies ist zum Beispiel eine schöne Möglichkeit um alte News-Verzeichnisse den Crawlern vorzuenthalten. Sollte jedoch eine News aus dem Jahr 2010 doch bei Google erscheinen, da sie zum Beispiel die Gründung einer Tochterfirma enthält, kann man folgendermaßen vorgehen:

User-agent: *

Disallow: /* 2010

Allow: /2010/tochtergruendung.htm

Mit weiteren Befehlszeilen in der robots.txt kann man bestimmte Ordner ausschließen oder auch nur ganz bestimmte Dateien. Als Programmierer oder Webmaster sollte man natürlich mit diesen Befehlszeilen vertraut sein, aber sollte man sich auch wirklich auf diese Funktionen verlassen?

Robots.txt ein wenig von gestern!

Um jede weitere Diskussion hier abzubrechen, kann man einen Google-Mitarbeiter aus einem Panel der SEOkomm 2012 interpretieren und seine Aussagen zusammenfassen indem man sagt:

„Es ist nicht die sauberste Lösung!“

Das Problem an der robots.txt ist dabei leicht zu verstehen. Dieses Protokoll wurde in einer Zeit geschaffen, wo große Datenmengen noch schwerer zu bewältigen waren und zu einer Zeit wo Googles Siegeszug mit einer Bewertung der Websites über eingehende Links noch nicht begonnen hatte.

Anders ausgedrückt kann eine Website oder Unterseite im Index landen, wenn eine andere Seite ohne entsprechenden Disallow auf unsere Seite mit robots.txt Disallow linkt.

In diesem Fall landet zwar kein Inhalt unserer Seite im Index, aber ein Vermerk zu unserer Seite durchaus. Viele Studien zu diesem Thema belegen diesen Sachverhalt. Webmaster sollten sich also bewusst sein, dass die robots.txt in einer Robinson Crusoe Situation natürlich ihren vollen Zweck erfüllt, aber keinesfalls im interagierenden und vernetzten Internet.

Die Alternative zur robots.txt

Die beste Alternative zur robots.txt und um Suchmaschinen-Crawler tatsächlich auszusperren ist ein entsprechender noindex Meta-Tag über die Meta Robots.

Die gute Nachricht ist, dass dieser Meta-Tag in jedem Fall die eigene Seite oder Unterseite aus dem Index verbannt. Viele Webmaster wenden dies zum Beispiel für das Impressum an, um entsprechende Spam-Mails auf die dort gelisteten Mail-Adressen zu vermeiden. Hierzu einfach diesen Tag in den Head der entsprechenden Unterseite einbauen.

Doch wie so oft im IT-Bereich darf nicht auf eine klare Linie verzichtet werden. Also bitte nicht über die robots.txt das lesen des Heads mit dem oben angeführten Meta-Tag verhindern. Nur die Meta-Maßnahme einsetzen und man kann eine entsprechende Kontrolle über die Suchmaschinen-Bots realisieren.

Vorteile der robots.txt

Wenn man einige Webprojekte durchsieht, stellt man allerdings fest, dass gerade CMS-Systeme doch standardmäßig eine robots.txt anlegen. Das zeigt, dass die robots.txt doch noch einen gewissen Zweck erfüllt.

Einer dieser sinnvollen Einsatzmöglichkeiten ist der Schutz des Admin-Bereichs, der wohl nur in Ausnahmefällen von einer fremden Webseite angelinkt wird. Ein weiterer sinnvoller Einsatz wäre der Schutz von Benutzerprofilen, beispielsweise in einen Forum.

Wir können also kurz und bündig folgern:

Die robots.txt schützt uns nicht vor einer Indexierung der Seite selbst (wegen eingehenden Links) oder vor Crawlern, die sich nicht an die Befehle der robots.txt halten, aber zum Schutz vor der Indexierung eigentlicher Inhalte kann die robots.txt durchaus eingesetzt werden.

Sie wollen besser gefunden werden?

Jetzt kostenlos und unverbindlich anfragen!