Was ist die Hauptfunktion einer robots.txt-Datei?

Eine robots.txt-Datei steuert, welche Bereiche einer Webseite Suchmaschinen und Webcrawler durch ihren Crawling-Prozess besuchen dürfen. Sie hilft dabei, die Effizienz des Crawlings zu optimieren und unerwünschte Inhalte auszuschließen.

Warum ist die Vorhandensein einer robots.txt-Datei wichtig?

Obwohl sie nicht zwingend erforderlich ist, wird die Vorhandensein einer robots.txt-Datei von Suchmaschinen positiv bewertet. Sie erleichtert Suchmaschinen die Navigation durch die Website und trägt somit zur Optimierung des Crawling-Prozesses bei.

Mit robots.txt das Crawling einer Webseite steuern

Kategorien: SEO und Retrospektive

Dies ist ein älterer Beitrag, der nicht unbedingt die aktuelle Haltung des Autors darstellt. Insbesondere zu den Themen Datenschutz, Google und Social Media ist der Autor aufgrund mittlerweile gewonnener Erkenntnisse anderer Meinung als früher! Was Web Hosting angeht, empfehle ich Strato, 1&1 und andere große nicht mehr.

Suchmaschinen werden immer wichtiger, zumal der über die Trefferlisten von Google, Bing und Co generierte Traffic immer weiter zunimmt. Im Zuge dessen spielt die Datei robots.txt eine große Rolle. Wir erklären, warum.

Beispielhafter Aufbau einer robots.txt

Zunächst eine Illustration des Aufbaus der robots-Datei, die eine reine Textdatei ist, anhand eines Beispiels, in dem drei Zeilen für je ein anderes Verzeichnis Angaben zu den Zugriffsrechten (Disallow) machen und eine den Agent angibt, der auf die Dateien zugreifen darf (hier sind es alle Agents, gekennzeichnet über den Stern).

# robots.txt
User-agent: *
Disallow: /abc.css
Disallow: /privat/
Disallow: /jccs/
Sitemap: http://www.meine-domain.de/sitemap.xml

Alle Zeilen, die mit dem Gatter beginnen, im Einfachbeispiel ist es die erste Zeile, gelten als Kommentar.

Die Disallow Angaben sind insbesondere sinnvoll für Ressourcen, die nicht in den organischen Suchindex aufgenommen werden sollen. Übrigens ist es nicht so, dass alle in robots.txt für die Indizierung mit dem Schlüsselwort disallow ausgeschlossenen Verzeichnisse und Dateien tatsächlich auch nicht von Suchmaschinen oder einem Webcrawler berücksichtigt werden! Vielmehr wird normalerweise jede Ressource, die von außerhalb via Link referenziert wird, von einem Crawler auch in den Index aufgenommen. Allerdings werden derart gecrawlte Seiten in den SERPs (Suchergebnisseiten) im angezeigten Snippet oft entsprechend gekennzeichnet. Siehe auch die Hilfe von Google, die dieses Thema weiter beleuchtet.

Auch möglich sind Allow Angaben, diese sollen aber nicht nach Disallow Infos in robots.txt stehen, da die erste Angabe die übergeordnete Regel angibt.

Die Anweisungen in der Robots-Datei folgen übrigens alle dem Robots Exclusion Standard, der besagt, dass Webcrawler für eine gefundene Website im Root-Verzeichnis der Domain zuerst nach besagtem File suchen. So können Website-Betreiber einfach und standardisiert einzelne Bereiche ihrer Website für Suchmaschinen verriegeln.

Ist robots.txt wirklich notwendig?

Kurz gesagt kann man diese Frage mit ja beantworten. Es gilt schon alleine als Qualitätskriterium, wenn die Robots-Datei vorhanden ist bzw. als kleiner Mangel, wenn sie es nicht ist. Hier verhält es sich ungefähr wie bei einer Sitemap: Sie ist nicht erforderlich, aber ihre Verfügbarkeit erfreut Suchmaschinen und Webcrawler.

Weiterhin erleichtert die Datei mit ihren Informationen den Suchmaschinen das Leben, insbesondere beim Auffinden anderer Dateien als der ursprünglichen, vor allem wenn sie in einem sonst unbekannten Verzeichnis liegen. Da die Datenmenge im Netz immer weiter wächst, sollen selbst mächtige Serverparks wie die von Google schonend mit ihren Zugriffen umgehen. Und das bedeutet ein auf Effizienz getrimmtes Crawlen der Webseiten im Internet. Die robots.txt unterstützt die Suchmaschinen und Webcrawler genau dabei, denn sie hilft, die Crawler von irrelevanten Inhalten fernzuhalten und gibt zudem eine Referenz auf die o.g. Sitemap, welches das Indizieren von Dateien wiederum schneller gestaltet. Die Webcrawler merken sich natürlich, welche Datei bereits in den Index aufgenommen wurde und welche Anweisung noch nicht ausgeführt wurde.

Neben dem SEO-Thema sollte man mit dem robots.txt File auch Zugriffsrechte für User setzen und SEO-wirksam 404-Fehler vermeiden (404 = Seite nicht gefunden).

Die robots.txt Datei testen

Um zu prüfen, ob robots.txt ein gültiges Format hat, gibt es diverse kostenlose Online Tools. Wir empfehlen die Google Webmaster Tools dafür zu verwenden: Zu testende Webseite auswählen (oder neu registrieren), dann unter Crawling den Menüpunkt robots.txt Tester auswählen: