Drücke „Enter”, um zum Inhalt zu springen.
Ausprobieren
Online Webseiten-Check
sofort das Ergebnis sehen
Auf meiner Webseite sind externe Links mit dem Symbol gekennzeichnet. Datenschutzhinweise · Wissensartikel

Mit robots.txt das Crawling einer Webseite steuern

5
Dies ist ein älterer Beitrag, der nicht unbedingt die aktuelle Haltung des Autors darstellt. Insbesondere zu den Themen Datenschutz, Google und Social Media ist der Autor aufgrund mittlerweile gewonnener Erkenntnisse anderer Meinung als früher! Was Web Hosting angeht, empfehle ich Strato, 1&1 und andere große nicht mehr.

Suchmaschinen werden immer wichtiger, zumal der über die Trefferlisten von Google, Bing und Co generierte Traffic immer weiter zunimmt. Im Zuge dessen spielt die Datei robots.txt eine große Rolle. Wir erklären, warum.

Das Robots File

Beispielhafter Aufbau einer robots.txt

Zunächst eine Illustration des Aufbaus der robots-Datei, die eine reine Textdatei ist, anhand eines Beispiels, in dem drei Zeilen für je ein anderes Verzeichnis Angaben zu den Zugriffsrechten (Disallow) machen und eine den Agent angibt, der auf die Dateien zugreifen darf (hier sind es alle Agents, gekennzeichnet über den Stern).

# robots.txt
User-agent: *
Disallow: /abc.css
Disallow: /privat/
Disallow: /jccs/
Sitemap: http://www.meine-domain.de/sitemap.xml

Alle Zeilen, die mit dem Gatter beginnen, im Einfachbeispiel ist es die erste Zeile, gelten als Kommentar.

Die Disallow Angaben sind insbesondere sinnvoll für Ressourcen, die nicht in den organischen Suchindex aufgenommen werden sollen. Übrigens ist es nicht so, dass alle in robots.txt für die Indizierung mit dem Schlüsselwort disallow ausgeschlossenen Verzeichnisse und Dateien tatsächlich auch nicht von Suchmaschinen oder einem Webcrawler berücksichtigt werden! Vielmehr wird normalerweise jede Ressource, die von außerhalb via Link referenziert wird, von einem Crawler auch in den Index aufgenommen. Allerdings werden derart gecrawlte Seiten in den SERPs (Suchergebnisseiten) im angezeigten Snippet oft entsprechend gekennzeichnet. Siehe auch die Hilfe von Google, die dieses Thema weiter beleuchtet.

Auch möglich sind Allow Angaben, diese sollen aber nicht nach Disallow Infos in robots.txt stehen, da die erste Angabe die übergeordnete Regel angibt.

Die Anweisungen in der Robots-Datei folgen übrigens alle dem Robots Exclusion Standard, der besagt, dass Webcrawler für eine gefundene Website im Root-Verzeichnis der Domain zuerst nach besagtem File suchen. So können Website-Betreiber einfach und standardisiert einzelne Bereiche ihrer Website für Suchmaschinen verriegeln.

Ist robots.txt wirklich notwendig?

Kurz gesagt kann man diese Frage mit ja beantworten. Es gilt schon alleine als Qualitätskriterium, wenn die Robots-Datei vorhanden ist bzw. als kleiner Mangel, wenn sie es nicht ist. Hier verhält es sich ungefähr wie bei einer Sitemap: Sie ist nicht erforderlich, aber ihre Verfügbarkeit erfreut Suchmaschinen und Webcrawler.

Weiterhin erleichtert die Datei mit ihren Informationen den Suchmaschinen das Leben, insbesondere beim Auffinden anderer Dateien als der ursprünglichen, vor allem wenn sie in einem sonst unbekannten Verzeichnis liegen. Da die Datenmenge im Netz immer weiter wächst, sollen selbst mächtige Serverparks wie die von Google schonend mit ihren Zugriffen umgehen. Und das bedeutet ein auf Effizienz getrimmtes Crawlen der Webseiten im Internet. Die robots.txt unterstützt die Suchmaschinen und Webcrawler genau dabei, denn sie hilft, die Crawler von irrelevanten Inhalten fernzuhalten und gibt zudem eine Referenz auf die o.g. Sitemap, welches das Indizieren von Dateien wiederum schneller gestaltet. Die Webcrawler merken sich natürlich, welche Datei bereits in den Index aufgenommen wurde und welche Anweisung noch nicht ausgeführt wurde.

Neben dem SEO-Thema sollte man mit dem robots.txt File auch Zugriffsrechte für User setzen und SEO-wirksam 404-Fehler vermeiden (404 = Seite nicht gefunden).

Die robots.txt Datei testen

Um zu prüfen, ob robots.txt ein gültiges Format hat, gibt es diverse kostenlose Online Tools. Wir empfehlen die Google Webmaster Tools dafür zu verwenden: Zu testende Webseite auswählen (oder neu registrieren), dann unter Crawling den Menüpunkt robots.txt Tester auswählen:

robots.txt crawl
Robots.txt Tester

Mit dem Robots.txt Generator kann der Inhalt der Datei mit Hilfe eines Online-Assistenten komfortabel erzeugt werden.

PS: Dies ist ein älterer Beitrag.

Wer schreibt hier?
Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Mir sind juristische Gegebenheiten nicht fremd. Meine Ergebnisse gewinne ich durch Betrachtung von Technik und Recht. Das scheint mir absolut notwendig, wenn es um digitalen Datenschutz geht. Über Ihre Unterstützung für meine Arbeit würde ich mich besonders freuen. Als Geschäftsführer der IT Logic GmbH berate ich Kunden und biete Webseiten-Checks an.
Bitte nutzen Sie bei Verwendung meiner Ergebnisse die Quellenangabe oder verlinken Sie gut wahrnehmbar auf diesen Artikel:
Quelle: Klaus Meffert, Dr. DSGVO Blog, Link: https://dr-dsgvo.de/robots-txt
Einen Kurzlink oder eine Bestätigung für Ihre Quellenangabe erhalten Sie kurzfristig auf Anfrage. Ein Teilen oder Verteilen dieses Beitrags ist natürlich ohne weiteres möglich und gewünscht.

Dieser Beitrag wird in anderen Beiträgen erwähnt

Nächster Beitrag

WordPress SEO Plugin by Yoast – Anleitung für schnelle Ergebnisse